Cloudflare vs. Perplexity: La Batalla Ética del Raspado Web con IA se Intensifica
El campo de batalla digital entre el gigante de la infraestructura de internet Cloudflare y la startup de búsqueda de IA Perplexity se está intensificando, poniendo de relieve el polémico tema del raspado web con IA y las propias reglas que rigen los datos en línea. Cloudflare ha acusado públicamente a Perplexity de eludir sistemáticamente los bloqueos de sitios web y de enmascarar su identidad para recolectar datos, encendiendo un nuevo debate sobre la ética y la transparencia en la era de la IA.
Según Cloudflare, las acusaciones provienen de extensas observaciones y numerosas quejas de sus clientes. Cloudflare alega que los bots de Perplexity AI han estado ignorando los protocolos estándar de robots.txt
—las señales digitales de “No Entrar” para los rastreadores web— y otras reglas de firewall. Más sorprendentemente, Cloudflare afirma que los rastreadores de Perplexity adoptaron tácticas engañosas, alterando sus agentes de usuario para hacerse pasar por navegadores web comunes como Google Chrome en macOS y rotando direcciones IP para evadir la detección después de los bloqueos iniciales. Se informó que este supuesto comportamiento de “rastreo sigiloso” se observó en decenas de miles de dominios, generando millones de solicitudes diarias. Cloudflare incluso realizó pruebas controladas, configurando dominios restringidos, solo para descubrir que Perplexity aún era capaz de proporcionar información detallada sobre su contenido, lo que sugiere una elusión deliberada de las medidas de protección. En respuesta, Cloudflare ha eliminado a Perplexity de la lista de “bots verificados” y ha implementado nuevas reglas para bloquear activamente sus rastreadores sigilosos. El CEO de Cloudflare, Matthew Prince, no se anduvo con rodeos, comparando el comportamiento de algunas empresas de IA supuestamente “reputadas” con el de “hackers norcoreanos”.
Perplexity, sin embargo, ha negado vehementemente las acusaciones de Cloudflare, desestimándolas como un “truco publicitario” o un “argumento de venta” basado en malentendidos fundamentales sobre cómo operan los asistentes de IA modernos. Un portavoz de Perplexity argumentó que Cloudflare no logró diferenciar entre los rastreadores oficiales de Perplexity y el tráfico originado por servicios de terceros, como BrowserBase, que Perplexity afirma usar solo ocasionalmente. Perplexity sostiene que la gran mayoría de las solicitudes señaladas fueron impulsadas por el usuario, ocurriendo cuando un usuario hace una pregunta específica, lo que lleva a una obtención de información en tiempo real en lugar de un raspado sistemático y no autorizado para el entrenamiento de modelos. La compañía afirmó que sus sistemas no almacenan ni utilizan estos datos obtenidos para entrenar modelos de IA. Perplexity también sostuvo que los sistemas de Cloudflare son “fundamentalmente inadecuados” para distinguir entre asistentes de IA legítimos y amenazas reales, sugiriendo que caracterizar erróneamente las solicitudes de IA impulsadas por el usuario como bots maliciosos podría “criminalizar a los clientes de correo electrónico y a los navegadores web”.
Esta disputa creciente subraya una tensión más amplia y latente entre las empresas de IA y los editores de contenido. Perplexity ha enfrentado acusaciones similares antes, incluida una demanda en curso de Dow Jones Company (presentada en octubre de 2024) y una amenaza legal de la BBC (junio), ambas alegando raspado de contenido no autorizado. El núcleo del conflicto radica en la interpretación evolutiva de la etiqueta web y el protocolo robots.txt
, un “código de honor” de larga data desde los primeros días de internet. Mientras que los motores de búsqueda tradicionales históricamente dirigían el tráfico de vuelta a los editores, los bots de IA a menudo utilizan datos raspados para respuestas directas o entrenamiento de modelos, ofreciendo poco o ningún beneficio recíproco a los creadores de contenido originales. Este desequilibrio está impulsando llamadas a nuevos estándares y modelos de compensación, con algunas empresas de IA, como OpenAI, buscando acuerdos de licencia con los principales editores. Cloudflare, por su parte, ha introducido herramientas para que los editores bloqueen los bots de IA y un mercado para facilitar el acceso pago a datos, lo que indica un cambio hacia una relación más regulada y transaccional para la adquisición de datos de IA. A medida que los agentes de IA se vuelven más frecuentes, el resultado de esta batalla entre Cloudflare y Perplexity podría sentar un precedente crítico para la propiedad del contenido, la ética de los datos y el futuro de la web abierta.