Cloudflare vs. Perplexity: Guerra de Raspado Web con IA y Riesgos Legales
El panorama digital se enfrenta actualmente a una disputa significativa entre el gigante de la infraestructura de internet Cloudflare y la startup de IA Perplexity, centrada en acusaciones de raspado web ilícito. Esta “guerra de raspado web” tiene profundas implicaciones para el futuro del desarrollo de la inteligencia artificial, la monetización de contenido y la ética misma de la adquisición de datos en la era digital.
Cloudflare inició la discusión pública el 4 de agosto de 2025, con una publicación de blog acusando a Perplexity, un “motor de respuestas” impulsado por IA, de eludir las restricciones de robots.txt
para raspar contenido. Los archivos robots.txt
son un estándar web de larga data, introducido en 1994 y formalmente estandarizado en 2022, que permite a los sitios web señalar si desean que su contenido sea indexado por motores de búsqueda o rastreadores de IA. Cloudflare alega que Perplexity inicialmente utiliza sus agentes de usuario declarados (como PerplexityBot), pero cuando es bloqueado, recurre al “rastreo sigiloso” al ocultar su identidad, modificar los agentes de usuario, cambiar las direcciones IP de origen y, a veces, incluso no obtener los archivos robots.txt
en absoluto. Este comportamiento, según Cloudflare, es incompatible con la “netiqueta” web establecida y los estándares éticos que históricamente han regido las interacciones en internet. La investigación de Cloudflare fue impulsada por numerosas quejas de sus clientes que habían prohibido explícitamente la actividad de rastreo de Perplexity en sus archivos robots.txt
e implementado reglas de Firewall de Aplicaciones Web (WAF), pero aún así encontraron que su contenido estaba siendo accedido por Perplexity. Desde entonces, Cloudflare ha eliminado a Perplexity de la lista de “bots verificados” y ha implementado nuevas reglas para bloquear su rastreo sigiloso.
Perplexity ha negado vehementemente las acusaciones de Cloudflare, calificando su análisis de “vergonzoso” y “descalificador”. Perplexity argumenta que los sistemas de Cloudflare son “fundamentalmente inadecuados para distinguir entre asistentes de IA legítimos y amenazas reales”. La startup de IA afirma que su sistema opera de manera fundamentalmente diferente a los rastreadores web tradicionales; en lugar de indexar sistemáticamente vastas porciones de la web, recupera páginas web solo en respuesta a preguntas específicas del usuario, actuando como un “agente activado por el usuario”. Perplexity afirma que no almacena ni indexa contenido con anticipación y no retiene ni utiliza el contenido recuperado para entrenar sus modelos.
Esta disputa no es un incidente aislado para Perplexity. La compañía ya está envuelta en batallas legales con importantes editores. En octubre de 2024, Dow Jones (empresa matriz de The Wall Street Journal y New York Post) presentó una demanda contra Perplexity, alegando “infracción masiva” de derechos de autor al copiar su contenido para construir su índice de Generación Aumentada por Recuperación (RAG). La demanda afirma que esta práctica permite a los usuarios de Perplexity “saltarse los enlaces” y acceder directamente a los resúmenes, lo que reduce el tráfico y los ingresos de los editores. De manera similar, la BBC envió una carta a Perplexity en junio de 2025, amenazando con acciones legales por raspar su contenido sin permiso y exigiendo compensación o eliminación de datos. La BBC afirma tener pruebas de que el modelo de Perplexity fue entrenado utilizando su contenido y que partes de su contenido fueron reproducidas textualmente, compitiendo directamente con sus servicios. Perplexity, a su vez, calificó las afirmaciones de la BBC de “manipuladoras y oportunistas” e indicativas de una “malinterpretación fundamental” de la tecnología y la ley de propiedad intelectual. A pesar de estos desafíos legales, Perplexity también ha llegado a acuerdos de reparto de ingresos con algunos editores, incluidos Time, Fortune y Der Spiegel, en un intento de abordar las preocupaciones sobre el contenido.
Las implicaciones más amplias de esta “guerra de raspado web” son significativas para la relación cambiante entre los desarrolladores de IA y los creadores de contenido. El auge de los rastreadores de IA que resumen contenido sin generar tráfico o ingresos directos para los editores amenaza el modelo de negocio dominante de la web. Los investigadores de ciberseguridad anticipan una “carrera armamentista” creciente entre quienes protegen el contenido y las empresas de IA que buscan datos. Si bien los límites legales del raspado de contenido y la elusión de robots.txt
siguen sin estar claros, los hallazgos de Cloudflare podrían exponer a Perplexity a más demandas. Este conflicto en curso subraya la necesidad urgente de directrices éticas claras y posiblemente nuevos marcos legales para gobernar cómo los sistemas de IA acceden y utilizan los datos en línea, equilibrando la innovación con los derechos de los creadores de contenido.