Cloudflare acusa a Perplexity de "rastreo sigiloso" de sitios web

2025-08-05T08:39:39.000ZTechrepublic

Cloudflare, un destacado proveedor de infraestructura de internet, ha acusado públicamente a la startup de IA Perplexity de participar en "comportamiento de rastreo sigiloso" en millones de sitios web, reavivando un controvertido debate sobre cómo las empresas de IA acceden y utilizan el contenido web. La acusación, detallada en una reciente publicación del blog de Cloudflare, alega que los bots de Perplexity eluden las restricciones establecidas por los sitios web, incluidos los archivos robots.txt y las reglas de firewall, para extraer contenido.

Según Cloudflare, los rastreadores de Perplexity inicialmente usan agentes de usuario declarados, pero cuando se enfrentan a bloqueos de red o directivas de denegación de robots.txt, supuestamente cambian a firmas de navegador genéricas no declaradas y rotan direcciones IP para evadir la detección. Este comportamiento se observó en decenas de miles de dominios y millones de solicitudes por día, con Cloudflare utilizando aprendizaje automático y señales de red para identificar la actividad sigilosa, incluyendo casos en los que los bots se hacían pasar por navegadores web populares como Google Chrome en macOS. Los hallazgos de Cloudflare surgieron de quejas de clientes que notaron que Perplexity seguía accediendo a su contenido a pesar de tener bloqueos explícitos.

El archivo robots.txt es un estándar web ampliamente adoptado que proporciona instrucciones a los robots web, como los rastreadores de motores de búsqueda, sobre qué partes de un sitio web tienen permitido acceder. Cloudflare afirma que las acciones de Perplexity están en conflicto directo con estas normas de rastreo web, que enfatizan la transparencia y la adhesión a las directivas del sitio web. Como resultado, Cloudflare ha eliminado a Perplexity de su lista de bots verificados y ha actualizado sus reglas para bloquear dicha actividad sigilosa, ofreciendo a sus clientes una protección mejorada contra estos rastreadores no declarados.

En respuesta a las alegaciones de Cloudflare, Perplexity ha respondido enérgicamente, caracterizando el liderazgo de Cloudflare como "o peligrosamente mal informado sobre los fundamentos de la IA, o simplemente más alarde que sustancia". Perplexity aclaró en una publicación que sus agentes de IA operan de manera diferente a los rastreadores web tradicionales. La empresa afirma que cuando un usuario hace una pregunta que requiere información actual, su IA va a los sitios web relevantes, lee el contenido y proporciona un resumen personalizado, enfatizando que este contenido no se almacena con fines de entrenamiento sino que se usa inmediatamente para responder la consulta del usuario. Perplexity también sugirió que Cloudflare podría estar confundiendo su tráfico legítimo con solicitudes no relacionadas de servicios de terceros como BrowserBase.

Esta disputa destaca una creciente tensión dentro del ecosistema digital, donde las empresas de IA requieren grandes cantidades de datos para sus modelos, mientras que los creadores de contenido y los editores buscan controlar cómo se accede y se monetiza su propiedad intelectual. La efectividad de robots.txt como protocolo voluntario está siendo cada vez más cuestionada en la era de la IA, lo que lleva a llamados para mecanismos más robustos para que los propietarios de contenido expresen sus preferencias con respecto al uso de datos de IA. La reciente iniciativa de Cloudflare "Día de la Independencia del Contenido", que permite a más de 2.5 millones de sitios web bloquear los rastreadores de entrenamiento de IA, subraya el cambio de la industria hacia proporcionar un mayor control a los creadores de contenido.

El incidente con Perplexity no es aislado; otras empresas de IA como Anthropic enfrentan acusaciones similares y desafíos legales, incluida una demanda de Reddit por la extracción de contenido. Si bien algunas empresas de IA como OpenAI supuestamente se adhieren a las mejores prácticas y estándares propuestos para el comportamiento de los bots, la controversia actual enfatiza la necesidad continua de directrices éticas claras y soluciones técnicas para gestionar el rastreo web impulsado por IA de manera responsable.

Cloudflare acusa a Perplexity de "rastreo sigiloso" de sitios web - OmegaNext Noticias IA