Perplexity AI, acusada de raspado web encubierto y desafiar reglas
En una escalada significativa de la batalla en curso sobre el raspado de contenido de IA, el gigante de la infraestructura de internet Cloudflare ha acusado públicamente a la startup de búsqueda de IA, Perplexity AI, de emplear "rastreadores sigilosos" para eludir las restricciones de los sitios web y recolectar datos ilegalmente. Las acusaciones, detalladas en un informe de Cloudflare publicado el lunes 4 de agosto de 2025, sugieren que los bots de Perplexity se están disfrazando activamente para burlar los protocolos web ampliamente aceptados, incluidas las directivas robots.txt
.
La investigación de Cloudflare, impulsada por quejas de sus clientes, reveló que incluso cuando los sitios web implementaban archivos robots.txt
y reglas de firewall específicas para bloquear los rastreadores declarados oficialmente por Perplexity (como PerplexityBot
), el servicio de IA seguía accediendo al contenido. Según Cloudflare, los sistemas de Perplexity parecían cambiar a bots no declarados que imitaban el tráfico legítimo de navegadores web, rotaban frecuentemente las direcciones IP y alteraban los agentes de usuario para evadir la detección. Los ingenieros de Cloudflare compararon este comportamiento con un "malware adaptativo" y el CEO de Cloudflare, Matthew Prince, comparó polémicamente las tácticas con las utilizadas por "hackers norcoreanos".
Perplexity AI, un motor de búsqueda respaldado por inversores como Jeff Bezos, sintetiza respuestas a partir de contenido web y proporciona citas, con el objetivo de una recuperación de información transparente y fáctica. Sin embargo, un portavoz de Perplexity, Jesse Dwyer, desestimó las afirmaciones de Cloudflare como engañosas, declarando que "en realidad no se accedió a ningún contenido" y sugiriendo que el tráfico en cuestión no se originó en sus sistemas. Esta respuesta surge en medio de un historial de acusaciones similares contra la firma de IA.
Este no es el primer encuentro de Perplexity AI con acusaciones de raspado agresivo. En junio de 2024, Forbes criticó públicamente a la compañía por supuestamente copiar un artículo completo, incluidas las ilustraciones, con una atribución mínima. Wired también informó en junio de 2024 que Perplexity estaba raspando contenido de sitios que prohibían explícitamente tales acciones y fue observada parafraseando artículos de manera inexacta. Las principales organizaciones de medios también han tomado medidas legales; The New York Times emitió un aviso de cese y desista en octubre de 2024, y la BBC amenazó con acciones legales en junio de 2025, ambas acusando a Perplexity de uso no autorizado de contenido e infracción de derechos de autor. Dow Jones y New York Post también presentaron una demanda en junio de 2024. Perplexity ha mantenido generalmente que "agrega" información pública bajo lo que considera uso justo y no está entrenando grandes modelos de lenguaje desde cero, sino indexando la web para resúmenes.
En respuesta al creciente problema del raspado de IA, Cloudflare ha tomado medidas proactivas. La compañía ha retirado a Perplexity AI de la lista de "bots verificados" y ha actualizado sus sistemas para bloquear activamente estas actividades de "rastreo sigiloso". Cloudflare también ofrece herramientas para que los propietarios de sitios web bloqueen fácilmente los rastreadores de entrenamiento de IA e incluso introdujo una función de "Laberinto de IA" en marzo de 2025, diseñada para atrapar a los bots que se comportan mal en un laberinto de contenido basura generado por IA, desperdiciando sus recursos y disuadiendo el raspado no autorizado. El CEO de Cloudflare ha enfatizado la necesidad de que las firmas de IA adopten estándares éticos, advirtiendo que la evasión continua podría llevar a bloqueos más amplios.
La disputa subraya una tensión fundamental en la era de la IA: los desarrolladores de IA requieren grandes cantidades de datos para entrenar sus modelos, mientras que los editores de contenido buscan controlar y monetizar su propiedad intelectual. Si bien robots.txt
ha servido durante mucho tiempo como un protocolo voluntario para los rastreadores web, las implicaciones éticas y legales de ignorar estas directivas para el entrenamiento de IA y la generación de contenido siguen siendo un tema muy debatido, lo que podría acelerar los llamados a la regulación de la industria y a nuevos marcos legales.