IA Desata Guerra Web: ¿Quién Controla el Futuro Digital?
El panorama digital está actualmente inmerso en un conflicto creciente, dramáticamente denominado “La Guerra por la Web”, ya que un destacado guardián de internet, Cloudflare, acusa públicamente a una estrella emergente de la IA, Perplexity AI, de incumplir sistemáticamente las reglas fundamentales de internet. Esta disputa explosiva, destacada por Gizmodo, amenaza con redefinir cómo se accede y se compensa la información en línea, con profundas implicaciones para editores, desarrolladores de IA y usuarios por igual.
En el centro de la disputa están las acusaciones de Cloudflare, una importante empresa de infraestructura de internet, de que Perplexity AI ha empleado tácticas de “raspado sigiloso”. Cloudflare afirma que los sistemas automatizados de Perplexity, o bots, están eludiendo deliberadamente los archivos robots.txt
– las señales digitales de “No Entrar” que los sitios web usan para dictar qué contenido puede ser rastreado e indexado. Según el análisis de Cloudflare, los rastreadores de Perplexity no solo ignoran estas directivas explícitas, sino que también disfrazan sus identidades alterando los agentes de usuario, rotando las direcciones IP y cambiando los números de sistema autónomo (ASN) para evadir la detección y acceder al contenido en contra de los deseos de los propietarios de los sitios web. El informe de Cloudflare, publicado a principios de esta semana, detalló cómo estos bots supuestamente imitan el tráfico legítimo del navegador, adaptando sus métodos cuando son bloqueados, de manera similar al malware adaptativo.
Perplexity AI, una aplicación de búsqueda impulsada por IA y respaldada por inversores de alto perfil, ha negado vehementemente las acusaciones de Cloudflare. Un portavoz de Perplexity calificó la publicación del blog de Cloudflare como un “argumento de venta” y sostuvo que el bot identificado por Cloudflare no era suyo o que no accedió a ningún contenido. Perplexity afirma que sus asistentes de IA operan como “agentes activados por el usuario” que recuperan información en tiempo real basándose en las solicitudes del usuario, de forma similar a como un humano navega por la web, en lugar de realizar un raspado masivo indiscriminado para el entrenamiento de modelos. Argumentan que Cloudflare podría estar malinterpretando los matices de la recuperación de información moderna impulsada por la IA.
Este choque es emblemático de una tensión mucho más amplia que se gesta en todo el ecosistema digital. Editores y creadores de contenido son cada vez más vocales sobre la percibida explotación de su propiedad intelectual por parte de las empresas de IA, que a menudo ingieren vastas cantidades de datos web para entrenar sus grandes modelos de lenguaje (LLMs) sin consentimiento ni compensación. Una reciente reunión de más de 80 ejecutivos de medios en Nueva York, convocada por el IAB Tech Lab, subrayó esta creciente resistencia, con representantes de Google y Meta uniéndose al llamado para nuevos marcos que gestionen el acceso al contenido de IA. Esta cumbre tenía como objetivo desarrollar una API de Ingesta de Contenido para LLMs que haría cumplir el consentimiento del editor, yendo más allá de las directrices voluntarias que muchas empresas de IA supuestamente han ignorado.
De hecho, la controversia se extiende más allá de Perplexity. Han surgido informes que revelan el raspado sistemático por parte de Meta de aproximadamente 6 millones de sitios web únicos para entrenar sus modelos de IA, supuestamente eludiendo los protocolos de protección y recolectando contenido de diversas fuentes, incluyendo organizaciones de noticias y material con derechos de autor. Cloudflare mismo ha sido proactivo en este panorama en evolución, habiendo lanzado recientemente un servicio de “pago por rastreo” en julio de 2025, que permite a los creadores de contenido cobrar a los rastreadores de IA por el acceso, y una herramienta gratuita para bloquear completamente los bots de IA.
La “Guerra por la Web” es, en última instancia, una batalla por el control, la compensación y la propia definición del uso justo en la era de la inteligencia artificial. A medida que los modelos de IA se vuelven cada vez más sofisticados y voraces de datos, el resultado de esta disputa entre Cloudflare y Perplexity, y las discusiones más amplias que desencadena en la industria, sin duda moldearán los futuros modelos económicos del contenido en línea y las reglas fundamentales que rigen internet. Expertos legales están monitoreando de cerca estos desarrollos, ya que podrían poner a prueba los límites de las leyes existentes y acelerar la necesidad de nuevos estándares éticos y técnicos para las prácticas de datos de IA.