Reddit bloquea Internet Archive: ¿Miedo a la IA o monetización?
Reddit ha anunciado una restricción significativa en la capacidad de Internet Archive para indexar su plataforma, una medida motivada por la preocupación de que empresas de inteligencia artificial estén extrayendo ilícitamente datos de Reddit a través de Wayback Machine. Con efecto inmediato, la popular plataforma de redes sociales bloqueará en gran medida a Internet Archive el rastreo de páginas de detalles de publicaciones, comentarios de usuarios y perfiles individuales. El único contenido que seguirá siendo accesible para el archivo es la página de inicio de Reddit.com, lo que significa que Internet Archive se limitará principalmente a documentar qué titulares de noticias y publicaciones ganaron prominencia en un día determinado.
Según Tim Rathschmidt, portavoz de Reddit, la decisión se deriva de instancias observadas en las que empresas de IA han violado las políticas de la plataforma, incluidas las propias de Reddit, al extraer datos de Wayback Machine. Si bien reconoce el papel vital de Internet Archive en la preservación de la web abierta, Reddit sostiene que no todo su contenido debería archivarse de una manera que facilite tal uso indebido. Rathschmidt afirmó que hasta que Internet Archive pueda defender adecuadamente su sitio y asegurar el cumplimiento de las políticas de la plataforma —específicamente en relación con la privacidad del usuario y el manejo adecuado del contenido eliminado— Reddit restringirá el acceso a sus datos para salvaguardar a sus usuarios.
La implementación de estos nuevos límites comenzó el 11 de agosto de 2025, y Reddit confirmó que había informado a Internet Archive con antelación sobre los cambios. Esta última restricción marca otro capítulo en los esfuerzos continuos de Reddit para controlar el acceso a su vasto tesoro de contenido generado por el usuario, particularmente a medida que las empresas de IA han intensificado sus esfuerzos de recopilación de datos. La plataforma tiene un historial documentado de restringir el acceso a herramientas automatizadas de extracción de datos, lo que a menudo señala una voluntad de proporcionar dichos datos solo bajo acuerdos comerciales.
De hecho, Reddit ha estado elaborando activamente estrategias en torno al valor de sus datos en el floreciente panorama de la IA. A principios del año pasado, la compañía forjó un notable acuerdo con Google, otorgando al gigante tecnológico acceso al contenido de Reddit tanto para Google Search como para el entrenamiento de modelos de IA. Unos meses después, Reddit comenzó a bloquear a los principales motores de búsqueda para que no rastrearan sus datos a menos que entraran en acuerdos de pago similares. La compañía también atribuyó sus controvertidos cambios en la API de 2023, que llevaron a protestas generalizadas y al cierre de varias aplicaciones populares de terceros, al abuso de esas APIs para entrenar modelos de IA.
La monetización de sus datos para fines de IA sigue siendo un tema central para Reddit. Más allá de su asociación con Google, la compañía también llegó a un acuerdo de IA con OpenAI. Sin embargo, su postura contra el uso no autorizado de datos sigue siendo firme, como lo demuestra una demanda presentada en junio contra Anthropic. Reddit alega que Anthropic continuó extrayendo datos de su plataforma a pesar de las garantías previas de cesar tales actividades.
Internet Archive, cuya misión es mantener un registro digital de sitios web y otros artefactos culturales, no comentó de inmediato sobre las nuevas restricciones de Reddit. Este desarrollo destaca la creciente tensión entre los principios de preservación de la web abierta y el imperativo comercial de las plataformas que buscan controlar y monetizar sus datos en la era de la IA generativa.