Reddit limita el acceso de Wayback Machine por el 'scraping' de IA
En un movimiento significativo para afirmar el control sobre sus vastos archivos de contenido, Reddit ha restringido drásticamente el acceso de Internet Archive a su plataforma, citando el uso indebido por parte de empresas de inteligencia artificial. Con efecto inmediato, la popular plataforma de redes sociales limitará la Wayback Machine, un archivo digital de internet, a indexar solo la página de inicio de Reddit. Esta nueva política impide que la Wayback Machine acceda a publicaciones de usuarios individuales, comentarios y páginas de perfil, que anteriormente formaban un conjunto de datos rico y disponible públicamente.
Según el portavoz de Reddit, Tim Rathschmidt, esta decisión responde directamente a casos en los que empresas de IA supuestamente extrajeron contenido de Reddit a través de la Wayback Machine, violando así los términos de servicio de la plataforma. Según se informa, Reddit informó a Internet Archive de los cambios inminentes antes de su implementación.
Esta acción es el último paso en la agresiva campaña de Reddit para evitar el ‘scraping’ de datos no autorizado y el uso gratuito de su contenido por parte de empresas de IA. La compañía ha dejado clara su postura durante el último año, enfatizando el valor propietario de las conversaciones e información compartidas en su plataforma. En 2024, Reddit firmó acuerdos de licencia con gigantes de la industria de la IA como Google y OpenAI, otorgándoles acceso oficial a sus extensos datos para entrenar sus grandes modelos de lenguaje. Simultáneamente, la compañía ha comenzado a bloquear a los motores de búsqueda que no firman acuerdos de pago similares.
Para subrayar aún más su compromiso con la protección de sus datos, Reddit también presentó una demanda contra el desarrollador de IA Anthropic, acusando a la compañía de ‘scraping’ de datos no autorizado para sus propósitos de entrenamiento de IA. Estas medidas colectivas resaltan una creciente tensión entre las plataformas de contenido, que generan y alojan grandes cantidades de datos generados por humanos, y las empresas de IA, cuyos modelos dependen en gran medida de dichos datos para su desarrollo y funcionalidad.
La restricción en la Wayback Machine, aunque dirigida a las empresas de IA, también plantea preguntas sobre las implicaciones más amplias para el archivo digital y la accesibilidad del contenido histórico de internet. La misión de Internet Archive es preservar la web para las futuras generaciones, y la medida de Reddit representa que una parte sustancial del discurso público se vuelve menos accesible para la revisión histórica a través de esta herramienta de archivo particular. A medida que la tecnología de IA continúa evolucionando, la batalla por la propiedad de los datos, el acceso y la compensación justa sigue siendo un desafío central y definitorio para la economía digital.