Reddit Bloquea Wayback Machine: Acusa a la IA de Robar Datos

Gizmodo

Reddit ha iniciado un bloqueo significativo contra la Wayback Machine de Internet Archive, impidiendo que indexe la gran mayoría del contenido de la plataforma de redes sociales. Esta acción decisiva se produce después de que Reddit identificara que, según informes, empresas de inteligencia artificial estaban eludiendo sus políticas de licencia al extraer datos valiosos de usuarios de los archivos digitales almacenados por la organización sin fines de lucro.

La medida subraya la estrategia evolutiva de Reddit para ejercer un mayor control sobre sus datos propietarios, particularmente en una era donde dicha información es muy codiciada para el entrenamiento de modelos de IA. Si bien Reddit ha expresado su apertura a que las empresas de IA utilicen su extenso contenido generado por usuarios, insiste en que dicho acceso debe ser compensado. La compañía había indicado previamente que no restringiría a “actores de buena fe” como Internet Archive, pero su postura ha cambiado. Reddit ahora cree que algunas entidades, quizás sin intención, están facilitando que las empresas de IA eludan los acuerdos de licencia directos y las tarifas asociadas. Este cambio abrupto resalta la creciente importancia de la concesión de licencias de datos como una fuente de ingresos crítica en la industria de la IA en rápida expansión.

Internet Archive, una reconocida organización sin fines de lucro, se dedica a construir una biblioteca digital integral de contenido en línea, que abarca miles de millones de páginas web junto con millones de libros, videos y programas de software. Su herramienta insignia, la Wayback Machine, permite a los usuarios capturar y revisar instantáneas históricas de páginas web, preservándolas exactamente como aparecían en fechas específicas. Esta funcionalidad ha servido durante mucho tiempo como un recurso vital para investigadores, historiadores y el público en general que buscan acceder a contenido de internet archivado.

Reddit afirma poseer pruebas que indican que ciertas empresas de IA están explotando la Wayback Machine para eludir sus políticas establecidas, extrayendo así contenido generado por usuarios sin la debida autorización. En un comunicado, un portavoz de Reddit explicó: “Internet Archive proporciona un servicio a la web abierta, pero hemos sido informados de casos en los que empresas de IA violan las políticas de la plataforma, incluidas las nuestras, y extraen datos de la Wayback Machine”. El portavoz agregó que hasta que Internet Archive pueda “defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad del usuario, en relación con la eliminación de contenido eliminado)”, Reddit está limitando el acceso a sus datos para salvaguardar a sus usuarios.

Las nuevas restricciones significan que la Wayback Machine ya no podrá rastrear páginas de detalles de publicaciones, comentarios individuales o perfiles de usuario. Sus capacidades de indexación ahora se limitarán únicamente a la página de inicio de Reddit. Estas limitaciones comenzaron a implementarse el 11 de agosto de 2025, y Reddit confirmó que había advertido previamente a Internet Archive sobre los cambios inminentes. Internet Archive no respondió de inmediato a las solicitudes de comentarios sobre las acciones de Reddit.

Esta acción es la última de una serie de pasos que Reddit ha tomado en los últimos años para reforzar su control sobre el acceso a sus vastas reservas de datos. Si bien la compañía sigue abierta a licenciar sus datos, ha intensificado sus esfuerzos para reprimir a las entidades que intentan acceder a ellos sin compensación. Esta estrategia ya ha resultado en acuerdos multimillonarios con importantes actores tecnológicos, incluidos Google y OpenAI. La asociación con Google, por ejemplo, abarca tanto la indexación de búsqueda como la provisión de datos de entrenamiento de IA, un acuerdo que fue seguido por el bloqueo de Reddit a otros motores de búsqueda para que no mostraran sus publicaciones recientes en sus resultados. Además, en junio, Reddit inició acciones legales contra la startup de IA Anthropic, acusándola de extracción de datos no autorizada, lo que subraya aún más su compromiso de hacer cumplir sus políticas de acceso a datos.