Reddit bloquea a Internet Archive para frenar el raspado de datos de IA

Arstechnica

Reddit ha decidido bloquear al Internet Archive (IA) para que no indexe de forma exhaustiva su contenido, alegando la preocupación de que las empresas de inteligencia artificial, ya restringidas para extraer datos directamente de Reddit, hayan estado, en cambio, recopilando datos del material archivado de IA. Este cambio significativo implica que la Wayback Machine del Internet Archive, que anteriormente ofrecía un registro fiable de páginas de Reddit, perfiles de usuario y comentarios como parte de su amplia misión de preservar internet, ahora solo archivará capturas de pantalla de la página de inicio de Reddit. Esta drástica reducción del alcance limita efectivamente la utilidad del archivo a una instantánea diaria de publicaciones populares y titulares de noticias, dejando de servir como una copia de seguridad detallada del contenido eliminado, una ventana a diversas subculturas de Reddit o un registro de la actividad individual del usuario.

Aunque Reddit no ha identificado públicamente a las empresas de IA específicas que cree que estaban extrayendo datos de la Wayback Machine, el portavoz de la compañía, Tim Rathschmidt, confirmó que Reddit ha tenido conocimiento de “casos en los que empresas de IA violan las políticas de la plataforma, incluidas las nuestras, y extraen datos de la Wayback Machine”. Rathschmidt sugirió que el Internet Archive podría implementar medidas para protegerse mejor contra la recolección de datos por parte de la IA, lo que podría llevar a Reddit a reconsiderar sus restricciones. Se informa que estas limitaciones al acceso de IA a los datos de Reddit se están intensificando en toda la plataforma.

Más allá de la preocupación inmediata por el raspado de datos por parte de la IA, Reddit también está aprovechando esta oportunidad para abordar lo que describe como problemas de privacidad de larga data. La compañía argumenta que las restricciones están justificadas porque la Wayback Machine archiva problemáticamente contenido que los usuarios han eliminado posteriormente. Rathschmidt declaró: “Hasta que puedan defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad del usuario, en cuanto a la eliminación de contenido), estamos limitando parte de su acceso a los datos de Reddit para proteger a los redditors”.

Históricamente, algunos Redditors han utilizado la Wayback Machine para investigar comentarios o hilos eliminados. Sin embargo, las discusiones en redes sociales indican que existen numerosas otras herramientas para desenterrar publicaciones eliminadas o investigar la actividad del usuario, y algunos sugieren que la Wayback Machine no siempre fue la plataforma más intuitiva para estos fines. Los Redditors también han recurrido a recursos como Internet Archive durante períodos de cambios significativos en la plataforma que podrían llevar a la eliminación de contenido. En particular, en 2023, cuando las alteraciones en la API pública de Reddit amenazaron con desmantelar subreddits queridos, los archivos desempeñaron un papel crucial en la preservación del contenido antes de que se perdiera.

El Internet Archive aún no ha indicado si está buscando activamente soluciones para que se levanten las restricciones de Reddit. Mark Graham, director de la Wayback Machine, señaló que IA tiene “una relación de larga data con Reddit” y sigue participando en “discusiones continuas sobre este asunto”.

Parece muy probable que las acciones de Reddit estén impulsadas por motivaciones financieras, con el objetivo de evitar que las empresas de IA exploten su contenido a través de archivos de terceros y, en su lugar, fomentar acuerdos de licencia directos más lucrativos. Reddit ha cerrado recientemente acuerdos significativos con grandes actores como OpenAI y Google. Si bien los términos del acuerdo con OpenAI permanecen sin revelar, el acuerdo con Google se valoró en 60 millones de dólares. En total, Reddit anticipa generar más de 200 millones de dólares de tales acuerdos de licencia en los próximos tres años, lo que subraya el alto riesgo que implica el control del acceso a su vasto tesoro de datos generados por los usuarios.