Reddit、AIスクレイピングでInternet Archiveをブロック:ウェブの記憶は売却か?
Redditは、AI企業がWayback Machineを通じてRedditのデータを不正にスクレイピングしているという懸念から、Internet Archiveのプラットフォームへのインデックス作成能力に大幅な制限を加えると発表しました。即日、この人気ソーシャルメディアプラットフォームは、投稿の詳細ページ、ユーザーコメント、および個人のプロフィールをInternet Archiveがクロールすることを大幅にブロックします。アーカイブに引き続きアクセスできる唯一のコンテンツはReddit.comのホームページであり、Internet Archiveは主に、特定の日付にどのニュースの見出しや投稿が注目を集めたかを記録することに限定されます。
Redditの広報担当者ティム・ラースミット氏によると、この決定は、AI企業がWayback Machineからデータを抽出し、Reddit自身のものを含むプラットフォームポリシーに違反している事例が観察されたことに起因しています。Redditは、オープンウェブの保存におけるInternet Archiveの重要な役割を認めつつも、そのコンテンツのすべてがそのような悪用を助長する方法でアーカイブされるべきではないと主張しています。ラースミット氏は、Internet Archiveがそのサイトを適切に保護し、プラットフォームポリシー、特にユーザーのプライバシーと削除されたコンテンツの適切な取り扱いに関するコンプライアンスを確保できるまで、Redditはユーザーを保護するためにデータへのアクセスを制限すると述べました。
これらの新しい制限の実施は2025年8月11日に開始され、Redditは変更に先立ってInternet Archiveに通知したことを確認しました。この最新の制限は、Redditがユーザー生成コンテンツの膨大な宝庫へのアクセスを制御するための継続的な取り組みの新たな章を示しています。特にAI企業がデータ収集の取り組みを強化しているためです。このプラットフォームには、自動データ抽出ツールへのアクセスを制限してきた文書化された歴史があり、多くの場合、商業契約の下でのみデータを提供する意欲を示しています。
実際、Redditは、急成長するAIランドスケープにおけるデータの価値について積極的に戦略を立ててきました。昨年初め、同社はGoogleと注目すべき取引を行い、このテクノロジー巨人にGoogle検索とAIモデルトレーニングの両方でRedditのコンテンツへのアクセスを許可しました。数か月後、Redditは、同様の支払い契約を結ばない限り、主要な検索エンジンがそのデータをクロールするのをブロックし始めました。同社はまた、広範な抗議といくつかの人気のあるサードパーティアプリの閉鎖につながった物議を醸した2023年のAPI変更を、AIモデルトレーニングのためのAPIの悪用に起因するとしました。
AI目的でのデータの収益化は、Redditにとって中心的なテーマであり続けています。Googleとのパートナーシップに加えて、同社はOpenAIともAI取引を行いました。しかし、不正なデータ使用に対するその姿勢は依然として固く、6月にAnthropicに対して提起された訴訟によって証明されています。Redditは、Anthropicが以前にそのような活動を中止すると約束したにもかかわらず、そのプラットフォームからデータを抽出し続けたと主張しています。
ウェブサイトやその他の文化的遺産のデジタル記録を維持することをミッションとするInternet Archiveは、Redditの新しい制限について直ちにコメントしませんでした。この展開は、オープンウェブの保存原則と、生成AIの時代においてデータを制御し収益化しようとするプラットフォームの商業的要請との間の高まる緊張を浮き彫りにしています。