RedditがWayback Machineをブロック:AI企業によるデータ盗用が原因

Gizmodo

Redditは、Internet ArchiveのWayback Machineに対し、同ソーシャルメディアプラットフォームのコンテンツの大部分をインデックス化できないよう、大規模なブロックを開始しました。この断固たる措置は、Redditが人工知能企業が非営利団体によって保存されているデジタルアーカイブから貴重なユーザーデータをスクレイピングすることで、そのライセンスポリシーを回避していると特定した後に講じられました。

この動きは、Redditがその独自のデータに対する管理を強化するという進化する戦略を浮き彫りにしています。特に、そのような情報がAIモデルのトレーニングに非常に切望されている時代において顕著です。RedditはAI企業がその広範なユーザー生成コンテンツを利用することにオープンな姿勢を示していますが、そのようなアクセスには対価が支払われるべきだと主張しています。同社は以前、Internet Archiveのような「善意の行為者」を制限しないと示唆していましたが、その立場は現在変わっています。Redditは現在、一部のエンティティが、おそらく意図せずして、AI企業が直接的なライセンス契約と関連費用を回避するのを助けていると考えています。この突然の変化は、急速に拡大するAI業界において、データライセンスが重要な収益源としてますます重要になっていることを強調しています。

Internet Archiveは、数十億のウェブページに加え、数百万の書籍、ビデオ、ソフトウェアプログラムを含む、オンラインコンテンツの包括的なデジタルライブラリを構築することに専念する有名な非営利団体です。その主力ツールであるWayback Machineは、ユーザーがウェブページの過去のスナップショットをキャプチャし、特定の日付に表示されたとおりに正確に保存することを可能にします。この機能は長年、研究者、歴史家、そしてアーカイブされたインターネットコンテンツにアクセスしようとする一般の人々にとって不可欠なリソースとして機能してきました。

Redditは、特定のAI企業がWayback Machineを悪用してその確立されたポリシーを回避し、適切な許可なくユーザー生成コンテンツをスクレイピングしていることを示す証拠を持っていると主張しています。Redditの広報担当者は声明で、「Internet Archiveはオープンウェブにサービスを提供していますが、AI企業がプラットフォームポリシー(私たち自身のポリシーを含む)に違反し、Wayback Machineからデータをスクレイピングしている事例があることが判明しました」と説明しました。広報担当者は、Internet Archiveが「サイトを保護し、プラットフォームポリシー(例えば、ユーザーのプライバシーの尊重、削除されたコンテンツの削除に関して)を遵守できる」ようになるまで、Redditはユーザーを保護するためにデータへのアクセスを制限していると付け加えました。

新しい制限により、Wayback Machineは投稿の詳細ページ、個別のコメント、またはユーザープロフィールをクロールできなくなります。そのインデックス化機能は、Redditのホームページのみに限定されます。これらの制限は2025年8月11日に導入が開始され、RedditはInternet Archiveに差し迫った変更について事前に警告していたことを確認しました。Internet Archiveは、Redditの行動に関するコメントの要求にすぐには応じませんでした。

この行動は、Redditが近年、その膨大なデータリザーブへのアクセスに対する支配を強化するために講じた一連の措置の最新のものです。同社は引き続きデータのライセンス供与にオープンですが、対価なしにデータにアクセスしようとするエンティティに対する取り締まりを強化しています。この戦略はすでに、GoogleやOpenAIを含む主要なテクノロジー企業との間で数百万ドル規模の契約をもたらしています。例えば、Googleとの提携は、検索インデックス化とAIトレーニングデータの提供の両方を網羅しており、この取引の後、Redditは他の検索エンジンがその最新の投稿を結果に表示するのをブロックしました。さらに、6月には、RedditはAIスタートアップのAnthropicに対し、無許可のデータスクレイピングを告発して訴訟を起こし、データアクセスポリシーを強制する決意をさらに強調しました。