Reddit、AIデータスクレイピング阻止のためInternet Archiveをブロック

Arstechnica

Redditは、Internet Archive(IA)によるコンテンツの包括的なインデックス作成を阻止する措置を講じました。これは、AI企業がRedditから直接スクレイピングすることをすでに制限されているにもかかわらず、IAのアーカイブ資料からデータを収集しているという懸念を理由としています。この重要な変更により、これまでインターネットを保存するという広範な使命の一環としてRedditのページ、ユーザープロフィール、コメントの信頼できる記録を提供してきたInternet ArchiveのWayback Machineは、今後Redditのホームページのスクリーンショットのみをアーカイブすることになります。この大幅な範囲の縮小は、アーカイブの有用性を人気投稿やニュースの見出しの毎日のスナップショットに効果的に限定し、削除されたコンテンツの詳細なバックアップ、多様なRedditサブカルチャーへの窓、または個々のユーザー活動の記録としては機能しなくなります。

Redditは、Wayback Machineからデータをスクレイピングしていると見られる特定のAI企業を公には特定していませんが、同社広報担当のティム・ラースシュミット氏は、Redditが「AI企業が当社のポリシーを含むプラットフォームポリシーに違反し、Wayback Machineからデータをスクレイピングしている事例を認識している」と確認しました。ラースシュミット氏は、Internet ArchiveがそのようなAIデータ収集に対してより適切に保護する措置を講じることができ、それによってRedditが制限を再考する可能性があると示唆しました。IAのRedditデータへのアクセスに対するこれらの制限は、プラットフォーム全体で強化されていると報じられています。

AIによるスクレイピングという喫緊の懸念を超えて、Redditはこれを長年のプライバシー問題に対処する機会としても活用しています。同社は、Wayback Machineがユーザーが後に削除したコンテンツを問題なくアーカイブしているため、制限は正当であると主張しています。ラースシュミット氏は、「彼らが自身のサイトを保護し、プラットフォームポリシー(例えば、ユーザーのプライバシー尊重、削除されたコンテンツの削除に関して)を遵守できるようになるまで、我々はレディターを保護するために、彼らのRedditデータへのアクセスの一部を制限します」と述べました。

歴史的に、一部のレディターは削除されたコメントやスレッドを調査するためにWayback Machineを利用してきました。しかし、ソーシャルメディア上の議論では、削除された投稿を見つけたり、ユーザー活動を調査したりするための他の多くのツールが存在することが示されており、Wayback Machineがこれらの目的のために常に最も直感的なプラットフォームではなかったと示唆する意見もあります。レディターはまた、コンテンツの削除につながる可能性のあるプラットフォームの大幅な変更期間中に、Internet Archiveのようなリソースに頼ってきました。特に2023年には、Redditの公開APIの変更がお気に入りのサブレディットを解体する恐れがあった際、アーカイブはコンテンツが失われる前に保存する上で重要な役割を果たしました。

Internet Archiveは、Redditの制限を解除するための解決策を積極的に追求しているかどうかについては、まだ表明していません。Wayback Machineのディレクターであるマーク・グラハム氏は、IAが「Redditとは長年の関係がある」と述べ、「この件について継続的に議論している」と付け加えました。

Redditの行動は、AI企業がサードパーティのアーカイブを介してコンテンツを悪用するのを防ぎ、より収益性の高い直接ライセンス契約を促進することを目的とした、財政的な動機によるものである可能性が非常に高いです。Redditは最近、OpenAIやGoogleのような主要なプレイヤーと重要な契約を締結しました。OpenAIとの契約条件は未公開ですが、Googleとの取引は6000万ドルの価値があると報じられています。全体として、Redditは今後3年間でそのようなライセンス契約から2億ドル以上を生成すると予測しており、その膨大な量のユーザー生成データへのアクセスを制御することに伴う高い利害関係を強調しています。