Cloudflare vs. Perplexity:AIウェブスクレイピング戦争と法的リスク

Fastcompany

現在、デジタルランドスケープは、インターネットインフラ大手CloudflareとAIスタートアップPerplexityの間で、不法なウェブスクレイピングの疑惑を巡る重大な紛争に直面しています。この「ウェブスクレイピング戦争」は、人工知能の開発、コンテンツの収益化、そしてデジタル時代におけるデータ取得の倫理そのものに深い影響を及ぼします。

Cloudflareは2025年8月4日、ブログ投稿でAIを搭載した「回答エンジン」であるPerplexityがrobots.txtの制限を回避してコンテンツをスクレイピングしていると非難し、この議論を公にしました。Robots.txtファイルは、1994年に導入され2022年に正式に標準化された長年のウェブ標準であり、ウェブサイトがそのコンテンツを検索エンジンやAIクローラーにインデックスさせたいかどうかを示すことを可能にします。Cloudflareは、Perplexityが当初は宣言されたユーザーエージェント(PerplexityBotなど)を使用するが、ブロックされると、身元を隠し、ユーザーエージェントを変更し、ソースIPアドレスを変更し、時にはrobots.txtファイルを全く取得しないことで「ステルスクロール」に頼ると主張しています。Cloudflareは、この行動は確立されたウェブの「ネチケット」や、歴史的にインターネットの相互作用を律してきた倫理基準と相容れないと主張しています。Cloudflareの調査は、robots.txtファイルでPerplexityのクロール活動を明示的に禁止し、Webアプリケーションファイアウォール(WAF)ルールを実装していたにもかかわらず、Perplexityがコンテンツにアクセスしていることを発見した多数の顧客からの苦情を受けて開始されました。Cloudflareはそれ以来、Perplexityを「検証済みボット」としてリストから削除し、そのステルスクロールをブロックするための新しいルールを実装しました。

PerplexityはCloudflareの告発を強く否定し、その分析を「恥ずべき」「失格」と呼んでいます。Perplexityは、Cloudflareのシステムが「正当なAIアシスタントと実際の脅威を区別するのに根本的に不十分である」と主張しています。このAIスタートアップは、そのシステムが従来のウェブクローラーとは根本的に異なる方法で動作すると断言しています。ウェブの広大な部分を体系的にインデックス化するのではなく、特定のユーザーの質問に応じてのみウェブページを取得し、「ユーザーがトリガーするエージェント」として機能します。Perplexityは、コンテンツを事前に保存したりインデックス化したりせず、取得したコンテンツをモデルのトレーニングのために保持したり使用したりしないと主張しています。

この紛争はPerplexityにとって孤立した事件ではありません。同社はすでに大手出版社との法廷闘争に巻き込まれています。2024年10月、ダウ・ジョーンズ(ウォール・ストリート・ジャーナルとニューヨーク・ポストの親会社)はPerplexityに対し、そのコンテンツをコピーして検索拡張生成(RAG)インデックスを構築することで「大規模な」著作権侵害を行ったとして訴訟を起こしました。訴訟は、この慣行がPerplexityユーザーに「リンクをスキップ」して直接要約にアクセスさせることで、出版社のトラフィックと収益を減少させると主張しています。同様に、BBCは2025年6月にPerplexityに対し、許可なくコンテンツをスクレイピングしたことに対する法的措置を警告する書簡を送り、補償またはデータの削除を要求しました。BBCは、Perplexityのモデルがそのコンテンツを使用してトレーニングされ、そのコンテンツの一部が逐語的に複製されており、BBCのサービスと直接競合している証拠があると主張しています。Perplexityはこれに対し、BBCの主張を「操作的かつ機会主義的」であり、技術および知的財産法に対する「根本的な誤解」を示しているとしました。これらの法的課題にもかかわらず、Perplexityは、コンテンツに関する懸念に対処するため、タイム、フォーチュン、デア・シュピーゲルを含む一部の出版社と収益分配契約も締結しています。

この「ウェブスクレイピング戦争」のより広範な影響は、AI開発者とコンテンツ作成者の間で進化する関係にとって重要です。出版社に直接的なトラフィックや収益を生成することなくコンテンツを要約するAIクローラーの台頭は、ウェブの支配的なビジネスモデルを脅かしています。サイバーセキュリティ研究者は、コンテンツを保護する側とデータを求めるAI企業との間で、「軍拡競争」がエスカレートすると予測しています。コンテンツのスクレイピングとrobots.txtの迂回に関する法的限界は依然として不明確ですが、Cloudflareの調査結果はPerplexityをさらなる訴訟に晒す可能性があります。この継続的な紛争は、AIシステムがオンラインデータにアクセスし利用する方法を規制するための明確な倫理的ガイドラインと、潜在的に新しい法的枠組みが緊急に必要であることを強調しており、イノベーションとコンテンツ作成者の権利とのバランスを取る必要があります。

Cloudflare vs. Perplexity:AIウェブスクレイピング戦争と法的リスク - OmegaNext AIニュース