Cloudflare対Perplexity:AIウェブスクレイピング戦争が法的リスクを点火
インターネットインフラ大手CloudflareとAI検索スタートアップPerplexityの間で、人工知能の未来とコンテンツ所有権に大きな影響を与える違法なウェブスクレイピング行為に関する疑惑を中心に、重大な対立が勃発しました。Cloudflareは、Perplexityがrobots.txt
ディレクティブを含む標準的なウェブ制限を迂回し、ウェブサイトを「ステルスクロール」して許可なくコンテンツを収集していると公に非難しています。
この紛争は、Cloudflareが2025年8月5日に、Perplexityのクローラーを「検証済みボット」リストから削除し、Cloudflareが保護する約2400万のウェブサイトへの「ステルスボット」のアクセスを積極的にブロックすると発表したことで激化しました。多数の顧客からの苦情を受けて行われたCloudflareの調査により、Perplexityが宣言したユーザーエージェント(PerplexityBot
やPerplexity-User
など)が当初はサイトのクロールを試みるものの、ネットワークブロックやrobots.txt
による除外に遭遇すると、Perplexityのシステムはユーザーエージェントを変更し、ソースの自律システム番号(ASN)を変更し、macOS上のGoogle Chromeのような一般的なブラウザになりすますことで、その身元を隠蔽し、制限を回避していたとされています。この「ステルスクロール」活動は数万のドメインで観察され、毎日数百万のリクエストを生成していました。
Cloudflareは、インターネットは信頼の上に成り立っており、正当なクローラーは透明であり、明確な目的を持ち、そして最も重要なことに、ウェブサイトの指示に従うことが期待されると強調しました。Perplexityをブロックする彼らの行動は、AI企業が学習データに対して持つ飽くなき需要と、コンテンツ制作者の権利および嗜好との間の緊張が高まっていることを浮き彫りにしています。Cloudflareは最近、顧客がすべてのAIクローラーをブロックできる機能や、「クロールごとの支払い」プログラムも導入し、出版社がAI企業に対してコンテンツのライセンス料を設定できるようにしています。
Perplexityは、2025年7月時点で180億ドルと評価されるAIを搭載した「回答エンジン」であり、大規模言語モデルを活用してソースへの引用付きで回答を合成することで急速に台頭してきました。しかし、このスタートアップがデータ取得方法に関して非難に直面したのはこれが初めてではありません。ダウ・ジョーンズ、ニューヨーク・タイムズ、BBCを含む主要なメディア組織は、以前にもPerplexityに対して著作権侵害、無許可のコンテンツ使用、許可や適切な帰属なしでの逐語的なジャーナリズムの複製を主張し、法的措置を脅したり訴訟を提起したりしています。ダウ・ジョーンズとニューヨーク・ポストの親会社であるニューズ・コーポレーションは、2024年10月に著作権侵害訴訟を提起し、Perplexityが「大規模なフリーライド」を行い、トラフィックと収益を流用していると非難しました。BBCは2025年6月に訴訟を threatened し、PerplexityのAIモデルが自社のコンテンツで学習されたと主張し、差し止め命令と金銭的補償を求めました。
Cloudflareの主張に対し、Perplexityの広報担当Jesse Dwyerは、その報告を「営業トーク」と一蹴し、Cloudflareが提供したスクリーンショットには実際にコンテンツがアクセスされたことを示すものはなかったと主張しました。Perplexityは以前にも、業界の規範を遵守していると主張し、そのプラットフォームが「ユーザー主導型エージェント」を使用しており、ユーザーが特定の質問をした場合にのみコンテンツを取得し、取得したデータは保存されたりAIモデルの学習に使用されたりすることはないと弁護してきました。PerplexityのCEO Aravind Srinivasは、スクレイピングがAIモデルの学習に不可欠であると公に擁護しています。同社はまた、Gannettなどとライセンス契約を結び、200以上の出版物から合法的にコンテンツにアクセスしています。
このエスカレートする「ウェブスクレイピング戦争」は、robots.txt
のような現在のウェブプロトコルが、決意の固いスクレイパーに対して持つ限界を浮き彫りにし、ウェブのオープンな性質がAIの要求と衝突する極めて重要な局面を示しています。専門家は、この事件がウェブインフラプロバイダーからのより厳格な管理につながり、AIのための透明な慣行と強制力のあるデータアクセス契約に関する政策議論や規制当局の監視を激化させる可能性があると示唆しています。この議論は、急速に進歩するAI分野において、イノベーションと知的財産権のバランスを取りながら、より明確なガイドラインと保護対策が緊急に必要であることを強調しています。