CloudflareとPerplexityの対立:AIクローラーとウェブ信頼の亀裂が露呈
クラウドインフラ大手CloudflareとAI検索企業Perplexityとの間の公の論争は、インターネットの信頼に対する根本的な課題と、進化するAIデータ収集の状況に厳しい光を当てています。2025年8月上旬に展開されたこの激しいやり取りは、企業がますます高度化するAIクローラーからオンラインコンテンツを保護する方法における重大な脆弱性を明らかにし、新しいウェブ標準の緊急な制定を促しています。
この論争は、CloudflareがPerplexityを「ステルスクロール」で告発する技術レポートを発表したことで ignited しました。Cloudflareは、PerplexityがmacOS上の汎用Chromeユーザーエージェントのような偽装されたウェブブラウザを使用して、ウェブサイトのブロックを回避し、サイト所有者がAIトレーニングから明確に遠ざけようとしていたコンテンツをスクレイピングしていると主張しました。Cloudflareの調査は、顧客がrobots.txt
ディレクティブやファイアウォールルールを実装しているにもかかわらず、Perplexityが依然としてコンテンツにアクセスしていると苦情を述べた後に開始されたと報じられています。これらの懸念を検証するために、Cloudflareは新しいドメインを作成し、既知のすべてのAIクローラーをブロックした後、これらの制限されたサイトについてPerplexityに問い合わせたところ、Perplexityが依然としてそこから詳細な情報を提供していることを発見しました。Cloudflareによると、宣言されたクローラーがブロックされた後、Perplexityはこれらの汎用ユーザーエージェントに切り替えたとされ、宣言されたクローラーからの1日あたり2000万〜2500万件のリクエストに加えて、数万のウェブサイトで1日あたり300万〜600万件のリクエストを生成しました。Cloudflareは、この行動が透明性とウェブサイトの指示遵守というインターネットの核心原則に違反していると強調しました。[要約、3、4、6]
Perplexityはすぐに反論し、Cloudflareのレポートを、自社の顧客に対するマーケティング上の優位性を得ることを目的とした「宣伝目的の行為」であると一蹴しました。[要約、5] AI企業は、Cloudflareがサードパーティの自動ブラウザサービスであるBrowserBaseからの数百万件のウェブリクエストを根本的に誤ってPerplexityに帰属させたと示唆しました。Perplexityは、BrowserBaseの自社利用は1日あたり45,000件未満のリクエストであり、Cloudflareがステルスクロールとして引用した300万〜600万件のごく一部であると主張しました。[要約、5] Perplexityはさらに、Cloudflareが現代のAIアシスタントの性質を誤解していると主張し、そのサービスはデータ保存やトレーニング目的の従来のウェブクロールに従事するのではなく、特定のユーザーのクエリに対してリアルタイムでコンテンツを取得する「ユーザー駆動型エージェント」として機能すると説明しました。[要約、3、4、5]
業界アナリストは概ね、この公の論争が、現在のコンテンツ保護戦略におけるより深く、体系的な欠陥を露呈していることに同意しています。静的ウェブクローラー向けに設計された従来のボット検出ツールは、正当なAIサービスと問題のあるクローラーを区別するのに苦労しており、しばしば高い誤検出率を示し、回避戦術に弱い傾向があります。現代のAIボットはますます高度化しており、人間の行動を模倣したり、IPローテーションやプロキシサーバーを通じてその発生源を隠したり、さらには機械学習を利用してCAPTCHAのような防御を回避したりすることができます。ボット開発者と検出システム間のこの「軍拡競争」は、自動化されたトラフィックが現在、すべてのウェブ活動の半分以上を占め、悪意のあるボットだけで2024年にはインターネットトラフィックの37%を占め、2023年の32%から顕著に増加していることを浮き彫りにしています。
この論争はまた、AIウェブクロールを取り巻く重要な倫理的および法的考慮事項を前面に押し出しています。同意、透明性、知的財産の問題は最重要であり、AIシステムはしばしばコンテンツ作成者の意向を無視し、利用規約に違反します。倫理的なウェブスクレイピングには、プライバシーを尊重し、サイトのルールを遵守し、機密情報や個人情報の悪用を避けることが求められます。専門家は、明確なガイドラインを確立できない場合、「バルカン化されたウェブ」につながる可能性があると警告しており、その場合、アクセスは主要なインフラプロバイダーによって決定され、オープンイノベーションを阻害する可能性があります。[要約]
これらの増大する課題に対応するため、業界はゆっくりと新しい標準へと移行しています。注目すべき進展は、「Web Bot Auth」です。これは、自動エージェント認証のための提案されているウェブ標準であり、現在、ブラウザベンダー間の議論や標準化団体を通じて開発が進められています。このイニシアチブは、ボットとAIエージェントがウェブサイトに自身を識別するための統一された暗号で検証可能なフレームワークを作成することを目的としており、現在の断片化とスプーフィングの脆弱性に対処します。OpenAIはWeb Bot Authを通じて本人確認を試験的に導入していると報じられており、より透明性と説明責任のあるAIウェブインタラクションへの推進を示しています。[要約] しかし、成熟した標準は2026年までには期待されておらず、その間、企業はカスタム契約、robots.txt
ファイル、および進化する法的判例に引き続き依存することになるでしょう。[要約] その他の緩和戦略には、一部の主要なAIモデルが採用しているコンテンツセキュリティポリシー(Content Security Policy)またはURLアンカー(URL Anchoring)を使用して、AIエージェントが検索できるウェブサイトを制限することが含まれます。
CloudflareとPerplexityの対立は、インターネットにとって極めて重要な瞬間を浮き彫りにしています。AIの能力が進歩するにつれて、公平で機能的なデジタルエコシステムを確保するためには、明確な交戦規則、堅牢な認証メカニズム、そしてコンテンツ作成者、インフラプロバイダー、AI開発者間の信頼への新たな焦点がますます緊急に必要とされています。