Cloudflare、Perplexityを「ステルスAIウェブクローリング」で告発

Arstechnica

インターネットインフラ大手Cloudflareは、2025年8月4日に公開された報告書によると、AI検索エンジンPerplexityがウェブサイト所有者によるウェブクローリング禁止の明確な指示を回避するために「ステルス戦術」を採用していると非難しました。Cloudflareのブログ投稿で詳述されたこれらの疑惑は、Perplexityがrobots.txtファイルを通じて公式ボットをブロックしているサイトからコンテンツをスクレイピングするために、通常のブラウザトラフィックを模倣する未申告のクローラーを使用していると主張しています。

ウェブトラフィックの大部分を管理するCloudflareは、ユーザーエージェントとIPアドレスの異常なパターンを監視することで、これらの秘密裏の操作を検出したと述べています。Perplexityの申告されたクローラー、例えば「PerplexityBot」は、しばしばウェブサイトによってブロックされます。これに対し、Cloudflareは、Perplexityがより巧妙な方法に転換したと主張しています。これには、さまざまなプロバイダー間でIPアドレスをローテーションさせたり、ユーザーエージェントを変更してmacOS上の標準Chromeブラウザに見せかけたりすることで、自動スクレイピングを人間のアクセスとして効果的に偽装する行為が含まれます。CloudflareのCEO、Matthew Princeは、Perplexityの行動を「北朝鮮のハッカー」のそれに例え、インターネットエチケットにおける信頼の侵害を強調しました。

Perplexityがこのような非難に直面するのは今回が初めてではありません。以前のWiredとForbesの報道も、明確なブロックにもかかわらず同様のスクレイピング行為を主張していました。この論争は、モデルのために膨大な量のデータを必要とするAI企業と、知的財産を保護しコンテンツの利用方法を管理しようとする出版社との間の緊張が高まっていることを浮き彫りにしています。同意に基づくスクレイピングの問題は法的な課題に発展しており、BBCは2025年6月にPerplexityに対し、スクレイピングされたコンテンツの削除と補償を求める停止命令書を送付しました。Dow Jonesも同様の懸念から訴訟を開始しています。

「robots.txt」ファイルは、ウェブクローラーがサイトとどのように相互作用すべきかについて、ウェブサイト所有者の好みを伝えるために設計された長年のウェブ標準です。法的な拘束力はありませんが、ウェブクローリングの倫理的ガイドラインとして広く認識されています。Cloudflareは、Perplexityの主張される行動がこれらの確立されたウェブクローリングの規範に違反していると主張しています。

これらの発見と高まる懸念に対応して、CloudflareはPerplexityを「検証済みボット」リストから削除し、このステルスクローリング活動を自動的にブロックする新しい管理ルールを実装しました。Cloudflareはまた、「Pay per Crawl」(クローリングごとの支払い)イニシアチブに向けて動いています。これは、明示的な許可が与えられない限り、そのネットワーク上の新しいサイトのAIクローラーをデフォルトでブロックし、コンテンツ所有者がAIトレーニングのためにデータへのアクセスを収益化できる可能性を提供します。この変更は、出版社により多くの制御を与え、AIデータ取得のためのより透明性の高い経済モデルを確立することを目的としています。

しかし、PerplexityはCloudflareの主張を否定しており、広報担当者は「実際にはコンテンツにアクセスされていない」と述べ、問題のトラフィックが彼らのシステムから発生したものではないと示唆しています。それにもかかわらず、この進行中の紛争は、AI技術が進化し、オンラインでの情報アクセスと利用方法を再構築し続ける中で出現する、複雑な倫理的および法的状況を浮き彫りにしています。

Cloudflare、Perplexityを「ステルスAIウェブクローリング」で告発 - OmegaNext AIニュース