Perplexity AIが秘密裏にウェブサイトをスクレイピング、クロール禁止を無視か
AIコンテンツスクレイピングをめぐる進行中の戦いが大きくエスカレートする中、インターネットインフラ大手Cloudflareは、AI検索スタートアップのPerplexity AIが、ウェブサイトの制限を回避し、データを違法に収集するために「ステルスクローラー」を使用していると公に非難しました。2025年8月4日月曜日に発表されたCloudflareのレポートで詳述されたこの疑惑は、Perplexityのボットがrobots.txt
ディレクティブを含む広く受け入れられているウェブプロトコルを無視するために、積極的に自らを偽装していることを示唆しています。
Cloudflareの調査は、顧客からの苦情を受けて開始され、ウェブサイトがPerplexityの公式に宣言されたクローラー(PerplexityBot
など)をブロックするためにrobots.txt
ファイルや特定のファイアウォールルールを実装している場合でも、AIサービスがコンテンツにアクセスし続けていることを明らかにしました。Cloudflareによると、Perplexityのシステムは、正規のウェブブラウザのトラフィックを模倣し、IPアドレスを頻繁にローテーションさせ、ユーザーエージェントを変更して検出を回避する、未宣言のボットに切り替わっているようでした。Cloudflareのエンジニアはこの挙動を「適応型マルウェア」になぞらえ、CloudflareのCEOマシュー・プリンスは物議を醸す形で、この戦術を「北朝鮮のハッカー」が使用するものと比較しました。
ジェフ・ベゾスなどの投資家が支援する検索エンジンであるPerplexity AIは、ウェブコンテンツから応答を合成し、引用元を提供することで、透明で事実に基づいた情報検索を目指しています。しかし、Perplexityの広報担当者ジェシー・ドワイアーは、Cloudflareの主張を誤解を招くものとして退け、「実際にはコンテンツには一切アクセスしていない」と述べ、問題のトラフィックは彼らのシステムから発信されたものではないと示唆しました。この応答は、以前にも同様の疑惑がこのAI企業に対して向けられてきた経緯の中でなされました。
Perplexity AIが積極的なスクレイピングの疑惑に直面したのは今回が初めてではありません。2024年6月、Forbesは同社がイラストを含む記事全体をほとんど引用なしでコピーしたとして公に批判しました。Wiredも2024年6月に、Perplexityがそのような行為を明確に禁止しているサイトからコンテンツをスクレイピングしており、記事を不正確に言い換えているのが観察されたと報じました。主要なメディア組織も法的措置を講じています。The New York Timesは2024年10月に停止命令通知を出し、BBCは2025年6月に法的措置をちらつかせました。両者ともPerplexityを無許可のコンテンツ使用と著作権侵害で告発しています。Dow JonesとNew York Postも2024年6月に訴訟を提起しました。Perplexityは一般的に、彼らがフェアユースと信じる範囲内で公開情報を「集約」しており、大規模言語モデルを一から訓練しているのではなく、要約のためにウェブをインデックスしていると主張しています。
AIスクレイピングの増大する問題に対応するため、Cloudflareは積極的な措置を講じています。同社はPerplexity AIを「検証済みボット」のリストから削除し、これらの「ステルスクローリング」活動を積極的にブロックするためにシステムを更新しました。Cloudflareはまた、ウェブサイト所有者がAIトレーニングクローラーを簡単にブロックするためのツールを提供しており、2025年3月には「AIラビリンス」機能も導入しました。これは、不正なボットをAI生成されたジャンクコンテンツの迷路に閉じ込め、そのリソースを浪費させ、無許可のスクレイピングを阻止するように設計されています。CloudflareのCEOは、AI企業が倫理基準を採用する必要性を強調し、継続的な回避はより広範なブロックにつながる可能性があると警告しています。
この紛争は、AI時代における根本的な緊張を浮き彫りにしています。AI開発者はモデルを訓練するために膨大な量のデータを必要とする一方、コンテンツ発行者は自らの知的財産を管理し、収益化しようとしています。robots.txt
が長年にわたりウェブクローラーの自主的なプロトコルとして機能してきた一方で、AIトレーニングとコンテンツ生成のためにこれらの指示を無視することの倫理的および法的影響は依然として激しく議論されるトピックであり、業界規制と新しい法的枠組みへの要求を加速させる可能性があります。