Cloudflare vs. Perplexity:AIウェブスクレイピング倫理戦争が激化

Marktechpost

インターネットインフラ大手のCloudflareとAI検索スタートアップのPerplexityの間で、デジタル上の戦いが激化しており、AIウェブスクレイピングという物議を醸す問題と、オンラインデータを管理するまさにそのルールが注目されています。Cloudflareは、Perplexityがウェブサイトのブロックを組織的に回避し、その身元を偽装してデータを収集していると公に非難しており、AI時代における倫理と透明性に関する新たな議論を巻き起こしています。

Cloudflareによると、これらの告発は広範な観察と顧客からの多数の苦情に基づいています。Cloudflareは、Perplexity AIのボットが標準的なrobots.txtプロトコル(ウェブクローラーのためのデジタル「立ち入り禁止」標識)やその他のファイアウォールルールを無視してきたと主張しています。さらに驚くべきことに、CloudflareはPerplexityのクローラーが欺瞞的な戦術を採用し、ユーザーエージェントを変更してmacOS上のGoogle Chromeのような一般的なウェブブラウザになりすまし、最初のブロック後に検出を回避するためにIPアドレスをローテーションしていたと主張しています。この「ステルスクローリング」とされる行動は、数万のドメインで観察され、毎日数百万件のリクエストを生成したと報告されています。Cloudflareは、制限されたドメインを設定する制御テストまで行いましたが、Perplexityがそのコンテンツに関する詳細情報を提供できることを発見し、保護措置の意図的な回避を示唆しています。これに対し、CloudflareはPerplexityを「検証済みボット」リストから削除し、そのステルスクローラーを積極的にブロックするための新しいルールを実装しました。CloudflareのCEOマシュー・プリンスは言葉を濁さず、一部の「評判の良い」AI企業の行動を「北朝鮮のハッカー」のそれに例えました。

しかし、PerplexityはCloudflareの主張を強く否定し、現代のAIアシスタントがどのように機能するかについての根本的な誤解に基づいた「宣伝目的の策略」または「営業トーク」であると一蹴しました。Perplexityの広報担当者は、CloudflareがPerplexityの公式クローラーと、Perplexityが時折しか使用しないと主張するBrowserBaseなどのサードパーティサービスからのトラフィックを区別できなかったと主張しました。Perplexityは、フラグが立てられたリクエストの大部分はユーザー主導であり、ユーザーが特定の質問をした際に発生するリアルタイムの情報取得であって、モデルトレーニングのための体系的かつ不正なスクレイピングではないと主張しています。同社は、そのシステムが取得したデータをAIモデルのトレーニングのために保存または使用しないと断言しました。Perplexityはまた、Cloudflareのシステムは正当なAIアシスタントと実際の脅威を区別する上で「根本的に不十分」であると反論し、ユーザー主導のAIリクエストを悪意のあるボットと誤認することは「メールクライアントやウェブブラウザを犯罪者扱いする」ことになりかねないと示唆しました。

このエスカレートする紛争は、AI企業とコンテンツ発行者の間でくすぶる広範な緊張関係を浮き彫りにしています。Perplexityは以前にも同様の告発に直面しており、ダウ・ジョーンズ社からの継続中の訴訟(2024年10月提訴)やBBCからの法的脅威(6月)が含まれ、いずれも無許可のコンテンツスクレイピングを主張しています。紛争の核心は、ウェブのエチケットとrobots.txtプロトコルの解釈の進化にあります。これはインターネットの初期から続く長年の「名誉規範」です。従来の検索エンジンは歴史的にトラフィックを発行者に戻していましたが、AIボットはスクレイピングしたデータを直接的な回答やモデルトレーニングに利用することが多く、元のコンテンツ作成者にはほとんど相互利益がありません。この不均衡は、新しい標準と補償モデルを求める声に拍車をかけており、OpenAIのような一部のAI企業は主要な発行者とのライセンス契約を追求しています。Cloudflareは、発行者がAIボットをブロックするためのツールと、有料データアクセスを容易にするためのマーケットプレイスを導入しており、AIデータ取得においてより規制され、取引的な関係への移行を示唆しています。AIエージェントがより普及するにつれて、CloudflareとPerplexityのこの戦いの結果は、コンテンツ所有権、データ倫理、そしてオープンウェブの未来にとって重要な先例となる可能性があります。