コンテンツ監視:人間はAIより優秀だが、コストは40倍
ブランドセーフティのためのオンラインコンテンツの監視に関して、最近の研究は明確なトレードオフを明らかにしました。人間によるモデレーターは人工知能よりも著しく正確ですが、そのコストは驚くほど高く、最も効率的な機械学習ソリューションの約40倍に達します。このジレンマは、広告が問題のある素材の隣に表示されるのを防ごうと努めるマーケターにとって特に深刻であり、これはブランドの評判を保護するために不可欠な実践です。
これらの発見は、AIブランド保護企業Zefrに関連する専門家によって実施された研究に由来し、その詳細はプレプリント論文「AI vs. 人間モデレーター:ブランドセーフティのためのコンテンツモデレーションにおけるマルチモーダルLLMの比較評価」に記されています。この研究は、2025年国際コンピュータビジョン会議の広告とマーケティングにおけるコンピュータビジョン(CVAM)ワークショップでの発表が採択されており、マルチモーダル大規模言語モデル(MLLM)のブランドセーフティ確保におけるコストと有効性を綿密に分析しました。
研究者によって定義されるブランドセーフティとは、不適切なコンテンツがブランドと関連付けられるのを防ぎ、それによってブランドの公共イメージを保護する重要なプロセスです。これは、ソーシャルメディアプラットフォームにおける消費者向けコンテンツモデレーションとは異なり、後者はより広範なポリシー違反やユーザー生成コンテンツを扱うことが多いです。広告主にとって、ブランドセーフティとは、広告の配置を特定の好みに合わせ、暴力的または成人向けの内容から論争の的となる政治的言説まで、さまざまなカテゴリーを避けることを意味します。通常、これらの取り組みは、人間の監視と、画像、音声、テキストの機械学習分析を組み合わせて行われます。Zefrの研究は、最先端のMLLMがこの複雑なタスクをどの程度うまく実行できるか、そしてその財務的費用を評価することを目的としていました。
研究者たちは、GPT-4o、GPT-4o-mini、Gemini-1.5-Flash、Gemini-2.0-Flash、Gemini-2.0-Flash-Lite、Llama-3.2-11B-Visionという6つの主要なAIモデルを評価し、その性能を人間のレビュー担当者と比較しました。評価には、薬物、アルコール、タバコ。死、負傷、軍事紛争。子供向けコンテンツなどのカテゴリーに均等に分けられた1,500本の動画からなる多様なデータセットを使用しました。性能は、標準的な機械学習メトリクスである精度(陽性識別の正確性)、再現率(関連するすべての事例を捕捉する能力)、およびF1スコア(両方のバランスの取れた尺度)を用いて測定されました。
結果は、人間の優位性を明確に示しました。人間のモデレーターは、0.98という印象的なF1スコアを達成し、最小限の誤検出や誤否定でほぼ完璧な精度を示しました。対照的に、最も性能の良いMLLM(主にGeminiモデル)でさえ、F1スコアは最高で0.91でした。興味深いことに、研究は、これらのAIモデルのよりコンパクトなバージョンが、より大きなバージョンと比較して性能の著しい低下を被らなかったことを指摘しました。
MLLMはコンテンツモデレーションの自動化において有効であることが証明されましたが、特にニュアンスの多い状況や文脈に依存する状況ではその限界が明らかになりました。モデルは、誤った関連付け、文脈理解の欠如、および言語の壁のために頻繁に失敗しました。例えば、カフェイン中毒について日本語で議論している動画は、すべてのAIモデルによって誤って薬物関連の違反としてフラグが立てられました。この誤分類は、「中毒」という用語との欠陥のある関連付けと、非英語コンテンツに対する一般的な苦戦に起因するとされています。
これらの性能差がもたらす経済的影響は甚大です。人間によるモデレーションは優れた精度を提供しましたが、評価されたタスクにかかる費用は974ドルでした。対照的に、最も費用対効果の高いAIモデルであるGPT-4o-miniは、同じタスクをわずか25ドルで完了し、Gemini-1.5-FlashとGemini-2.0-Flash-Liteがそれぞれ28ドルでそれに続きました。GPT-4o(419ドル)やLlama-3.2-11B-Vision(459ドル)のようなより高価なAIモデルでさえ、人間の対応者よりもはるかに安価でした。
研究の著者らは、コンパクトなMLLMが精度を大幅に低下させることなく、かなり手頃な代替手段を提供する一方で、人間によるレビュー担当者は、特に複雑または微妙な分類を扱う場合に明確な優位性を維持していると結論付けました。Zefrの最高AI責任者であるジョン・モラは、今回の調査結果を要約し、マルチモーダル大規模言語モデルは、さまざまなメディアタイプにわたるブランドセーフティ動画モデレーションを驚くべき精度と低コストで処理できるものの、微妙なケースではまだ不足があると述べました。彼は、人間の専門知識とAIの効率性を組み合わせたハイブリッドアプローチが、進化するブランドセーフティの状況におけるコンテンツモデレーションにとって最も効果的かつ経済的な前進の道であると強調しました。