人类内容审核优于AI,但成本高出40倍

Theregister

在对在线内容进行品牌安全审查时,一项最新研究揭示了一个鲜明的权衡:人工审核员的准确性远高于人工智能,但其成本却高得惊人,几乎是最有效机器学习解决方案的40倍。这种困境对于力求防止广告出现在问题材料旁边的营销人员来说尤为严峻,因为这对于保护品牌声誉至关重要。

这些发现源于与AI品牌保护公司Zefr相关的专家进行的研究,详细内容刊载于他们的预印本论文《AI vs. 人类审核员:多模态大语言模型在品牌安全内容审核中的比较评估》中。这项研究已被2025年国际计算机视觉大会的广告与营销计算机视觉(CVAM)研讨会接受发表,其中细致分析了多模态大语言模型(MLLM)在确保品牌安全方面的成本和有效性。

研究人员将品牌安全定义为防止不当内容与品牌关联,从而维护其公众形象的关键过程。这与社交媒体平台上消费者端的内容审核不同,后者通常处理更广泛的政策违规和用户生成内容。对于广告商而言,品牌安全意味着将广告投放与特定偏好对齐,避免从暴力或成人主题材料到有争议的政治言论等各种类别。通常,这些工作结合了人工监督和对图像、音频和文本的机器学习分析。Zefr的研究旨在评估尖端MLLM如何出色地完成这项复杂任务以及所需的财务开销。

研究人员评估了六个主要AI模型——GPT-4o、GPT-4o-mini、Gemini-1.5-Flash、Gemini-2.0-Flash、Gemini-2.0-Flash-Lite和Llama-3.2-11B-Vision——将其性能与人工审核员进行比较。评估使用了包含1,500个视频的多元数据集,平等分为“毒品、酒精和烟草”、“死亡、伤害和军事冲突”以及“儿童内容”等类别。性能使用标准机器学习指标衡量:精确率(正确识别的准确性)、召回率(捕获所有相关实例的能力)和F1分数(两者的平衡衡量)。

结果明确显示了人类的优越性。人工审核员取得了令人印象深刻的0.98的F1分数,表明近乎完美的准确性,且误报或漏报极少。相比之下,即使是表现最佳的MLLM,主要是Gemini模型,F1分数也最高达到0.91。有趣的是,研究指出,这些AI模型的更紧凑版本与其大型版本相比,性能并未出现显著下降。

尽管MLLM在自动化内容审核方面表现出有效性,但其局限性也变得显而易见,特别是在细微或上下文丰富的场景中。这些模型经常因不正确的关联、缺乏上下文理解和语言障碍而出现错误。例如,一段讨论咖啡因成瘾的日文视频被所有AI模型错误地标记为与毒品相关的违规,这种错误分类归因于对“成瘾”一词的错误关联以及对非英语内容的普遍处理困难。

这些性能差异的财务影响是深远的。虽然人工审核提供了卓越的准确性,但其评估任务成本高达974美元。相比之下,最具成本效益的AI模型GPT-4o-mini仅以25美元完成了相同的任务,紧随其后的是Gemini-1.5-Flash和Gemini-2.0-Flash-Lite,每个28美元。即使是更昂贵的AI模型,如GPT-4o(419美元)和Llama-3.2-11B-Vision(459美元),也比人工审核员便宜得多。

研究作者总结道,尽管紧凑型MLLM在准确性没有大幅下降的情况下提供了更经济实惠的替代方案,但人工审核员仍保持明显优势,尤其是在处理复杂或细微分类时。Zefr首席AI官乔恩·莫拉(Jon Morra)总结了研究结果,指出尽管多模态大语言模型能够以惊人的准确性和更低的成本处理各种媒体类型的品牌安全视频审核,但在细微案例中仍有不足。他强调,在不断发展的品牌安全领域,结合人类专业知识和AI效率的混合方法代表了内容审核最有效和最经济的前进道路。