谷歌主动学习:LLM训练数据减少万倍,模型更智能
大型语言模型(LLM)在分类不安全广告内容等复杂任务中展现出巨大潜力。识别违反广告政策的内容需要对上下文和文化细微差别有深入理解,而LLM在这些方面通常优于传统的机器学习系统。然而,为应对此类复杂挑战对LLM进行微调,通常需要大量高保真训练数据,这既难以获取又成本高昂。此外,“概念漂移”——安全政策的持续演变和新形式不安全内容的出现——使得这一挑战更加复杂,往往需要对全新数据集进行昂贵的再训练。因此,最大限度地减少训练所需数据量已成为一个关键目标。
为解决这一问题,Google Ads 开发了一种新的、可扩展的主动学习流程。这种创新方法大幅减少了LLM微调所需的训练数据量,同时显著提高了模型与人类专家的一致性。该流程可应用于包含数百亿个示例的数据集,迭代地识别出仅对人工标注最有价值的实例,然后利用这些专家提供的标签进行模型微调。在实验中,该方法将训练数据规模从10万个示例减少到不到500个,同时将模型与人类专家的一致性提升了高达65%。对于生产环境中更大的模型,甚至观察到了更大的数据量削减,使用的数据量减少了多达四个数量级,同时保持或提高了质量。
筛选过程始于一个初始LLM,该模型在极少或没有特定预训练的情况下,被给予一个定义感兴趣内容的提示——例如,“这个广告是点击诱饵吗?”然后,这个初始LLM会将大量广告数据集标记为“点击诱饵”或“良性”。由于生产广告中只有极小一部分是真正的点击诱饵,并且未经微调的LLM的真阳性率较低,因此这个初始数据集通常高度不平衡。为了精确定位信息量最大的示例,系统随后会对“点击诱饵”和“良性”标签进行聚类。关键的是,它会识别这些聚类重叠的区域,这些区域表明LLM对正确分类最困惑或不确定。从这些模糊区域中,选择彼此最近但标签不同的示例对。如果需要在预算内,系统会优先选择代表更大搜索空间的示例对。这种筛选出的数据集既信息量大(侧重于模型决策边界附近的示例),又具有多样性(来自该边界的各个部分)。这些选定的示例随后被发送给人类专家进行最终标注。
专家提供的标签随后被分为两组:一组用于模型评估,另一组用于微调当前的LLM,从而创建模型的下一个迭代版本。这个迭代过程持续进行,直到模型与人类专家的一致性达到专家内部自身的一致性水平,或达到平台期,表明无法再进一步改进。
对于广告安全领域的分类问题,例如内容审核或欺诈检测,由于固有的模糊性需要专家解释,通常没有单一的“真实值”。因此,依赖于明确真实值的标准指标(如准确率和召回率)并不适用。相反,谷歌的研究人员采用科恩卡帕系数(Cohen’s Kappa),这是一种统计量,用于量化两个独立标注者之间,或在本例中模型与人类专家之间,超出随机偶然性的一致性水平。卡帕系数越接近1表示强一致性,而0表示一致性不比随机偶然性好。分数高于0.8通常被认为是异常优秀,高于0.4则被认为是可接受的。
为了评估新的筛选过程,研究人员在两个不同复杂度的广告安全任务上,使用两个不同大小的Gemini Nano LLM(18亿和32.5亿参数)进行了实验。作为基线比较,这些模型使用大约10万个众包标注进行微调,这些标注通常存在显著的类别不平衡(大约95%是良性标签)。在筛选条件下,相同的模型使用新的主动学习过程进行多轮微调。模型在5到6次迭代后达到平台期,总共仅需要大约250到450个专家标注的微调示例和150到250个评估样本。
结果表明,筛选方法具有明显优势,尤其是在较大的模型上。虽然18亿参数模型在基线和筛选条件下均表现出可比但较低的性能(卡帕系数约为0.24-0.25),但32.5亿参数模型通过新的筛选过程实现了显著的质量改进。对于复杂度较低的任务,其卡帕系数从0.36(基线)跃升至0.56(筛选);对于复杂度较高的任务,从0.23提高到0.38。这意味着与人类专家的一致性提高了55-65%,而所用的数据量却减少了三个数量级——几百个示例与基线中的10万个示例相比。
这些发现强调,通过精心筛选LLM数据集,使其侧重于更少、信息量更大的示例,可以在显著减少数据量的情况下,获得卓越或同等的分类器性能。尽管实验显示减少了三个数量级,但生产系统中更大的模型甚至实现了高达四个数量级的数据使用量减少。然而,这种增益取决于极高质量的人工标注;已经观察到,标签质量高于0.8的成对科恩卡帕系数对于可靠地超越众包数据是必要的。通过智能地结合LLM广泛调查问题空间的能力与人类专家处理挑战性示例的精确性,这种筛选过程提供了一种灵活高效的方式来克服数据瓶颈,这对于广告安全等快速发展的领域尤其关键。