深度优化FGVC:构建实时汽车分类器的经验与启示
在过去的一年里,Multitel的研究人员深入探索了细粒度视觉分类(FGVC)的复杂性。他们的主要目标是:开发一个强大的汽车分类器,不仅能识别广泛的汽车品牌,还能识别具体的汽车型号和年份,并且最重要的是,它能够在资源受限的边缘设备上与其他AI模型一起实时运行。这项雄心勃勃的任务需要将学术严谨性与实际部署的需求相结合。
FGVC的挑战是多方面的。与可能区分汽车和猫的通用图像分类不同,FGVC要求辨别高度相似物体之间细微的视觉差异——例如,区分各种宝马车型甚至特定的生产年份。这项任务本身就因多种因素而困难重重。首先,类间差异往往极小,这意味着区分类别的视觉线索可能非常微妙。同时,类内差异却很大,因为同一类别内的实例可能由于光照、视角或背景杂乱的变化而显得截然不同,这很容易掩盖那些细微的区别。此外,真实世界的数据集经常表现出长尾分布,即少数常见类别拥有大量示例,而许多稀有类别仅由少量图像代表,这使得模型难以在所有类别上都学习得同样好。
在解决这个问题时,Multitel团队首先回顾了FGVC领域大量的学术文献。多年的研究已经产生了大量日益复杂的架构和流程。早期的方法通常涉及多阶段模型,其中一个子网络会定位对象的判别性部分,然后第二个子网络对其进行分类。其他方法则探索了自定义损失函数、高阶特征交互或分层标签依赖性。尽管许多最新的最先进解决方案,特别是基于Transformer架构的那些,在Stanford Cars等数据集上取得了令人印象深刻的基准准确率——有些甚至超过97%——但它们通常缺乏关于推理时间或部署限制的讨论。对于Multitel的实时边缘设备应用而言,这些模型被认为是不切实际的。
Multitel没有追求最复杂或最专业的解决方案,而是采取了一种反直觉的策略:一个已知的、高效的通用模型,如果经过优化训练,能否达到与更庞大、更专业架构相当的性能?这一探究方向的灵感来源于一项研究,该研究表明许多新的AI架构在与使用过时程序训练的旧基线进行比较时是不公平的。前提是,像ResNet-50这样成熟的模型,在受益于现代训练进步的情况下,即使在具有挑战性的FGVC基准测试中,也能以惊人的强大结果“反击”。
秉持这一理念,团队着手构建一个强大且可复用的训练流程,该流程能够在不依赖特定架构修改的情况下,在FGVC任务上实现高性能。核心思想是,从ResNet-50这样的高效骨干网络开始,然后完全专注于优化训练流程,确保该“配方”能够以最小的调整广泛应用于其他架构。他们精心收集并整合了多篇有影响力的论文中的最佳实践,包括关于“图像分类的技巧集”(Bag of Tricks for Image Classification)、“复合性能改进”(Compounding Performance Improvements)以及Wightman的“ResNet反击”(ResNet Strikes Back)等工作。
为了验证其不断发展的训练流程,研究人员利用了Stanford Cars数据集。这是一个被广泛接受的FGVC基准数据集,包含196个汽车类别和超过16,000张图像,所有图像都被裁剪到边界框内,以模拟下游分类场景。他们的初始基线,使用在ImageNet上预训练的ResNet-50模型,并采用Nesterov加速梯度优化器,学习率为0.01,批量大小为32,训练了600个epoch,达到了88.22%的准确率。
随后,团队系统地引入了改进措施。实施大批量训练(批量大小128,学习率0.1)并结合线性学习率预热策略,立即将准确率提升至89.21%。采用TrivialAugment后实现了显著飞跃,这是一种极其简单但有效的无参数数据增强技术,它随机采样并应用增强。仅此一项就将准确率推高到92.66%。进一步的改进包括切换到余弦学习率衰减,这使准确率提高到93.22%,以及引入标签平滑。这项技术通过软化真实标签以减少模型过度自信,不仅改善了正则化,还允许更高的初始学习率(0.4),最终达到了稳健的94.5%准确率。额外的正则化来自随机擦除(Random Erasing),它随机遮蔽图像的一部分,将准确率提高到94.93%。最后,引入了指数移动平均(EMA)。尽管EMA在独立测试中始终提高了稳定性和泛化能力,但将其整合到完整、已优化的流程中并未显示出进一步的增量收益。然而,由于其整体优势和低开销,它因其普遍适用性而被保留在最终的“配方”中。
团队还探索了其他常见的优化技术,但这些技术最终并未为这项特定任务带来改善。权重衰减(Weight decay)持续导致性能下降,而像Cutmix和Mixup这样的高级增强方法也被证明有害。尽管AutoAugment取得了良好的结果,但由于TrivialAugment在性能上更优且无需参数,从而简化了调优过程,因此更受青睐。在测试的各种优化器和学习率调度器中,Nesterov加速梯度和余弦退火(Cosine Annealing)始终提供了最佳结果。
总而言之,通过系统地将现代训练最佳实践应用于并整合到标准的ResNet-50架构中,Multitel在Stanford Cars数据集上取得了强大的性能,将准确率推高到近95%。这表明,对既有技术进行细致的调优,可以显著提升通用模型在细粒度分类中的能力。然而,必须承认此类基准测试的局限性。Stanford Cars数据集几乎是类别平衡的,包含高质量、大多为正面视角的图像,并且缺乏明显的遮挡或真实世界的噪声。它没有完全解决长尾分布、域偏移或识别未见类别等在实际应用中普遍存在的挑战。虽然这项研究提供了一个强大的基线和概念验证,但构建一个能够处理真实世界数据固有复杂性的真正生产就绪系统,仍然是一项持续的努力。