EA
0. 摘要
在类别增量学习(Class Incremental Learning, CIL)中,模型需要能够持续学习新的类别。然而,标准的深度神经网络(DNNs)会遭受灾难性遗忘的问题。最近的研究表明,类别不平衡是导致 CIL 中灾难性遗忘的关键因素。本文从基于能量的模型(Energy-Based Model, EBM)的角度出发,理论上证明了类别的自由能量与标签分布是对齐的,因此在追求“平衡”性能时,不同类别的能量应接近。然而,我们发现 CIL 训练的模型中存在严重的能量偏差现象。为了消除这种偏差,我们提出了一种简单而有效的方法,称为能量对齐(Energy Alignment),该方法仅通过在输出的 logits 上添加计算出的偏移标量来实现,且不需要(i)修改网络架构,(ii)干预标准的学习范式。实验结果表明,能量对齐在多个 CIL 基准测试中取得了良好的性能。
关键词:类别增量学习,能量,不平衡
1. 引言
在类别增量学习(CIL)中,理想的智能系统应能够从流式数据中学习新类别,而不会忘记已经掌握的旧类别。当新数据到来时,CIL 中大部分或全部的旧数据无法再次被访问。在这种情况下,深度神经网络(DNNs)会遇到一个严重的问题,称为灾难性遗忘 [1,2],即 DNNs 在学习新知识后很难回忆起旧知识。
当训练数据能够代表评估数据时,即观察到的训练数据分布
本文从基于能量的模型(EBMs) [6] 的理论视角出发,致力于纠正 CIL 中的偏差模型,提出了一种简单而有效的方法,称为能量对齐(Energy Alignment)。EBMs 通过为每个变量配置(例如,
我们的主要贡献总结如下:
- 我们从基于能量的模型的角度出发,通过解决类别不平衡问题来缓解类别增量学习中的灾难性遗忘。
- 我们从能量值的角度解释了在非平衡数据上训练的模型中的偏差。基于这一观察,我们提出了能量对齐来校正偏差模型,这既简单又具有理论依据。
- 我们在类别增量学习基准测试中展示了能量对齐的有效性。
2. 相关工作
类别增量学习:为了缓解增量学习中的灾难性遗忘,最近提出了许多策略。一组方法通过参数控制 [10,11,12] 来缓解灾难性遗忘,试图保持对旧知识重要的参数不变。知识蒸馏 [9,7,13] 也被用来缓解灾难性遗忘。然而,大多数方法难以处理类别增量学习的场景 [14],而简单的回放策略已被证明在 CIL 中有效 [14,15]。基于回放策略,另一系列研究,如 BiC [4]、IL2M [16]、WA [5] 和 ScaIL [17],将类别不平衡视为导致 CIL 中灾难性遗忘的关键因素,并提出了不同的解决方案。本工作也基于回放策略和蒸馏策略,但尝试从基于能量的模型的角度纠正 CIL 中的偏差。
基于能量的模型与判别模型:考虑一个具有两组变量
最近,一个具有
其中
比较公式(2)与公式(1),EBMs 与判别模型本质上紧密相关 [18,19]。在不改变神经网络
实际上,负 logit
3. 能量对齐
能量中的偏差:类似于公式(1),对于 EBMs,
然后,通过对联合分布公式(4)关于
其中亥姆霍兹自由能量
然后,对公式(5)两边取对数,我们得到:
如公式(6)所示,负自由能量
由于类别不平衡,观察到的训练集的标签分布与目标(测试)集的标签分布不同,分别记为
进一步结合公式(6),我们期望:
不幸的是,在非平衡数据上训练的模型实际上往往反映训练数据集的标签分布,即
能量对齐:上述分析指出,目标中隐藏的先验标签分布
在不失一般性的情况下,考虑第
现在,假设偏移标量
如公式(10)所示,对于任何输入数据点,第
对于任何其他类别
偏移标量
其中
此外,对于任何输入数据,仍然可以通过共享的
带有能量对齐的类别增量学习:我们在算法 1 中展示了带有能量对齐的类别增量学习过程。假设来自不同类别的
其中
其中
其中
在类别增量学习中,每个增量步骤中,旧类别形成“旧簇”,被视为“锚定簇”,新类别形成“新簇”(即簇的数量
4. 实验
实验在 ImageNet ILSVRC 2012 [24] 上进行。ImageNet ILSVRC 2012 包含大约 120 万张训练图像和 5 万张验证图像,提供了两种设置——ImageNet100 包含 100 个随机选择的类别,ImageNet1000 包含全部 1000 个类别。我们的实现基于 Pytorch [25]。使用 ResNet-18 [26,27] 作为骨干网络。
为了公平比较,根据之前工作 [4,7,22,5] 提出的常规实验设置,将 ImageNet100 和 ImageNet1000 分别划分为 10 个增量步骤,每个步骤包含 10 个和 100 个类别。此外,在 ImageNet100 和 ImageNet1000 的实验中,分别为旧类别存储了 2000 和 20000 张图像。我们随机选择回放样本。图 3 展示了一些频率分布,表明训练数据严重不平衡。随着新类别的到来,每个类别的样本数量逐渐减少。因此,类别不平衡问题变得更加严重,而目标标签分布始终对每个类别保持均匀。
在每个增量步骤中,训练模型在所有已见类别上进行评估,并报告准确率。最终,计算所有增量步骤(除第一步外)的平均准确率(Avg),因为第一步实际上与“增量”无关。
能量对齐的效果:如图 4(上)所示,EA 显著提高了性能(在最后一个增量步骤中,ImageNet100 的 top-5 准确率提高了超过 24%,ImageNet1000 提高了超过 29%)。我们进一步绘制了最后一个增量步骤中模型在 ImageNet100 上的混淆矩阵(经过对数变换)。从图 4(下)可以看出,普通方法(无 EA)倾向于将对象预测为新类别,即许多来自旧类别(1~90)的样本被错误分类为新类别(91~100)。在 EA 的帮助下,模型公平地对待新类别和旧类别。这些结果直观地表明,EA 能够有效缓解 CIL 中的类别不平衡问题。
与最先进方法的比较:在 ImageNet100 和 ImageNet1000 上与竞争性和代表性方法的比较结果分别列于表 1 和表 2 中,这些结果明显证实了我们提出的算法在性能上优于许多最先进的方法,再次证明了 EA 的有效性。
5. 结论与未来工作
在本文中,我们提出了一种简单而有效的算法来处理类别增量学习中的模型偏差问题。从基于能量的模型的角度出发,我们系统地分析了类别的自由能量与标签分布之间的关系。基于理论计算,我们提出了能量对齐(EA)方法,通过调整不同类别的输出能量来实现更好的整体性能。在类别增量学习基准测试上进行的综合实验表明,该方法优于许多最先进的方法。
6. 参考文献
[参考文献部分无需翻译]