ELI
0. 摘要
深度学习模型在增量学习新任务时往往会遗忘先前学到的知识。这种行为的发生是因为为新任务优化的参数更新可能与适合旧任务的更新不一致。由此导致的潜在表示不匹配会导致遗忘。在本工作中,我们提出了 ELI(基于能量的潜在对齐器用于增量学习),它首先学习潜在表示的能量流形,使得先前任务的潜在表示具有低能量值,而当前任务的潜在表示具有高能量值。这种学习到的流形用于抵消增量学习过程中发生的表示偏移。我们提出的方法提供的隐式正则化可以作为现有增量学习方法的即插即用模块。我们通过在 CIFAR-100、ImageNet 子集、ImageNet 1k 和 Pascal VOC 数据集上的广泛评估验证了这一点。我们观察到,当 ELI 被添加到三种主要的类增量学习方法中时,在多种增量设置中性能一致提升。此外,当添加到最先进的增量目标检测器中时,ELI 提供了超过 5% 的检测精度提升,证明了其有效性和对现有技术的补充优势。代码可在以下地址获取:https://github.com/JosephKJ/ELI。
1. 引言
现实世界中的学习体验是动态的,要求模型随着时间的推移逐步学习新的能力。增量学习(也称为持续学习)是一种学习范式,它在时间步
我们可以将增量模型
增量学习问题要求在长时间的学习任务中积累知识,而不发生灾难性遗忘。主要挑战是如何在不同训练阶段之间整合冲突的隐式表示,以学习适用于所有学习经验的通用模型。为此,现有方法研究了基于正则化的方法 [2, 23, 24, 29, 40, 55],这些方法约束
作为对现有方法的补充,我们提出了一种新颖的方法,它通过学习到的能量流形来最小化增量模型潜在空间中的表示偏移。能量建模提供了一种自然机制来处理灾难性遗忘,我们在此基础上构建。图 1 展示了我们提出的方法 ELI(基于能量的潜在对齐器用于增量学习)如何帮助减轻遗忘。在学习当前任务
我们基于能量的潜在对齐器的一个独特特性是它能够扩展和增强现有的持续学习方法,而无需对其方法进行任何更改。我们通过将 ELI 添加到三种主要的类增量方法中验证了这一点:iCaRL [41]、LUCIR [20] 和 AANet [31],以及最先进的增量目标检测器 iOD [22]。我们在 CIFAR-100 [25]、ImageNet 子集 [41]、ImageNet 1k [9] 和 Pascal VOC [12] 目标检测数据集上进行了全面的实验评估。对于增量分类实验,我们考虑了两种主要的设置:将类别添加到已训练一半类别作为第一个任务的模型中,以及考虑所有任务具有相同类别数量的一般增量学习设置。ELI 在所有数据集和所有方法中一致地提升了增量分类设置中的性能,并在增量目标检测中获得了令人印象深刻的性能提升,与当前最先进的技术 [22] 相比,分别在学习 10、5 和单个类别时提升了 5.4%、7% 和 3%。
总结一下,我们工作的主要亮点是:
- 我们引入了一种新颖的方法 ELI,它有助于对抗增量学习模型潜在空间中的表示偏移。
- 我们的基于能量的潜在对齐器可以作为现有增量分类器和目标检测器的附加模块,而无需对其方法进行任何更改。
- ELI 在三个大规模增量分类数据集上的超过 45 个实验中表现出一致的改进,并将当前最先进的增量目标检测器的平均 mAP 提升了超过 5%。
2. 相关工作
增量学习:在这种设置下,模型在不断改进新任务的同时,不会影响其在旧任务上的性能。实现这种行为的一种流行方法是通过约束参数使其不会偏离先前调整的值 [7, 10, 28, 32, 41, 52]。在这方面,知识蒸馏 [19] 已被广泛用于在增量分类 [7, 28, 41] 和目标检测 [15, 21, 46] 设置中强制执行显式正则化。在基于回放的方法中,通常存储一小部分样本以回忆和保留对早期任务有用的表示 [6, 20, 24, 32, 41]。另一组分离参数学习方法将不同的参数子集分配给不同的任务,从而避免干扰,例如通过新的网络块或门控机制 [1, 31, 38, 39, 44]。此外,元学习方法已被探索用于学习在多个增量任务之间共享的更新方向 [22, 40, 43]。与这些方法相比,我们提出学习一个 EBM 来对齐增量任务之间的隐式特征分布。ELI 可以通过使用学习到的能量流形强制执行隐式潜在空间正则化来增强这些现有方法,而无需进行方法上的修改。
基于能量的模型:EBMs [26] 是一种最大似然估计模型,可以为观察到的数据标签对分配低能量,否则分配高能量 [11]。EBMs 已被用于检测分布外样本 [30, 47]、结构化预测 [4, 5, 48] 和提高对抗鲁棒性 [11, 17]。联合能量模型(JEM)[14] 表明,任何分类器都可以重新解释为生成模型,可以建模标签和数据的联合似然。虽然 JEM 需要在判别和生成目标之间交替,但 Wang 等人 [49] 提出了一种基于能量的开放世界 softmax 目标,可以同时执行判别学习和生成建模。EBMs 也被用于合成图像 [3, 53, 57, 58]。Xie 等人 [54] 使用 CNN 表示 EBM,并利用 Langevin 动力学进行 MCMC 采样以生成逼真的图像。与这些方法相比,我们探索了 EBM 在持续学习范式中减轻遗忘的效用。大多数这些方法在数据空间中操作,从 EBM 采样将是昂贵的 [57]。不同的是,我们使用潜在表示学习能量流形,这在控制影响增量模型的表示偏移方面更快且更有效。最近的一项未发表的工作 [27] 提出用基于能量的分类器头替换增量模型的标准 softmax 层。我们的方法引入了使用学习到的能量流形在潜在空间中进行隐式正则化,这与其方法有根本不同,并且在更困难的数据集和多样化设置(分类和检测)中具有良好的扩展性。
3. 基于能量的潜在对齐器
我们提出的方法 ELI 利用基于能量的模型(EBM)[26] 来优化调整增量模型的潜在表示,从而减轻灾难性遗忘。在我们的讨论中,我们将从模型骨干网络中提取的中间特征向量称为潜在表示。在第 3.1 节简要介绍问题设置后,我们将在第 3.2 节解释如何学习和使用 EBM 进行对齐。我们将在第 3.3 节讨论一个玩具实验。
3.1 问题设置
在增量学习范式中,随着时间的推移,模型会引入一系列任务
在训练
3.2 潜在对齐器
我们在持续学习模型的潜在空间中进行基于能量的建模。我们的潜在对齐器方法避免了显式识别哪些潜在表示应进行调整或保留以在学习新技能时保留知识。它隐式地识别哪些表示在任务之间共享是理想的,保留它们,并同时调整对增量学习产生负面影响的表示。
让我们考虑一个具体的增量学习设置,其中我们将一个新任务
如图 2 所示,在第一步中,我们使用三种成分学习能量流形:(i) 来自当前任务的图像:
有趣的是:1) 我们的方法在不对增量学习算法
3.2.1 学习潜在对齐器
EBMs 提供了一种简单灵活的方式来建模数据似然 [11]。我们使用基于神经网络的连续能量模型,可以通用地建模各种函数映射。具体来说,对于 ELI 中的给定潜在特征向量
其中
上述目标的导数如下 [51]:
方程 (3) 中的第一项确保从真实数据分布
其中
算法 1 说明了如何在 ELI 中学习能量流形。能量函数
3.2.2 使用 ELI 进行对齐
在增量设置中学习任务
3.3 玩具示例
我们的方法基于一个关键前提,即增量学习模型的潜在表示在训练新任务后会受到干扰,并且基于能量的流形可以成功地以事后方式减轻这种不必要的表示偏移。在图 3 中,我们展示了一个概念验证,证明我们的假设确实成立。我们考虑了一个两任务的增量 MNIST 实验,其中第一个任务是学习前 5 个类别,而第二个任务是学习剩下的类别:
4. 实验与结果
我们进行了广泛的实验,使用增量分类器和目标检测器来评估 ELI。据我们所知,我们的方法是第一个在这两种设置中都能工作而无需任何修改的方法。
协议:在这两个问题领域中,我们研究了类增量设置,其中一组类别构成一个增量任务。对于分类器的类增量学习,我们实验了文献中存在的两种主要协议:a) 首先使用总类别数的一半作为第一个任务 [20, 31],然后每个任务具有相同数量的类别,b) 确保每个任务(包括第一个任务)具有相同数量的类别 [7, 24, 38, 41]。前者测试了极端的类增量学习设置,其中在 25 个任务设置中,我们逐步为具有 100 个类别的数据集每个阶段仅添加两个类别。它的优势在于在任务 1 中可以访问一半的数据集,从而学习到一个强大的初始分类器。后者在任务之间具有统一的类别分布。这两种设置测试了增量分类器的不同可能动态。对于增量目标检测,类似于现有工作 [22, 37, 46],我们遵循一个两任务设置,其中第二个任务包含 10、5 或 1 个增量类别。
数据集和评估指标:根据现有工作 [7, 20, 22, 31, 41, 46],我们使用了 CIFAR-100 [25]、ImageNet 子集 [41]、ImageNet 1k [9] 和 Pascal VOC [12] 数据集的增量版本。CIFAR-100 [25] 包含 50k 训练图像,对应 100 个类别,每张图像的空间尺寸为
实现细节:根据标准实践 [31, 41],我们使用 ResNet-18 [16] 进行 CIFAR-100 实验,使用 ResNet-32 [16] 进行 ImageNet 实验。我们使用 128 的批量大小并训练 160 个 epoch。我们以 0.1 的初始学习率开始,在第 80 和第 120 个 epoch 后衰减 0.1。EBM 是一个三层神经网络,前两层有 64 个神经元,最后一层有单个神经元。传递给基础网络的最终 softmax 分类器的特征用于学习 EBM。它使用 128 的小批量训练 1500 次迭代。学习率设置为 0.0001。我们使用 30 次 Langevin 迭代从 EBM 中采样。我们发现保持 EBM 模型的指数移动平均是有效的。三种主要类增量方法(iCaRL [41]、LUCIR [20] 和 AANet [31])的实现遵循 AANet [31] 作者的官方代码,该代码在 MIT 许可证下发布。它们使用每个类别 20 张图像的样本存储。请注意,我们的潜在对齐器不使用样本。iCaRL 推理修改为使用全连接层,遵循 Castro 等人 [7]。所有结果都是三次运行的平均值。我们使用 Faster R-CNN [42] 的增量版本进行目标检测实验,遵循 iOD [22]。RoI Head 的 2048 维倒数第二层特征向量用于学习 EBM。
4.1 增量分类结果
我们增强了三种流行的类增量学习方法:iCaRL [41]、LUCIR [20] 和 AANet [31],使用我们提出的潜在对齐器。表 1 展示了在 CIFAR-100 [25] 和 ImageNet 子集 [41] 数据集上的结果。如前所述,我们在使用一半类别作为第一个任务的设置以及所有任务具有相同类别数量的设置下进行了实验。在前者中,我们将 10、5 和 2 个类别分别分组,以创建 5、10 和 25 个学习任务,之后在 50 个初始类别上训练模型。在第二种设置中,我们将 20、10 和 5 个类别分别分组,以创建 5、10 和 20 个增量任务。我们看到,当我们将 ELI 添加到相应的基础方法时,所有这些设置中的性能都一致提升。在这两种设置中,改进在更困难的数据集上更为显著。LUCIR [20] 和 AANet [31] 在其方法中使用了显式的潜在空间正则化器。ELI 能够进一步改进它们。像 iCaRL [41] 这样简单的方法从 ELI 提供的隐式正则化中受益更多(这一方面在第 5.1 节中进一步探讨)。在图 4 中,我们绘制了在 5 任务、10 任务和 25 任务设置中学习每个任务后的平均准确率在 ImageNet 1k 上的表现。我们看到了类似的趋势,但在这个更困难的数据集上改进更大。当添加到 iCaRL [41]、LUCIR [20] 和 AANet [31] 时,ELI 在 ImageNet 1k 实验中平均分别提供了 8.17%、3.05% 和 2.53% 的改进。
4.2 增量目标检测结果
遵循增量目标检测的标准评估协议 [22, 46],我们将 Pascal VOC 2007 [12] 中的类别分为两个任务。这里考虑了三种不同的任务组合。我们最初学习 10、15 或 19 个类别,然后分别引入 10、5 或 1 个类别作为第二个任务。表 2 展示了该实验的结果。每个部分的前两行给出了上界和在学习第一个任务后的准确率。“标准训练”行显示了在简单地对新类别实例上的模型进行微调时,先前类别的性能如何下降。接下来的三行标题为 Shmelkov 等人 [46]、Faster ILOD [37] 和 ORE [21],展示了现有方法如何帮助解决灾难性遗忘。我们将 ELI 添加到当前最先进的方法 iOD [22] 中,以在分别添加 10、5 和 1 个类别时,将 mAP 提高了 5.4%、7% 和 3%,与在其余类别上训练的检测器相比。这一改进可以归因于 ELI 在调整潜在表示以减少遗忘方面的有效性。这些结果还表明,ELI 是一种有效的即插即用方法,可以在分类和检测任务中减少遗忘。图 8 展示了我们的定性结果。
5. 讨论与分析
5.1 ELI 作为隐式正则化器
为了展示 ELI 提供的隐式正则化的有效性,我们从我们的顶级方法 AANet [31] 中移除了显式的潜在正则化项(在图 6 中称为 ER)。当从基础方法中移除 ER 时,准确率持续下降(绿色条)。ELI 能够将这种模型的性能分别提高 5.41%、3.58% 和 2.57%,在 5 任务、10 任务和 25 任务实验中(紫色条)。我们注意到,与将 ELI 添加到具有显式正则化的 AANet 相比,增益更为显著,这证实了我们隐式正则化的有效性。
5.2 对齐最终层 logits
ELI 对齐来自特征提取器
5.3 在不同大小的潜在空间中对齐
ELI 可以对齐不同维度的潜在表示。我们在 MNIST 上的玩具实验使用 32 和 512 维潜在空间,而 CIFAR-100 实验使用 64 维空间。ImageNet 和 Pascal VOC 实验分别使用 512 和 2048 维潜在空间。
5.4 对超参数的敏感性
我们在表 3、4 和 5 中改变了可能影响 ELI 性能的参数。实验是在 CIFAR-100 上进行的,使用“iCaRL + ELI”设置。高亮行表示默认配置。
Langevin 步数:在表 3 中,我们实验了改变从 EBM 中采样所需的 Langevin 步数
所需迭代次数:在使用算法 1 训练 EBM 时,我们改变了所需的迭代次数,并在表 4 中报告了准确率。在大约 1000 次迭代时,EBM 收敛。进一步增加迭代次数不会带来显著改进。
架构:我们在表 5 中实验了不同容量的 EBM 模型。我们发现使用较小的架构或显著较大的架构没有帮助。我们认为这是一个理想的特性,因为我们学习的是潜在空间的能量流形,而不是数据空间。
5.5 计算和内存
我们记录了 ELI 在 CIFAR-100 上的计算、内存和时间要求。我们使用单个 Nvidia Tesla K80 GPU 进行这些指标的测量。EBM 是一个两层网络,每层有 64 个神经元,具有 8.385K 参数,当尝试学习 64 维潜在特征时,需要 1.057M flops。在对齐 64 维潜在表示时,从该 EBM 采样需要
6. 结论
我们展示了基于能量的模型(EBMs)作为增量学习的有前途的解决方案,通过扩展其自然机制来处理表示偏移。这是通过在潜在特征空间中建模似然,测量在学习任务中经历的分布偏移,并反过来重新对齐它们以优化所有任务的学习来实现的。我们提出的方法 ELI 是对现有方法的补充,可以作为附加模块使用,而无需修改其基础管道。ELI 在评估多种设置时,为三种主要的类增量分类方法提供了一致的改进。此外,在更困难的增量目标检测任务上,我们的方法比最先进的技术提供了显著的改进。
致谢
我们感谢 Yaoyao Liu 对 AANET [31] 代码的及时澄清。KJJ 感谢 TCS Research 的博士奖学金。VNB 感谢印度政府 DST 通过 IMPRINT 和 ICPS 计划部分支持这项工作。
附录
A. 隐式识别重要潜在表示
图 7 展示了每个潜在维度如何通过 ELI 进行更新。我们看到不同的维度有不同的变化程度,这是由我们的基于能量的模型隐式决定的。
B. 使用 mixup 进行数据增强
如第 3.2 节所述,我们使用从当前任务分布中采样的数据点来学习基于能量的模型
C. 更广泛的社会影响
当模型在没有遗忘的情况下增量学习时,一个同样重要的要求是选择性地遗忘,以符合任何隐私或立法原因。这样的遗忘可以通过将此类实例视为分布外样本来实现,然而,对此的专门处理超出了我们当前的工作范围。我们目前的工作旨在减少持续学习中的灾难性遗忘和干扰,据我们所知,我们的方法没有任何有害的社会影响,使我们与朝着这个方向进行的其他研究努力不同。
D. 定性结果
在图 8 中,我们展示了更多关于 Pascal VOC 数据集 [12] 上 15 + 5 设置中的增量目标检测的定性结果。将 plant、sheep、sofa、train 和 tvmonitor 的实例添加到在其余类别上训练的检测器中。表 2 中显示的 ELI 相对于最先进方法 [22] 的显著改进归功于 ELI 提供的隐式潜在空间正则化。据我们所知,ELI 是第一个为大规模增量目标检测模型添加潜在空间正则化的方法。
E. 符号摘要
为了清晰起见,表 8 总结了我们在论文中使用的主要符号及其简明描述。