DCMI
Dual-consistency Model Inversion for Non-exemplar Class Incremental Learning
Paper (opens new window) | Code | CVPR 2024
0. 摘要
非范例类增量学习(NECIL)旨在在历史数据不可用的情况下,不断吸收新知识,同时不忘先前获得的知识。一种生成性 NECIL 方法是反转旧类别的图像进行联合训练。然而,这些合成图像与真实数据相比存在显著的域偏移,妨碍了对旧类别的识别。在本文中,我们提出了一种新的方法,称为双重一致性模型反转(DCMI),通过两个关键的一致性对齐来生成更好的旧类别合成样本:(1)合成图像与相应原型之间的语义一致性;以及(2)新类别合成和真实图像之间的域一致性。此外,我们引入了原型路由(PR),以提供任务先验信息并生成无偏见且准确的预测。我们在不同数据集上的综合实验一致地展示了我们方法相对于先前最先进方法的优越性。
1. 引言
当将训练有素的深度神经分类网络应用于新类别时,通常的策略是对新图像进行微调,这往往会导致对旧类别的灾难性遗忘。类别增量学习(CIL)旨在不断适应新类别,同时不忘已学习的类别。基于范例的方法通过存储旧类别数据的子集作为范例,并在未来与新类别数据一起重新训练,显示出了希望。虽然有效,但在实践中存储范例可能存在挑战,因为担心数据隐私或存储空间有限。非范例类增量学习(NECIL),也称为无范例 CIL,最近受到了越来越多的关注。与基于范例的对应方法相比,它在训练和存储效率方面具有优势,并解决了与数据隐私和版权相关的担忧。与此同时,缺乏范例的情况下训练模型更具挑战性。现有的非范例方法主要采用知识蒸馏(KD)来防止更新模型,称为“新模型”,通过强制其输出与旧模型一致来忘记学到的知识。然而,仅使用新类别样本进行蒸馏会削弱 KD 的有效性,因为旧类别和新类别之间存在显著的分布差异,导致累积错误。为了解决这个问题,基于生成的方法尝试使用模型反转合成旧类别样本,然后使用真实和合成样本对新模型进行蒸馏。这些合成样本通过产生高置信度的分类概率从旧模型生成,类似于旧类别的语义分布。值得注意的是,与预先训练生成器的传统生成方法不同,反转方法不依赖于旧类别的历史数据,使它们在 NECIL 中更实用。
2. 相关工作
2.1. 类别增量学习
基于范例的方法存储代表性数据作为范例以供将来训练。iCaRL 首先提出在 CIL 中保存范例,此后,复现策略成为后续工作的常见做法。知识蒸馏(KD)被广泛用于防止遗忘。UCIR 引入了对特征分布的 less-forget 约束,PODNet 使用 KD 进行中间特征蒸馏。ISM-Net 引入了模型队列蒸馏以增强长期性能。EEIL 提出了一个额外的平衡微调会话来解决 CIL 中的关键挑战,UCIR 用余弦归一化替换了 softmax 层。最近,一些工作通过模型扩展来提高 CIL 性能。尽管基于范例的方法只保存旧数据的子集,但关于隐私风险和存储需求的担忧仍然存在。非范例方法最近受到了关注。一些方法提出了参数重要性估计来防止关键参数的显著变化,而 LwF 引入了 KD 来约束输出 logits,其中先前的模型作为教师。ABD 引入了模型反转来提高 KD 的有效性,通过合成旧类别数据。PASS 在 CIL 中探索了自监督学习,并提出了原型增强以进行分类器学习。SSRE 引入了自我维持的扩展方案和原型选择。FeTrIL 提出了一种特征转换技术。
2.2. 模型反转
MI 是数据自由知识蒸馏(DFKD)的重要技术,将知识从训练有素的教师模型转移到紧凑的学生模型,当原始训练数据不可用时。DFKD 在解决模型压缩、迁移学习和增量学习等问题中找到了广泛应用。训练有素的模型封装了数据信息,允许通过噪声优化或生成器进行反向生成。Lopes 等人率先使用激活摘要进行 DFKD,而 Nayak 等人优化了 softmax 类输出计算的类别相似性噪声。Chen 等人集成了生成对抗网络以提高效率,Bhardwaj 等人将激活统计数据存储为元数据。DeepDream 引入了图像先验项,DeepInversion 专注于最小化特征图和批量归一化统计数据之间的距离。
2.3. 知识蒸馏
KD 最初由 Hinton 等人提出,用于模型压缩和迁移学习。该技术涉及将知识从复杂的教师模型转移到轻量级学生模型,通过让学生模仿教师的输出来实现。知识蒸馏方法可以广泛地分为基于 logits 的蒸馏、基于特征的蒸馏和基于关系的蒸馏。基于 logits 的蒸馏旨在传达标签分布中隐含的信息,而基于特征的蒸馏寻求来自中间特征的指导以促进学生学习。基于关系的蒸馏在样本之间建立结构关系或上下文关系以指导学生网络。与我们工作最相关的是 ABD,它识别了使用合成图像时对性能产生不利影响的显著域偏移。他们通过引入局部 CE 损失和重要性加权特征蒸馏来解决这个问题。在我们的工作中,我们通过纳入新类别数据的认证来增强合成图像的域一致性,这是先前研究中忽视的一个维度。
3. 动机
在 CIL 中,训练数据以单独的任务流进行,每个任务都包含不相交的类别
新任务误差项
证明见补充材料。
在这个界限中,不等式右侧的第一项和第二项预期是很小的,通过经验风险最小化来实现。第三项描述了在蒸馏数据分布
4. 提出的方法
4.1. 旧类别的双重一致性反转
最近的生成性 NECIL 方法利用模型反转来合成旧类别样本。然而,显著的域差距对 KD 的有效性产生了负面影响。以下,我们介绍了一种新颖的模型反转方法,用于旧类别合成,确保语义和域一致性。
4.1.1. 语义一致性
我们方法的概述如图 2 所示。为了分离类别,我们使用一个有条件的生成器
其中
其中
其中
如果
类似地,新类别图像
通过与权重
为了进一步增强语义一致性,我们最小化新类别的交叉熵损失:
其中
4.1.2. 域一致性
为了解决域偏移问题,我们采用了对抗性学习框架来对齐合成数据
其中
我们经验性地设置
4.2. 新类别的网络适应
为了学习新类别
其中
第一项(称为
其中
4.3. 无偏预测的原型路由
分类器分别针对旧类别和新类别进行训练(参见
其中
其中
5. 实验
5.1. 数据集和设置
基准测试。为了进行全面研究,我们在 CIFAR-100、Tiny-ImageNet、ImageNet-Subset 和 ImageNet-Full 上进行了广泛的实验。协议与一致,其中一半的类别参与初始阶段(CIFAR100 和 ImageNet-Subset 20 阶段除外),其余类别在随后的增量阶段中均匀分布。类别顺序用随机种子 1993 打乱。我们报告标准指标来衡量 CIL 性能,包括平均准确率
设置
表 1. 在 CIFAR-100 数据集上消融组件的结果。PR 和 SSL 分别代表原型路由和自监督学习。
5.2. 消融研究和分析
原型路由。如表 1 所示,移除 PR 会导致明显的性能下降,主要归因于引入的任务最近偏差。这在图 6a 和 6b 中得到了说明,其中在没有 PR 的情况下观察到明显的偏差,导致基础类别之间的大量混淆。引入 PR 通过提供正确的任务先验有效地减轻了这种偏差。
自监督学习。表 1 清楚地表明,将自监督学习(SSL)纳入初始任务显著提高了 CIL 性能。如所强调的,SSL 有助于获取更通用和可转移的特征,这对后续任务有利。我们评估了 CIFAR-100 和 Tiny-ImageNet 10 阶段上各种 SSL 方法的有效性。测试了三种常用的 SSL 方法:LabelAug、SupCon 和 SimSiam。图 3a 表明,在初始任务上应用 SSL 可以带来显著的改进,强调了 SSL 在 CIL 中的重要性。然而,SSL 方法的有效性因数据集而异。在 CIFAR-100 上,LabelAug 证明最有效的结果,比不使用 SSL 高出 2.3%。在 Tiny-ImageNet 上,SupCon 成为最有效的 SSL 方法,比不使用 SSL 提高了 1.7%。
知识蒸馏。如表 1 所示,LCKD 和 LF KD 都是关键组件。去除 LCKD 会损害旧类别的决策边界,导致准确性大幅下降和极高的遗忘率。去除 LF KD 会导致输出特征分布的偏移,破坏类别原型的有效性。此外,我们探索了在 KD 期间合成数据的语义和域一致性的作用。如表 2 所示,仅依赖于语义或域一致性无法保证满意的性能。当合成数据同时展现语义和域一致性时,实现了更好的准确性和更低的遗忘。最佳结果出现在 KD 同时应用于新类别的真实数据和旧类别的合成数据时。此外,我们评估了将合成数据纳入 KD 对模型稳定性和可塑性的影响。实验结果在图 3b 中表明,用合成和真实数据的组合进行蒸馏,为基线和增量类别带来了更高的准确性,实现了稳定性和可塑性之间更有利的平衡。
表 2. 在 CIFAR-100 数据集上消融 KD 数据的结果,其中(1)仅使用合成数据,(2)仅使用真实数据,(3)真实 + 合成数据。SC 和 DC 分别代表语义一致性和域一致性。
表示距离。我们调查了旧类别的合成和真实样本之间的表示距离分数(MID)。如图 4 所示,我们将表 2 中的第 1 组设置作为基线 1〜3,从上到下。结果表明,基线 3 和完整方法实现了可比的较低 MID 分数,突出了双重一致性在生成与真实样本分布紧密相似的分布方面的重要性。相反,仅对齐语义或域被证明是不够的。
5.3. 比较结果
在本节中,我们与以前的最先进 NECIL 方法和一些经典基于范例的方法进行了全面比较。表 4 表明,提出的方法在所有以前的非范例方法中表现优于所有以前的最先进方法。与此同时,与某些基于范例的方法相比,我们的方法甚至在不使用范例的情况下也表现出优越的性能,强调了它在保留旧知识方面的可靠性。具体来说,我们的方法在 CIFAR-100 上显著提高了最先进的结果,分别在 5、10 和 20 阶段超过了以前最好的结果 1.3%、1.0% 和 2.2%。在 Tiny-ImageNet 上,我们的方法超过了最新的最先进方法 SOPE,分别在 5、10 和 20 阶段提高了 1.1%、1.0% 和 0.6%。对于更大规模的数据集,我们的方法在 ImageNet-Subset 上获得了 70.5%、70.0% 和 65.5% 的平均准确率,在 ImageNet-Full 上获得了 61.9%。在图 5 中,我们展示了全面的分类准确率曲线,清楚地说明了我们的方法在各个阶段都优于竞争对手。为了估计模型的遗忘,我们比较了与以前方法的平均遗忘,如表 3 所示。我们的方法一致地实现了比以前方法显著更低的遗忘,证明了它在减轻灾难性遗忘方面的有效性。
5.4. 可视化
特征空间的可视化。我们使用 t-SNE 来可视化旧类别的合成和真实数据的特征分布。在图 7 的每个子图中,左半部分展示了在区分不同域方面表现出色的浅层特征,而右半部分显示了在语义上具有区分性深层特征。图 7a 揭示了合成数据与同一类别的真实数据形成了不同的簇,表明了高语义一致性。同时,合成数据与真实数据的域差异很小,证明了域一致性。相比之下,图 7b 未能与相应类别对齐,图 7c 主要突出了显著的域差异。
类别间相似度的可视化。我们通过计算 CIFAR-100 上基础和增量类别的类原型之间的余弦相似度来评估相似度,如图 6c 所示。结果表明,基础和增量类别之间具有相对较高的相似度,表明通过旧类别概念的组合来表示新类别语义是可行的。
合成样本的可视化。这里我们提供了来自 ImageNet 的合成样本的可视化。当同时应用语义和域约束时(参见图 8b),生成的样本与真实样本非常相似。然而,当仅应用域一致性时,观察不到可辨识的类别相关模式(见图 8c)。类似地,当仅应用语义一致性时,合成图像在视觉上与真实图像显著不同(见图 8d)。
6. 结论
本文提出了一种新的生成性方法 DCMI,用于 NECIL。DCMI 能够合成在语义和域上都保持一致性的图像。将这些合成图像整合到知识蒸馏中,取得了显著改进的结果。此外,为了确保无偏预测,我们引入了原型路由,提供准确的任务先验以指导跨任务的预测。在 CIFAR100、Tiny-ImageNet、ImageNet-Subset 和 ImageNet-Full 上进行的广泛实验一致地证明了我们的方法与以前最先进的方法相比的优越性能。
致谢 部分由国家科技重大项目(2021ZD0112001)、国家自然科学基金(No.62271119, U23A20286, 62071086, 和 08120002),以及民航飞行技术与飞行安全重点实验室独立研究项目(FZ2022ZZ06)支持。