LwF

Learning without Forgetting

Paper: arxiv (opens new window) | 2016 ECCV

Code: github

Abstract

Introduction

Method

上图展示了一个具有多头网络结构的模型学习新任务的不同策略，其中(a)为已经训练好的基于 CNN 的原始模型， $θ_{s}$ 表示不同任务共享的 CNN 参数， $θ_{o}$ 表示与原始任务相关的 MLP 参数，当加入一个新的分类任务时，我们可以增加一个随机初始化的 MLP 参数 $θ_{n}$ 。基于$\theta_s $ $θ_{o}$ 来学习 $θ_{n}$ 的方法包括如下几类：

微调(Fine-tuning)：微调没有旧任务参数和样本的指导，因此模型在旧任务上的表现几乎一定会变差，也就是发生灾难性遗忘。
联合训练(Joint Training)：联合训练相当于在所有已知数据上重新训练模型，效果最好，因此通常被认为是**「增量学习的性能上界」**，但训练成本太高。
特征抽取(Feature Extraction)：特征抽取只训练 $θ_{n}$ ，共享参数 $θ_{s}$ 没有得到更新，虽然不影响模型在旧任务上的表现，但不能有效捕获新任务独有的特征表示，在新任务上的表现通常不如人意。

LwF 算法是介于联合训练和微调训练之间的训练方式，LwF 的特点是它不需要使用旧任务的数据也能够更新。LwF 算法的主要思想来自于 knowledge distillation，也就是使新模型在新任务上的预测和旧模型在新任务上的预测相近。

具体来说，LwF 算法先得到旧模型在新任务上的预测值，在损失函数中引入新模型输出的蒸馏损失，然后用微调的方法在新任务上训练模型，从而避免新任务的训练过分调整旧模型的参数而导致新模型在旧任务上性能的下降。算法流程如下图所示，其中 $λ_{0}$ 用于权衡模型的稳定性和可塑性。

但是，这种方法的缺点是高度依赖于新旧任务之间的相关性，当任务差异太大时会出现任务混淆的现象(inter-task confusion)，并且一个任务的训练时间会随着学习任务的数量线性增长，同时引入的正则项常常不能有效地约束模型在新任务上的优化过程。

Experiments

Conclusion

Reference

PPT (opens new window)

上次更新: 2024/07/05, 15:24:13

← Survey Survey→

LwF