无监督类增量学习
半监督增量学习
首先,让我们先学习下半监督式的增量学习,其旨在通过利用未标记的数据来减少对标签的依赖。常规的做法是先利用一小部分带有标签的数据集训练出一个深度学习模型,然后利用该模型对未标记的数据打上标签。通常,我们将这种用非人工标注的标签信息称之为——伪标签(pseudo labels
)。
因此,根据未标记数据的类型,我们可以简单的划分为三种类型:
Within-data
,即属于同一份数据集内的没有打标签的那部分数据;Auxiliary-data
,即辅助数据,例如大家从网络上爬下来的数据;Test-data
,即最简单的测试集数据
其中,Within-data 需要模型从头开始训练,而另外两种方式则是建立在预训练好的模型基础之上。下面分别为大家介绍下典型的方法。
Learning from Within Data
CNNL
https://dl.acm.org/doi/abs/10.1145/3094243.3094247

DistillMatch
https://t.co/1sdMip6kuw

值得注意的是, 知识蒸馏最初是为模型压缩而设计的。随着LwF[4](Learning without forgetting)方法首次将其应用于增量学习, 知识蒸馏损失已成为了众多增量学习方法的基础模块。如下图所示,后续的工作主要可分为基于重要特征蒸馏,基于样本关系蒸馏和基于辅助数据的蒸馏,这些方法有效的改进类别增量学习中的知识蒸馏策略。

Knowledge distillation strategies in class incremental learning
ORDisCo
https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_ORDisCo_Effective_and_Efficient_Usage_of_Incremental_Unlabeled_Data_for_CVPR_2021_paper.pdf

MetaCo
https://arxiv.org/abs/2110.01856

关于变分自编码器的详细介绍,可关注公众号『CVHub』翻阅历史文章学习。
PGL
https://arxiv.org/pdf/2201.09196.pdf

Learning from Auxiliary Data
DMC
https://openaccess.thecvf.com/content_WACV_2020/papers/Zhang_Class-incremental_Learning_via_Deep_Model_Consolidation_WACV_2020_paper.pdf

CIL-QUD
https://openreview.net/pdf?id=oLvlPJheCD

Learning from Test Data
CoTTA
https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_Continual_Test-Time_Domain_Adaptation_CVPR_2022_paper.pdf

NOTE


Incremental Learning with Semi-Supervision
自监督增量学习
基于自监督模式的增量学习主要有三种主要范式:
- Pre-training
- Auxiliary-training
- Main-training
Pre-training
Pre-training
主要就是在增量学习任务开始之前先对主干网络预训练一波,大家可以理解为是一种“预热”操作。这方面的研究主要是建立在自监督预训练可以显著减少后续(迁移)学习任务中对标签监督的需求的想法之上。
SSL-OCL

用于在线持续学习的自监督学习(SSL-OCL
)方法提议在通过自监督进行增量训练之前预训练骨干网络的权重。通过这种方式,作者旨在充分利用预训练数据集带来的迁移学习能力。通过采用 MoCo-V2 和 SwAV 等方法的自监督预训练方式,本文方法获得了性能上的提升。
Auxiliary-training
辅助训练指的是在训练期间用自监督的方法提供监督信号,以获得更具辨别力的特征空间。这类方法建立在自监督学习任务可以向学习者提供额外的监督信号以防止过拟合的想法之上。
PASS

Prototype-Augmented Self-Supervision(PASS)
是一种基于正则化的增量学习技术。该模型优化了每个增量类的单个原型,其中原型是通过原始标签进行监督学习的。为了提高模型的泛化能力并避免过拟合现象,作者引入了更多的数据增强技巧。例如,采用自监督标签增强(SLA)生成原始输入的四种不同变换角度([0°, 90°, 180°, 270°]),然后将其用作额外的前置文本任务来区分模型。作者展示了这种方法减轻了对先前学习的类的过度拟合,从而获得了更好的结果。
Main-training
这是一种完全基于自监督学习目标进行训练的方法,并在训练后通过线性探测对其进行评估。此类方法主要的核心思想是认为自监督可以完全取代人工标签。
Buffer-SSL

Buffer-SSL
即缓冲自监督学习,是一种基于记忆的方法,它是在现成的自监督算法 SimSiam
进行扩展的并推广到增量学习任务当中。SimSiam 的一个主要弊端是无法保留以前学到的知识,因此 Buffer-SSL 为其补充了一个用于回放的内存缓冲区。一种简单的方法是将所有示例存储在内存中,但是这会导致内存开销太大,并且是对于视频帧这种帧之间存在高度的冗余性。为此,作者只存储簇质心,这减少了内存大小并增加了内存可扩展性。通过构建缓冲区可以显著缓解自监督表示的遗忘。
LUMP

CaSSLe

CaSSLe
是一种基于正则化的自监督增量学习方法。由于存储来自先前学习任务的数据会导致内存效率低下并且可能侵犯隐私的动机,本文方法转而学习在当前模型和过去模型之间提取自监督的表示。其中,蒸馏以预测方式执行,当前模型的特征会被投影到先前模型的特征空间。
PFR

PFR
,即投影函数正则化同样是一种基于正则化的技术,与 CaSSLe
非常类似。作者使用基于蒸馏的目标扩展了 Barlow-Twins
方法,学习将当前的视觉表示投射到先前的模型表示。 此外,论文展示了具有 PFR 目标的 Barlow-Twins 表现出更低的遗忘和更高的准确性。