无监督类增量学习

半监督增量学习

首先，让我们先学习下半监督式的增量学习，其旨在通过利用未标记的数据来减少对标签的依赖。常规的做法是先利用一小部分带有标签的数据集训练出一个深度学习模型，然后利用该模型对未标记的数据打上标签。通常，我们将这种用非人工标注的标签信息称之为——伪标签(pseudo labels)。

因此，根据未标记数据的类型，我们可以简单的划分为三种类型：

Within-data，即属于同一份数据集内的没有打标签的那部分数据；
Auxiliary-data，即辅助数据，例如大家从网络上爬下来的数据；
Test-data，即最简单的测试集数据

其中，Within-data 需要模型从头开始训练，而另外两种方式则是建立在预训练好的模型基础之上。下面分别为大家介绍下典型的方法。

Learning from Within Data

CNNL

https://dl.acm.org/doi/abs/10.1145/3094243.3094247

`CNNL`，即**连续神经网络学习**，是半监督和增量学习交叉领域的早期工作之一。作者在标记好的数据集上训练一个基础的卷积神经网络模型，然后将其用于在未标记数据集上生成伪标签。最后，通过在伪标签上微调增量学习器以实现自训练(`self-training`)的过程。

DistillMatch

https://t.co/1sdMip6kuw

与需要大量内存预算的标准回放方案不同，`DistillMatch` 中探索了无标签数据流作为回放的潜力，并显著降低了所需的内存预算。与之前的工作需要访问与环境无关的外部数据流不同，作者认为数据流是持续学习代理环境的产物。此外，通过对域外检测器进一步的优化，从而识别出与当前增量学习任务无关的数据分布，以减轻对先前类别的遗忘。

值得注意的是, 知识蒸馏最初是为模型压缩而设计的。随着LwF[4](Learning without forgetting)方法首次将其应用于增量学习, 知识蒸馏损失已成为了众多增量学习方法的基础模块。如下图所示，后续的工作主要可分为基于重要特征蒸馏，基于样本关系蒸馏和基于辅助数据的蒸馏，这些方法有效的改进类别增量学习中的知识蒸馏策略。

Knowledge distillation strategies in class incremental learning

ORDisCo

https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_ORDisCo_Effective_and_Efficient_Usage_of_Incremental_Unlabeled_Data_for_CVPR_2021_paper.pdf

具有判别器一致性的**在线回放**(`online replay`)遵循生成回放策略来回放数据和标签。`ORDisCo`利用标记数据来训练条件 GAN 生成器，并采用未标记数据作为区分 real-fake 的额外示例。此外，为了进一步提高增量学习任务的一致性，作者还对判别器权重的突变部分进行了惩罚（可理解为加正则）。

MetaCo

https://arxiv.org/abs/2110.01856

`MetaCon`, 即`Meta-Consolidation`，是将 `ORDisCO` 的生成重放方案扩展到元学习设置。作者没有直接训练条件 GAN 进行生成回放，而是优化了生成 GAN 权重的条件超网络。作者以当前任务的语义词嵌入为条件，将超网络参数化为**变分自编码器**(`Variational Auto-Encoder`, `VAE`)。为了稳定超网络，他们存储增量学习类的一阶统计数据以更好的进行数据回放。

关于变分自编码器的详细介绍，可关注公众号『CVHub』翻阅历史文章学习。

PGL

https://arxiv.org/pdf/2201.09196.pdf

`PGL` 全称是 `Pseudo Gradient Learners`，即伪梯度的学习器，其基于元学习预测每个输入的梯度。作者声称伪标签的使用会给分类器带来负优化，导致梯度的错误累积，同时其性能会随时间下降。因此，本文方法通过预测梯度而非标签，该模型不像伪标签那样与一组预定义的类相关联，同时能够利用分布外的数据来提高性能。

Learning from Auxiliary Data

DMC

https://openaccess.thecvf.com/content_WACV_2020/papers/Zhang_Class-incremental_Learning_via_Deep_Model_Consolidation_WACV_2020_paper.pdf

`DMC`，`Deep Model Consolidation`，即深度模型整合应该是最早利用未标记的辅助数据来减轻灾难性遗忘的代表作之一。作者首先在标记好的数据集上训练深度分类器，然后用于在辅助数据上生成伪标签。其中，伪标签充当当前模型和先前模型之间的正则化器，以减少对先前“看到”的类的遗忘。

CIL-QUD

https://openreview.net/pdf?id=oLvlPJheCD

`CIL-QUD` 是一种使用查询未标记数据的类增量学习方法，其建立在 `DMC` 的基础上，但是采用基于**检索**的方法。作者在内存中将每个增量类的少量实例存储为查询 Anchor。查询锚用于在辅助数据集中检索视觉上相似的样本，然后用于记忆重放。

Learning from Test Data

CoTTA

https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_Continual_Test-Time_Domain_Adaptation_CVPR_2022_paper.pdf

`CoTTA`，`Continual Test-Time Adaptation`，即在推理时调整预训练的深度分类器。这种情况是很常见的，以自动驾驶为例，想象一辆自动驾驶汽车在不断变化的天气条件下持续行驶，这种情况下我们无法保证喂给模型的数据能够覆盖各类天气状况。因此，这种自适应的能力是非常有必要的，尤其是当测试数据与原始训练源不同并且源数据不再可用时。为了解决这个新问题，作者提出了一种基于**正则化**的方法，通过在同一输入的多个增强中强制执行一致性正则化，以及对一些网络参数进行选择性微调。

NOTE

`NOTE`，即`No i.i.d. TEst-time adaptation`，即非独立同分布的测试时适应，是将 COTTA 进一步扩展到现实场景的工作，其后续测试示例具有高度的时间相关性。作者声称，在这种情况下，依赖伪标签形式的 BN 统计可能会严重地使学习器偏向当前批次。因此，本文方法采用 IN 替代 BN。值得一提的是，相对 CoTTA 其性能要好得多。此外，相关的工作还有去年发表在 CVPR 2022 上的 **LAME[11]**，有兴趣的小伙伴也可以自己的读读原文。

Incremental Learning with Semi-Supervision

自监督增量学习

基于自监督模式的增量学习主要有三种主要范式：

Pre-training
Auxiliary-training
Main-training

Pre-training

Pre-training 主要就是在增量学习任务开始之前先对主干网络预训练一波，大家可以理解为是一种“预热”操作。这方面的研究主要是建立在自监督预训练可以显著减少后续（迁移）学习任务中对标签监督的需求的想法之上。

SSL-OCL

SSL-OCL (opens new window)

用于在线持续学习的自监督学习(SSL-OCL)方法提议在通过自监督进行增量训练之前预训练骨干网络的权重。通过这种方式，作者旨在充分利用预训练数据集带来的迁移学习能力。通过采用 MoCo-V2 和 SwAV 等方法的自监督预训练方式，本文方法获得了性能上的提升。

Auxiliary-training

辅助训练指的是在训练期间用自监督的方法提供监督信号，以获得更具辨别力的特征空间。这类方法建立在自监督学习任务可以向学习者提供额外的监督信号以防止过拟合的想法之上。

PASS

PASS (opens new window)

Prototype-Augmented Self-Supervision(PASS) 是一种基于正则化的增量学习技术。该模型优化了每个增量类的单个原型，其中原型是通过原始标签进行监督学习的。为了提高模型的泛化能力并避免过拟合现象，作者引入了更多的数据增强技巧。例如，采用自监督标签增强(SLA)生成原始输入的四种不同变换角度([0°, 90°, 180°, 270°])，然后将其用作额外的前置文本任务来区分模型。作者展示了这种方法减轻了对先前学习的类的过度拟合，从而获得了更好的结果。

Main-training

这是一种完全基于自监督学习目标进行训练的方法，并在训练后通过线性探测对其进行评估。此类方法主要的核心思想是认为自监督可以完全取代人工标签。

Buffer-SSL

Buffer-SSL (opens new window)

Buffer-SSL 即缓冲自监督学习，是一种基于记忆的方法，它是在现成的自监督算法 SimSiam 进行扩展的并推广到增量学习任务当中。SimSiam 的一个主要弊端是无法保留以前学到的知识，因此 Buffer-SSL 为其补充了一个用于回放的内存缓冲区。一种简单的方法是将所有示例存储在内存中，但是这会导致内存开销太大，并且是对于视频帧这种帧之间存在高度的冗余性。为此，作者只存储簇质心，这减少了内存大小并增加了内存可扩展性。通过构建缓冲区可以显著缓解自监督表示的遗忘。