Few-shot Class-incremental Learning A Survey
Few-shot Class-incremental Learning: A Survey (opens new window)
摘要 少样本类增量学习 (Few-shot Class-Incremental Learning, FSCIL) 是机器学习 (ML) 领域的一项独特挑战,因为它需要在没有遗忘以前知识的情况下,从稀疏标记的训练样本中增量学习新类。尽管该领域取得了一些进展,但它仍然是一个活跃的探索领域。本文旨在对 FSCIL 进行全面和系统的综述。在我们的深入研究中,我们探讨了 FSCIL 的各个方面,包括问题定义、不可靠的经验风险最小化和稳定性-可塑性两难困境的主要挑战、通用方案、以及增量学习 (IL) 和少样本学习 (Few-shot Learning, FSL) 的相关问题。此外,我们还概述了基准数据集和评估指标。此外,我们从基于数据、基于结构和基于优化的方法介绍了少样本类增量分类 (FSCIC) 方法,并从无锚和有锚的方法介绍了少样本类增量目标检测 (FSCIOD) 方法。除此之外,我们还提出了一些值得进一步研究的有前途的 FSCIL 研究方向。
关键词 增量学习,持续学习,终身学习,类增量学习,灾难性遗忘,少样本学习,少样本类增量学习,深度学习,图像分类
1 引言 在过去的十年中,深度神经网络 (Deep Neural Networks, DNNs) 经过了几个明显的发展阶段:从基于监督学习的架构工程,如 AlexNet 和 ResNet,到结合监督预训练和微调策略的模型,以基于 Transformer 的 BERT 为代表。这一进展进一步扩展到自监督或半监督预训练与提示工程相结合的策略,如 GPT 系列。这些进步不断拓展算法性能的边界,开辟了新的应用可能性。然而,必须认识到,这些 DNN 成就严重依赖于大量高质量数据、昂贵的计算硬件和获取成本高昂的优秀 DNN 架构。
DNN 学习范式主要设计用于静态任务的封闭世界设置,并且它具有内在的局限性。首先,这些模型不能保留先前获得的知识并随时间学习新知识。具体而言,一旦它们在特定数据集上进行训练,当面对新任务或数据分布时,它们通常需要从头开始重新训练。此外,重新训练过程涉及存储大量旧数据和更新模型,导致额外的计算和存储成本。这样的学习范式至少存在以下几个主要问题:
- 能力和应用限制:这些系统优化于它们所训练的特定任务,使其不适合动态情况。
- 纯粹的数据驱动差距:与人类不同,这些系统严重依赖于大量数据,缺乏人类学习固有的多功能性和保留能力。
- 效率和可持续性问题:这些数据和能源密集型系统需要频繁重新训练以应对新数据或任务,增加了计算资源压力和碳足迹。
- 隐私和安全问题:动态世界使这些系统在新场景中面临更高的安全风险。此外,重新训练增加了数据泄露的风险,引发隐私问题。
IL,又称为持续学习或终身学习,使系统能够在保持先前知识的同时随时间学习新任务,旨在复制人类学习能力。近年来,这一领域受到了越来越多的关注,促使了大量研究和调查。IL 的发展趋势由主要会议和期刊的学术论文数量概括,并显示出 CIL 在实际场景中应对新类而不忘记现有类的关键挑战。
从图 1 中可以看出,作为 CIL 的一个重要子集,FSCIL 在过去四年中经历了显著增长。FSCIL 专为应对以有限数据学习新类的挑战而设计。这种学习范式要求模型在不断整合新类时保留先前获得的知识,并处理每类的有限注释样本。FSCIL 试图以最少的数据模仿人类的学习效率并随时间保持知识,使其在数据有限且不断变化的现实环境中高度相关。
虽然在 FSCIL 领域取得了一些进展并出现了一些代表性工作,但它仍处于发展阶段。当前的方法仍有很大差距以满足实际应用需求。因此,有必要系统地回顾这一领域的最新发展,识别阻碍其发展的核心挑战和未解问题,并确定未来的研究方向。然而,FSCIL 的大部分研究仍然相当分散,这一领域需要系统和全面的综述。我们的调查旨在填补这一空白。
尽管已有关于 FSL 和 IL 的调查,但专门针对 FSCIL 的系统和全面的调查仍然匮乏。为此,我们总结了现有调查,列出了它们的特点,并系统地描述了本文的独特之处以突显其独特贡献。为了解决 FSCIL 研究中的不足,我们从定义、挑战、通用方案、相关问题、数据集、指标、方法、性能比较和未来方向等方面系统地总结了这一领域。我们的贡献如下:
- 本调查提供了 FSCIL 分类和目标检测方法的系统和全面综述。
- 我们详细讨论了问题定义、核心挑战、通用方案、相关机器学习问题、基准数据集和评估指标。
- 提供了 FSCIL 的结构化分类法,从数据、结构和优化的角度讨论了分类方法,从有锚和无锚的角度讨论了检测方法。
- 讨论了 FSCIL 中的有价值见解和前景。
本文结构如下:第 2 节详细概述了 FSCIL,包括其定义、挑战、通用框架及其与相关问题的关系。第 3 节讨论了流行的 FSCIL 数据集和评估指标。第 4 节从数据、结构和优化的角度审视 FSCIC 方法,第 5 节从有锚和无锚的视角介绍了 FSCIOD 方法。第 6 节总结并展望了 FSCIL 的未来方向。
2 背景
2.1 问题定义 FSCIL 旨在学习一个机器学习模型,该模型能够在仅有少量标记训练样本的情况下连续学习新类,同时保留从以前类中获得的知识。以分类任务为例,图 3(a) 提供了 FSCIL 的一般设置概述,包括训练数据的设置、模型学习过程和评估设置。
设置:如图 3(a) 所示,FSCIL 中使用的数据流包含一个基础会话和一系列新会话。这些会话中的训练数据集可以表示为 {D0_train, D1_train, ..., DB_train},其中 B 是新会话的数量。基础训练数据集通常包含足够的标记样本,其分布为 D0_train = {(xi, yi)}n0_i=1,其中 n0 是基础会话中的训练样本数量,xi 是来自类别 yi ∈ Y0 的训练样本,Y0 是 D0_train 的对应标签空间。不同的是,每个新会话中的训练数据集的形式是 N−way K−shot,其中 N−way 表示训练集包含 N 个类别,K−shot 表示每个类别包含 K 个标记样本。它可以表示为 ∀ 整数 b ∈ [1, B], Db_train = {(xi, yi)}N×K_i=1。注意,不同会话中的类别不交叉,即 ∀ 整数 p, q ∈ [0, B] 且 p ≠ q, Yp∩Yq = ∅。
模型:在训练会话 b 期间,只能访问数据集 Db_train,因为以前会话的原始完整训练数据集不可用。FSCIL 模型必须从 Db_train 学习新类,同时保持对旧类的性能,即最小化所有已见类的预期风险 R (f, b)。该过程的公式如下:
E(xi, yi) ∼ D0_t ∪ ··· ∪ Db_t [L (f (xi; Db_train, θb−1), yi)], (1)
其中,当前 FSCIL 算法 f 旨在基于数据集 Db_train 和先前模型参数 θb−1 构建新模型,并在所有已见类上最小化损失 L。由于 FSCIL 中的数据集是不断更新的,每个新会话的预期风险应优化,即 ∑B_b=1 R (f, b) 应优化。
评估:FSCIL 会话中的测试数据集可以表示为 {D0_test, ..., DB_test},其标签空间与其对应的训练数据集
相同。在会话 b 中的评估中,需要通过联合测试数据集(包括当前和所有之前会话的所有测试数据集)对 FSCIL 模型进行评估,表示为 D0_test ∪ ··· ∪ Db_test。此测量有助于量化模型在其至今遇到的所有类别中的性能。
2.2 核心挑战 FSCIL 面临着显著的挑战,尤其是不可靠的经验风险最小化和稳定性-可塑性两难困境。在 FSCIL 会话中,由于有限的监督数据,经验风险难以准确表示预期风险,降低了模型的泛化能力并增加了过拟合的风险。此外,随着新类的不断增加,旧知识容易被遗忘和覆盖,导致灾难性遗忘。否则,可能会发生固执现象。因此,平衡模型的稳定性和可塑性是另一个核心挑战。本节将详细介绍这些挑战。
2.2.1 不可靠的经验风险最小化 在 FSCIL 中,不可靠的经验风险最小化,即训练模型以最小化训练数据上的预测误差,构成了主要挑战。这种方法不能确保在测试数据上具有强泛化能力,特别是在训练样本有限的情况下。在 FSCIL 中,每个会话的训练数据集遵循 N−way K−shot 格式,通常导致经验风险与预期风险之间存在显著差异,因为新类的样本不足。这种差距可能导致过拟合,即模型在训练数据上表现出色,但在测试数据上表现不佳,从而损害其泛化能力。
与传统的少样本学习相比,FSCIL 不仅面临样本稀缺的问题,还面临类的持续增加带来的挑战。连续会话中的不可靠经验风险最小化可能会阻碍模型收敛到理想状态,不仅质疑当前增量会话中形成的模型的可靠性,还在维护后续增量会话中模型稳定性方面提出挑战。当处理多个增量类且训练样本有限时,这个问题尤为明显。
为了详细说明这个挑战,我们介绍经验风险最小化的基本概念。对于具有数据集 D = {Dtrain, Dtest} 的学习任务,其中 p(x, y) 表示数据 x 和标签 y 的联合概率分布,fo 是从 x 到 y 的最优假设,即最小化预期风险的函数。具体而言,给定假设 f,衡量与 p(x, y) 相关的损失的预期风险 R(f) 公式如下:
R(f) = ∫ L(f(x), y) dp(x, y) = E[L(f(x), y)], (2)
fo 可以解释为:
fo = argmin_f R(f). (3)
由于 p(x, y) 是未知的,经验风险,即在 I 样本的训练数据集 Dtrain 上获得的平均损失值,通常用作 R(f) 的代理来最小化。具体而言,经验风险公式如下:
RI(f) = (1/I) ∑ (L(f(x), y)), (4)
由于 Dtrain 是确定性的,选择假设空间 F 中的假设 f(θ) 来优化模型。经验风险 RI(f) 的最小化可以表示为:
fe = argmin_f∈F RI(f). (5)
理想情况下,fe 尽可能接近 fo。然而,由于 fo 是未知的,需要选择一些 f ∈ F 来逼近它。假设 fb 是 F 中 fo 的最佳近似,可以表示为:
fb = argmin_f∈F R(f). (6)
通常,我们希望 fe 能够尽可能接近 fb。为了简化,假设 fo、fe 和 fb 是定义良好且唯一的。总误差可以分解为:
E[R(fe) − R(fo)] = E[R(fb) − R(fo)] + E[R(fe) − R(fb)], (7)
这里,期望值与 Dtrain 的随机选择有关。逼近误差 Eapp 衡量 F 中函数逼近最优假设 fo 的程度,估计误差 Eest 衡量在 F 中最小化经验风险 RI(f) 而非预期风险 R(f) 的效果。总体而言,假设空间 F 和 Dtrain 中样本数量会影响总误差。
如图 4(a) 所示,当 Dtrain 中的监督信息足够充分,即 I 充足时,经验风险最小化函数能够很好地逼近 F 中的最佳预期风险最小化函数,即 fe 可以很好地逼近 fb。然而,由于每个 FSCIL 增量会话中的训练样本有限,最佳经验风险最小化函数通常无法很好地逼近 F 中的最佳预期风险最小化函数,即 fe 在 F 中远离 fb。这种差异导致模型学习过程中不可靠的经验风险最小化。
2.2.2 稳定性-可塑性两难困境 在 FSCIL 中,一个核心挑战是稳定性-可塑性两难困境,即在保持模型对已学类的持续性能(稳定性)和其对新类的适应性(可塑性)之间取得平衡。传统的深度学习模型通常是静态的,只能处理已学的类。FSCIL 要求在没有原始完整训练数据的情况下,利用少量可用标记训练样本持续学习新类,并保持对旧类知识的稳定性和对新知识的可塑性。然而,由于旧类和新类的优化目标不同,传统的深度学习算法在学习新类时往往无差别地优化现有模型参数,决策边界通常向新类偏移。因此,决策边界在先前类中可能表现不佳甚至完全失效,这种现象称为灾难性遗忘。同样,过度关注保持模型旧知识的稳定性可能限制其学习新任务的能力,称为固执。因此,在 FSCIL 中,平衡稳定性和可塑性是至关重要的。
通过连续会话 p 和 q 可以说明稳定性-可塑性两难困境。图 5(a) 和图 5(b) 显示了这些会话的误差曲面,较暗的区域表示理想的损失值,考虑的模型只有两个参数,θ1 和 θ2。可以看出,会话 p 的优化目标是向下移动,而会话 q 的目标是接近带中心。假设会话 p 上的初始模型是 θ0,优化后是 θp,在会话 p 上表现良好。然而,当模型开始学习下一个会话 q 时,从会话 p 获得的 θp 不足以满足会话 q 的需求。为了解决这个问题,模型通常调整参数以最小化损失,朝向误差表面的中心。假设会话 q 的优化模型是 θq,可以看出 θq 能很好地适应会话 q 的分析任务。然而,当我们使用 θq 在会话 p 上进行预测时,决策边界不能取得满意的性能,表明发生了遗忘。然而,如果在学习会话 q 时约束 θp 向 θ⋆ 移动,可以观察到模型能够有效适应会话 p 和会话 q。
为了在新会话中平衡模型的稳定性和可塑性,关键方法是区分前一会话中的关键参数和非关键参数,只优化非关键参数。新会话的损失函数包含分类任务和防止灾难性遗忘两个部分,公式如下:
L′(θ) = L(θ) + λ ∑ bi (θi − θbi)², (8)
其中 L 是当前分类任务的部分损失函数,θi 表示当前模型 θ 中的参数,θbi 代表前一模型 θb 中的相应参数,bi 描述 θbi 对前一任务的重要性,超参数 λ 在整体损失的两个部分之间进行平衡。设置 bi = 0 对 θi 不加限制,导致灾难性遗忘。相反,设置 bi = ∞ 会导致固执,即 θi 始终等于 θbi。
2.3 通用方案 FSCIL 有两种主要的框架,如图 6 所示。第一种包括特征提取器和 softmax 分类器,而第二种涉及特征嵌入网络和最近类均值分类器。在第一种框架中,整个网络在 IL 过程中是可训练的。为了应对灾难性遗忘,一些研究采用知识蒸馏 (KD) 技术来训练模型,从而使其能够在容纳新类的同时保持对先前类的优秀分类能力。第二种框架侧重于训练特征嵌入网络,将样本映射到一个特征空间,在这个空间中,它们之间的距离表示语义差异。然后使用最近类均值分类器进行分类。例如,一些研究采用度量损失训练嵌入网络,使其能够学习更具辨别性的特征,并更好地适应增量类。
2.4 相关问题
2.4.1 增量学习 本节回顾 FSCIL 与其他增量学习场景(特别是类增量学习 (CIL)、任务增量学习 (TIL) 和领域增量学习 (DIL))之间的关系和区别。需要注意的是,FSCIL 中采用了“会话”一词,而不是其他增量学习文献中使用的“任务”术语。
类增量学习:CIL 旨在
学习一种算法,使其能够不断识别新类而不忘记旧类。FSCIL 可以看作是 CIL 的一个子域。从图 3(a) 和图 3(b) 可以看出,它们的一般设置非常相似。两者都要求在学习新类数据的同时保持对先前类的分类能力。然而,FSCIL 的基础会话通常包括许多训练样本,而 CIL 没有严格的限制。此外,FSCIL 增量会话中的训练样本是有限的,并以 N−way K−shot 的形式存在,而 CIL 增量会话中的训练样本通常是充足的。CIL 的核心挑战在于解决稳定性-可塑性两难困境,而 FSCIL 需要解决这一挑战,并解决由于训练样本不足和在连续场景中持续影响引起的不可靠经验风险最小化问题。
任务增量学习:TIL 旨在学习一种算法,使其能够逐步学习新任务而不忘记旧任务。如图 3(c) 所示,TIL 在分类场景中的训练数据被拆分为多个会话,每个会话代表一个独立的任务。在训练和测试期间,TIL 模型始终知道特定任务的身份。为了避免灾难性遗忘,许多算法采用任务特定组件或为每个任务设计单独的网络。TIL 的主要挑战在于识别跨任务的共享特征,以平衡性能和计算复杂性,并利用一个任务的知识提升其他任务的表现。
领域增量学习:DIL 是一种机器学习问题,旨在在问题结构始终相同的情况下,不断适应来自不同领域的数据分布。DIL 处理增量领域间的数据分布变化,使其能够在新领域中进行有效的学习和预测而不忘记先前获得的知识。如图 3(d) 所示,DIL 涉及多个会话中的训练数据,每个会话包含相同的类,但数据分布不同,代表不同的领域。DIL 模型必须不断适应这些新领域而不失去先前的知识。其主要挑战是识别和利用跨领域的共享特征,允许快速适应新领域,在学习新知识的同时保留旧知识。
2.4.2 少样本学习 少样本学习 (FSL) 是指使用非常少的训练样本进行模型学习。为了更好地理解 FSCIL 和 FSL 之间的关系和区别,本节介绍相关概念,包括 FSL 和通用少样本学习 (gFSL)。为清楚起见,表 2 总结了 FSL、gFSL 和 FSCIL 的不同属性。
少样本学习:FSL 是一种机器学习问题,旨在学习能够使用非常有限的训练样本对新类进行分类和识别的模型。与 FSL 类似,FSCIL 也采用 N−way K−shot 学习每个新类。然而,FSCIL 的训练数据由多个增量会话组成,每个会话包含若干少样本类。表 2 显示,FSL 的主要目标是利用有限的训练数据使模型在新类上具有泛化能力,而不强调基础类的识别性能。相比之下,FSCIL 旨在在有限样本的情况下,持续学习新类并保留以前学到的类的知识。
通用少样本学习:FSL 通常不考虑测试中的基础类性能。然而,现实应用往往需要模型从有限样本中学习新类,同时保持对基础类的性能,基础类通常代表现实世界中的高频类。这种实际需求促使 gFSL 的发展,旨在使模型在有限样本中学习新类而不影响对先前类的性能。与 FSCIL 不同,gFSL 允许访问基础类的初始训练数据。
2.5 分类法 为了对 FSCIL 研究进行彻底审查,我们提出了当前方法的分类法。如图 7 所示,我们从数据、结构和优化的角度分析现有方法的 FSCIC 问题。此外,对于 FSCIOD 问题,我们从有锚和无锚的角度进行评估。
3 数据集和评估 本节重点介绍 FSCIL 中的数据集的重要性,这对于基准和算法比较至关重要。首先回顾主要的公共数据集,详细介绍其特征、统计数据和实施细节。随后,介绍了各种任务的评估指标,最后概述了局限性和未来趋势。
3.1 数据集
3.1.1 分类数据集 miniImageNet:miniImageNet 是一个包含来自不同领域(如动物、植物、日常用品和车辆)的对象类的多样化和具有挑战性的数据集,最初由 Vinyals 等人在 2016 年提出,常用于评估 FSL 算法。该数据集包含从 ImageNet 中选择的 60,000 张图像,共 100 个类别,每个类别 600 张图像,图像大小为 84 × 84 像素。在 FSCIL 中,Tao 等人提出的常见数据划分方法将这 100 个类划分为 60 个基础类和 40 个增量类。这些增量类进一步划分为 8 个会话,每个会话包含 5 个类和每类 5 个训练样本,形成一个 5−way 5−shot 设置。
CIFAR-100:CIFAR-100 由 Krizhevsky 等人在 2009 年提出,广泛用于 CIL。它涵盖了包括植物、人类和车辆在内的广泛图像数据。数据集包含 100 个类别,每个类别有 600 张 32 × 32 的 RGB 图像,500 张用于训练,100 张用于测试。在 FSCIL 中,Tao 等人提出的常见数据划分方法将这 100 个类划分为 60 个基础类和 40 个增量类。这些增量类进一步划分为 8 个会话,每个会话包含 5 个类,每类 5 个训练样本,形成一个 5−way 5−shot 格式。
CUB-200:Caltech-UCSD Birds-200-2011 (CUB-200) 数据集由 Wah 等人在 2011 年创建,是计算机视觉中细粒度分类的基准数据集。它包含 200 个鸟类物种的 11,788 张图像。用于评估 FSCIL 算法,常采用 Tao 等人提出的数据划分方法。该方法将 200 个类划分为 100 个基础类和 100 个增量类,这些增量类进一步划分为 10 个会话,每个会话包含 10 个类,每类 10 个训练样本,形成 10−way 10−shot 任务。标准图像大小为 224× 224 像素。
3.1.2 目标检测数据集 COCO:Microsoft Common Objects in Context (COCO) 数据集广泛用于目标检测任务,包含 80 个对象类别,包括人物、动物、车辆、家具和食物。它具有反映现实场景的多样化和复杂图像,带有详细注释,如边界框、类标签和语义分割掩码。在 FSCIOD 任务中,常采用 Perez-Rua 等人提出的数据划分策略。该方法利用与 PASCAL VOC 数据集重叠的 20 个类作为新的增量类,其余 60 个作为基础数据。根据此设置,FSCIOD 模型使用每个新类的 K ∈ 1, 5, 10 个边界框进行评估。
PASCAL VOC:PASCAL Visual Object Classes (VOC) 数据集广泛用于目标检测任务,包括 20 个常见对象类别,如人物、动物、车辆和家庭物品。它经常用于 FSCIOD 算法的跨数据集评估。特别是,VOC 与 COCO 数据集共享 20 个类别。因此,COCO 中不重叠的 60 个类别通常是跨数据集评估的基础训练数据,VOC 的 20 个类别作为新的增量类,以评估少样本增量学习能力。评估策略与 COCO 数据集类似,FSCIOD 模型使用每个新类的 K ∈ 1, 5, 10 个边界框进行评估。
3.2 评估指标
3.2.1 分类评估指标 在 FSCIL 中,模型必须学习新类的同时保留先前类的知识。每个增量会话后,通过联合数据集(包括迄今为止所有类别的联合测试数据集)对模型进行测试,分类准确率是标准评估指标。模型需要平衡保持旧类识别和学习新类的能力。此外,在所有增量会话完成后,使用各种指标评估模型的整体性能。常见指标包括性能下降 (PD) 率和平均准确率 (AA)。PD 率衡量最终增量会话和基础会话之间的准确率差异,值越低表示 FSCIL 性能越好。AA 计算基础会话
和所有增量会话的平均准确率,值越高表示 FSCIL 性能越好。
3.2.2 目标检测评估指标 在 FSCIOD 任务中,有两种方法将新增量数据纳入模型:批量增量学习和连续增量学习。批量增量学习一次性学习所有新类,而连续增量学习逐步添加新类。更常见的设置是批量增量学习,类似于单一会话的 FSCIL。这里的主要性能指标是平均精度 (AP),评估检测模型的有效性。AP 分别计算基础类、新类和所有类的平均精度,所有类的 AP 值越高表示 FSCIOD 性能越好。此外,一些研究使用平均召回率 (AR) 和 AP50 作为补充指标进行更全面的评估。
3.3 总结 对数据集和评估方法的概述揭示了 FSCIL 任务中公开可用数据集的稀缺性,限制了其实际应用。尽管一些研究引入了各种 FSCIL 场景的数据集,但数据集的改进仍有很大空间。关于模型评估,尽管当前指标在一定程度上评估了模型的学习能力,但它们无法完全捕捉 FSCIL 在持续学习过程中的详细表现。因此,FSCIL 的数据集和评估指标在未来有很大的发展空间。
4 少样本类增量分类 本节专注于 FSCIL 分类任务,总结现有方法,分为基于数据、基于结构和基于优化的类别,注意这些领域之间的某些重叠。根据其属性和核心创新对方法进行分类,最后进行性能比较和关键问题讨论。
4.1 基于数据的方法 基于数据的方法是指通过数据视角解决 FSCIL 的挑战,相关方法包括数据重放和伪数据构建。
4.1.1 数据重放方法 由于以前会话的原始完整训练数据不可用,FSCIL 中常发生灾难性遗忘。数据重放是通过重放有价值的数据来减轻这一问题的直接策略,同时适应新会话。现有方法包括原始重放和生成重放,涉及样本或特征表示的重放。
原始重放方法:原始重放方法通过在辅助存储器中存储一部分以前会话的原始样本,并在新会话的学习过程中重放这些样本,以复习以前的知识。图 8(a) 所示,Kukleva 等人提出了一种多阶段 FSCIL 方法 LCwoF。该方法首先使用交叉熵 (CE) 损失训练骨干网络。第二阶段,使用 KD 损失和基础归一化的 CE 损失联合监督新类学习和旧知识保持。最后阶段,随机抽样新旧类数据进行数据重放以进一步校准性能。不同的是,Zhu 等人提出了一种基于特征分布蒸馏的方法,该方法在每个新类存储相同数量的旧样本,以在其学习过程中形成联合集。新旧模型为此集合生成特征表示。基于 CE 损失和 KD 损失的联合函数用于约束新模型生成与旧模型相似的表示,以保持旧知识。然而,原始重放方法的性能受辅助存储空间、样本选择和数量等因素的影响,这些问题尚未完全解决。
生成重放方法:生成重放方法通过训练和存储一个生成数据(包括旧类样本或特征表示)的模型,在新会话的学习过程中重放旧知识。图 8(b) 所示,Liu 等人提出了一种基于 GAN 的数据无重放方法,使用不确定性约束基于熵正则化训练生成器,使生成的数据接近决策边界。在增量会话中,生成的数据与新数据一起微调模型,使其在新旧类上表现良好。不同于生成样本,一些方法选择生成特征。具体而言,Shankarampeta 和 Yamauchi 提出了一种基于 Wasserstein GAN 和 MAML 的框架,主要由特征提取器和特征生成器组成。在训练过程中,特征提取器在基础数据上初始化,然后通过 MAML 的元学习训练特征生成器。在增量学习中,特征提取器结合特征蒸馏在分类器级别进行特征重放以应对灾难性遗忘。类似地,Agarwal 等人提出的 FSIL-GAN 使用类似的框架进行特征重放。FSIL-GAN 的主要贡献是引入语义投影模块,约束合成特征与潜在语义向量匹配,以确保其多样性和可辨别性。在增量学习中,KD 确保了新旧生成器之间的知识转移。生成重放提供了灵活性和安全性,但增加了模型的复杂性。
讨论:数据重放是解决 FSCIL 中灾难性遗忘的直接策略。原始重放方法提供了简单和便利,但其有效性受辅助存储空间、样本选择和数量及新旧类不平衡分布的影响。相比之下,生成重放方法具有更好的灵活性,缓解了原始重放方法的潜在隐私问题。然而,生成重放方法在不断生成旧样本的过程中面临挑战,包括生成质量和效率及额外的计算成本。这些问题需要进一步的探索和研究。
4.1.2 伪场景方法 与数据重放等向后兼容的方法不同,另一种常见的 FSCIL 策略是构建伪增量场景。这些场景在动态且不断扩展的 FSCIL 数据流中作为复习机制,为实际增量会话做准备,确保模型的有效性能。这些方法主要分为伪类和伪会话构建。
伪类方法:伪类构建方法旨在生成合成类及其相应的样本,以便 FSCIL 模型为实际增量类做准备。大多数现有研究利用基础会话开发这些伪类,使用伪数据和原始数据训练模型。这种策略促进了 FSCIL 模型的前向兼容性。图 8(c) 所示,这是 Zhou 等人提出的前向兼容 FSCIL 框架。该框架的核心在于在训练期间约束真实样本,使其在嵌入空间中更紧凑地表示其类别,并为构建的虚拟类别保留一些空间。特别地,该方法通过基于真实数据的掩码特征逼近虚拟类来促进真实数据的类内紧凑性。同时,该框架使用类似技术约束由多个类特征混合构建的虚拟特征,确保真实类别的紧凑性并为增量类保留一些特征空间。同样,Peng 等人在 ALICE 框架中通过将基础会话中的两个不同类合并生成伪类,并使用随机裁剪、水平翻转和颜色抖动等技术增强数据。使用常用于人脸识别的角度惩罚损失训练特征提取器,创建伪类和真实数据的联合集。核心思想也是促进类内紧凑性,并为增量类保留特征空间。
伪会话方法:与创建合成类的伪类方法不同,伪会话构建方法更侧重于模拟增量会话。大多数现有方法使用基础会话创建伪增量会话,并结合元学习技术,使 FSCIL 模型能够了解如何处理增量会话。构建伪增量会话的方法多种多样。图 8(d) 所示,Zhang 等人提出的 CEC 框架通过对基础类进行大角度旋转变换构建伪增量会话。然后将这些伪会话与基础会话结合,通过元学习策略训练图注意力网络,使其在 FSCIL 任务中更好地传递上下文信息。Zhu 等人提出的 FSCIL 模型包括两个创新:随机剧集选择 (RES) 和动态关系投影 (DRP)。RES 随机抽样五个类创建 N−way K−shot 伪增量会话,掩码原始类原型,使用伪增量数据通过平均生成类原型。然后,使用 DRP 优化这些原型,DRP 将标准和伪增量学习的类原型映射到共享潜在空间。通过计算旧类和新类之间的余弦相似度获得关系矩阵。该矩阵作为原型优化的过渡系数,使动态优化成为可能,从而保持现有知识并增强新类的辨别能力。
讨论:伪场景构建是一种前向兼容策略,通过合成类或会话训练模型以适应未来的真实增量类。伪类构建是一种方法,通过伪类与基础类结合训练模型,使特征空间保留一定的空间以适应增量类。然而,保留空间通常需要
了解增量类的总数量,这与现实世界矛盾。由于合成数据和真实数据往往存在差异,保留空间的适用性尚待发现。相比之下,伪会话构建更为合理,因为它通常结合伪增量会话与元学习训练模型,使其能够适应增量会话。然而,伪增量会话是否能有效模拟真实增量会话的问题需要进一步探索。
4.2 基于结构的方法 基于结构的方法是指利用模型设计或其特性来解决 FSCIL 中的挑战。这些方法主要涉及动态结构方法和基于注意力的方法。
4.2.1 动态结构方法 动态结构方法旨在通过动态调整模型结构或原型之间的相互关系来实现 FSCIL。目前,现有方法可大致分为基于图的方法和其他方法。
基于图的方法:基于图的方法利用图的拓扑特性来实现 FSCIL。这些方法通常使用图中的节点和边来描述来自不同会话的不同类之间的相似性或关联性,并根据类之间的相互影响动态调整图结构。一些研究利用图结构实现 FSCIL。例如,Tao 等人提出的 TOPIC 框架利用神经气体网络进行知识提取和表示。TOPIC 旨在通过动态调整特征表示之间的相互关系来解决 FSCIL。具体而言,神经气体网络定义了一个无向图,该图将特征空间映射到一组有限的特征向量,并通过竞争性 Hebbian 学习保持特征空间的拓扑特性。为了实现 FSCIL,他们通过使监督神经气体模型能够通过竞争学习来增长节点和边逐步改进神经气体网络。此外,他们设计了一个稳定性损失来抑制灾难性遗忘,以及一个适应性损失来减少过拟合。
此外,前面提到的 CEC 框架也利用了图结构来实现 FSCIL。首先,通过伪增量会话训练图注意力网络来调整模型。在增量会话中,模型通过注意力机制来调节节点之间的关系,这些节点表示旧类和新类的原型。这允许在会话之间更好地传递上下文信息,使类原型更稳健。
其他方法:除了基于图的方法外,一些研究采用其他动态结构来实现 FSCIL。例如,Yang 等人提出了一系列作品。他们提出了一种新的动态支持网络 (DSN),用于应对 FSCIL 的挑战。DSN 是一个具有压缩节点扩展的自适应更新网络,旨在“支持”特征空间。在每个会话中,DSN 临时扩展网络节点,以增强增量类的特征表示能力。然后,通过节点自激活动态压缩扩展的网络,追求紧凑的特征表示,以减轻过拟合。此外,DSN 在 IL 过程中选择性调用旧类的分布,以支持特征分布,避免类之间的混淆。
讨论:动态结构方法是解决 FSCIL 挑战的重要途径。这些方法通过动态调整模型结构或原型之间的关系,在学习新知识的同时保留旧知识。基于图的方法利用图的拓扑特性,通过调整节点和边来描述不同类之间的相似性和关联性,从而实现非遗忘的增量学习。动态结构网络通过临时扩展和动态压缩网络节点来增强特征表示,并减轻过拟合。动态结构方法在 FSCIL 中发挥重要作用,但仍需进一步研究和探索,开发更多的动态结构设计方法。
4.2.2 基于注意力的方法 在 FSCIL 中,基于注意力的方法通过在模型结构中引入注意力模块来调整特征的注意力分配。这样可以使模型专注于与当前任务相关的信息,从而提高其性能和泛化能力。许多 FSCIL 方法使用的注意力模块的作用是多样的。例如,在赵等人提出的双分支 KD 框架中,包含了一个基础分支和一个新分支,他们指出通过新类微调不可避免地导致旧知识遗忘。为了进一步提高基础类的性能,他们提出了一个基于注意力的聚合模块,选择性地合并来自基础分支和新分支的预测。
此外,Cheraghian 等人通过元学习训练一个骨干网络,该网络能够在没有遗忘旧类的情况下增量学习新类。然而,许多现有的 FSCIL 范式通过将基础分类器与通过平均每个训练样本特征获得的新类原型连接来更新分类器,这种方法常常导致偏差。因此,本文提出了一种基于 Transformer 的校正模型,利用其注意力机制有效传递不同类之间的上下文信息,使分类器更高效和稳健。
类似的方法还包括 CEC 框架中使用的图注意力网络。
4.3 基于优化的方法 基于优化的方法通过解决优化问题的复杂性来应对 FSCIL 的挑战。相关策略主要包括表示学习、元学习和知识蒸馏,根据现有工作分类如下。
4.3.1 基于表示学习的方法 在 FSCIL 中,表示学习旨在从有限的样本流中提取有意义的特征,形成数据的“表示”。通过有效的表示学习,模型可以识别并利用这些少量样本中的潜在模式,并将其泛化到新的未见类。即使在少样本增量场景中,模型也能通过高效的表示学习表现出色。在 FSCIL 中,进行表示学习的方法多种多样,主要包括基于度量学习、基于特征空间、基于特征融合和其他方法。
基于度量学习的方法:度量学习旨在使用最佳距离度量来确定对象之间的相似性,用于学习任务。它在 FSL 中得到了广泛应用。最近,度量学习也被采用在 FSCIL 中,以学习有效的表示。在常用方法中,三元组损失尤为突出。Mazumder 等人提出了一种新方法,结合自监督学习增强骨干网络的泛化能力。然后,该方法通过评估模型参数的重要性,仅更新不重要的参数以学习新类。更新通过结合三种损失函数实现:三元组损失、正则化损失和余弦相似度损失。三元组损失旨在生成判别性特征,正则化损失防止灾难性遗忘,余弦相似度损失关注控制旧原型和新原型之间的相似性,从而在 FSCIL 中取得了良好的性能。
尽管这些基于边缘的度量损失取得了良好的性能,Zou 等人指出了 FSCIL 中存在的问题:大的边缘值可能导致基础类之间的良好辨别性,但阻碍新类的泛化能力。相反,小或负的边缘值可能导致基础类的表现不佳,但在新类上表现更好。为了解决这个问题,Zou 等人提出了 CLOM 框架,将边缘理论与神经网络结构的特性结合起来。具体而言,由于神经网络的浅层更适合学习类间的共同特征,而深层更适合获取高级特征,他们设计了一个损失函数,分别约束浅层特征学习和深层特征学习。此外,该框架通过整合类关系来减轻类级过拟合问题。
基于特征空间的方法:基于特征空间的方法旨在通过优化特征空间来实现 FSCIL。这些方法的核心思想是设计特征空间,以学习更稳健和高效的特征表示。一些相关方法通过设计子空间来解决 FSCIL。例如,受频率解耦启发,赵等人讨论并利用了特征中不同频率成分的特性。具体而言,该方法首先使用度量学习损失和正则化损失训练特征提取器。然后,他们根据频率解耦特征,并观察高频和低频信息在 FSCIL 中的作用,发现低频信息可能更多地有助于保持旧知识。因此,他们设计了具有不同学习率的子空间来学习不同频率域中的特征,通过子空间组合策略,实现了良好的性能。
此外,一些方法通过设计具有特殊结构的特征空间来解决 FSCIL。例如,Hersche 等人提出了 C-FSCIL 框架,包含一个通过元学习训练的特征提取器、一个可训练的全连接层和一个可重写的显式存储器。其核心思想是引入超维度嵌入,它具有三个优势:随机向量之间的准正交性概率高,表达空间丰富,具有良好的语义表示能力。C-FSCIL 有三种训练策略。第一种基于简单的元学习,如 4.3.3 节所述。第二种策略将初始原型存储在全局平均激活存储器中,并应用元素级符号操作,将相似的特征原型转化为双极向量。然后通过监督训练全连接层,学习最终原型的权重。第三种策略类似于第二种,但结合两个损失来约束类间差异,并保持与原始原型的关系。
如图 9(b) 所示,Yang 等人提出了一种基于神经坍塌的 FSCIL 框架,神经坍塌是指在训练结束时(在训练误差率为 0 后),最后一层特
征会在特征空间中坍塌为一个单一顶点,与其分类器原型对齐,形成一个简单的等角紧框架。基于这一特性,提出的框架预定义了一个类似于神经坍塌的结构,并引导模型进行优化。具体而言,为基础会话和增量会话分配了一组类似于等角紧框架的原型。在训练过程中,这些原型是固定的。引入了一种新的损失函数和一个额外的投影层,分别将每个类分配给其相应的原型。无需繁琐的操作,该方法取得了优越的性能。此外,前面提到的由 Zhou 等人提出的方法也是通过在基础类学习过程中保留一些空间来解决 FSCIL 的问题。
基于特征融合的方法:特征融合是指整合或结合从不同信息源或特征提取方法中获得的特征,以创建更全面和高效的表示,展示出稳健性和泛化能力。在 FSCIL 背景下,各种方法采用特征融合策略,以学习能够适应特定任务需求的有效特征表示。值得注意的是,许多方法特别关注将自监督特征纳入融合过程中。例如,Ahmad 等人提出了一种结合自监督和监督特征的框架。其核心结构包括以下组件:首先,通过基础类数据上的监督训练和 ImageNet 或 OpenImages-v6 上的自监督任务(使用前置任务、对比损失或聚类)获得特征提取器。其次,通过高斯生成器在增量会话中合成特征进行重放。最后,使用一个轻量级模型进行增量特征融合和分类。
此外,Kalla 和 Biswas 提出了 S3C,一种基于随机分类器和自监督解决 FSCIL 的方法。他们介绍了一种新的自监督训练方法,通过图像增强生成人工标签,以训练分类层。随机分类器权重有助于减轻新样本数量有限和旧样本不可用的影响。自监督组件使基础类特征能够很好地泛化到未来未见类,有效减少了灾难性遗忘。
4.3.2 基于知识蒸馏的方法
基于知识蒸馏(KD)的方法通过使用教师模型的知识指导学生模型的学习来解决 FSCIL 中的挑战。这些方法在优化过程中通常结合了学生模型和教师模型的预测结果,从而增强了学生模型的泛化能力。例如,Cheraghian 等人提出了一种基于元学习的 KD 方法,该方法首先通过元学习训练教师模型,然后使用 KD 方法指导学生模型学习,从而在新类上取得良好的性能。
在 FSCIL 中,KD 方法的关键在于如何有效传递教师模型的知识,同时保持对旧类的记忆。Us-KD 是一种利用无标签数据和不确定性量化进行 KD 的方法。具体而言,Cui 等人提出的 Us-KD 框架通过不确定性引导的半监督学习和知识蒸馏,使用无标签数据进行增量学习。在每个增量会话中,首先通过不确定性量化选择高置信度的无标签样本,然后使用这些样本进行半监督学习。接着,使用教师模型的知识指导学生模型的训练,从而在新旧类上取得平衡的性能。
4.3.3 基于元学习的方法 元学习,即学习如何学习的方法,在 FSCIL 中被广泛应用。这些方法通常通过在元任务上进行训练,使模型能够快速适应新任务,从而在少样本学习场景中取得良好的性能。例如,MAML 是一种经典的元学习算法,通过在多个任务上进行训练,使模型能够快速适应新任务。
在 FSCIL 中,基于元学习的方法通常通过构建伪增量任务,训练模型在这些任务上的表现,从而使其在实际增量任务中具有良好的性能。例如,CEC 框架通过在基础类上构建伪增量会话,使用元学习策略训练图注意力网络,使其在 FSCIL 任务中更好地传递上下文信息。
4.3.4 其他方法 除了以上几种主要的方法外,还有一些其他方法在 FSCIL 中取得了良好的性能。例如,少样本类增量学习中使用的混合方法,将不同的方法结合起来,以发挥各自的优势,从而在新旧类上取得平衡的性能。
通过对现有方法的分类和讨论,可以看出,每种方法在应对 FSCIL 中的挑战时都有其独特的优势和不足。在实际应用中,选择合适的方法需要根据具体的应用场景和数据特点来决定。
4.4 性能比较和关键问题
本节将对现有 FSCIL 方法的性能进行比较,并讨论其中存在的一些关键问题。通过分析这些方法的优缺点,可以更好地理解 FSCIL 的研究现状,并为未来的研究指明方向。
4.4.1 性能比较
为了公平地比较不同 FSCIL 方法的性能,我们选择了几个常见的基准数据集,并在这些数据集上进行实验。表 3 列出了各方法在 miniImageNet、CIFAR-100 和 CUB-200 数据集上的性能表现。具体而言,我们选择了几个代表性的方法,包括基于数据重放、基于动态结构和基于优化的方法。
表 3 不仅展示了各方法的最终分类准确率,还包括了它们在不同增量会话中的性能。这种比较方式有助于评估各方法在持续学习过程中的表现。此外,我们还统计了各方法的性能下降率 (PD) 和平均准确率 (AA),以全面评估 FSCIL 方法的性能。
4.4.2 关键问题
通过对现有 FSCIL 方法的分析,我们识别了以下几个关键问题:
灾难性遗忘:在 FSCIL 中,灾难性遗忘是一个普遍存在的问题。大多数方法通过数据重放、知识蒸馏或其他策略来减轻这一问题。然而,这些方法在处理增量类数据时往往会面临样本选择和存储成本的问题。如何设计高效且低成本的重放策略仍是一个重要的研究方向。
不可靠的经验风险最小化:由于增量会话中的样本数量有限,现有方法在训练过程中往往面临过拟合问题。为了缓解这一问题,一些方法引入了元学习或自监督学习策略。然而,这些方法在处理实际增量类数据时仍存在局限性,如何提高模型的泛化能力是一个亟待解决的问题。
稳定性-可塑性两难困境:在 FSCIL 中,模型需要在保持旧类性能的同时,适应新类的学习。现有方法通过动态结构调整或注意力机制来平衡稳定性和可塑性。然而,这些方法在处理高维数据时往往会面临计算成本和模型复杂度的问题,如何设计高效且鲁棒的平衡策略是一个值得研究的方向。
数据和计算资源的限制:许多 FSCIL 方法依赖于大量的计算资源和辅助存储空间。为了在实际应用中推广这些方法,需要设计更加高效且资源友好的算法。此外,如何在数据和计算资源有限的情况下,仍然保持较高的模型性能也是一个重要的研究方向。
5 少样本类增量目标检测
本节将介绍 FSCIL 在目标检测任务中的应用,并总结现有方法。目标检测任务在计算机视觉中具有重要地位,其挑战在于在图像中定位并识别目标物体。少样本类增量目标检测 (FSCIOD) 旨在解决在有限样本情况下,持续学习新目标类的任务。
5.1 背景和定义
目标检测任务通常包含两个部分:定位目标和识别目标。在 FSCIOD 中,模型需要在有限样本的情况下学习新目标类,同时保持对旧目标类的检测性能。与 FSCIL 类似,FSCIOD 也面临着灾难性遗忘、不可靠的经验风险最小化和稳定性-可塑性两难困境等挑战。
FSCIOD 的目标是设计一种算法,使其能够在增量会话中高效地学习新目标类,并在所有已见类上保持较高的检测性能。具体而言,在每个增量会话中,模型只能访问当前会话的训练数据,因此需要通过特征重放、元学习和知识蒸馏等方法来减轻灾难性遗忘,并提高模型的泛化能力。
5.2 无锚方法
无锚方法是指在目标检测任务中,不使用预定义的锚框进行目标定位。这些方法通过直接预测目标的边界框和类别,实现目标检测。无锚方法在 FSCIOD 中具有重要应用,因为它们不依赖于固定的锚框,具有更高的灵活性和泛化能力。
例如,One-Stage Few-Shot Object Detection (OSFSOD) 是一种典型的无锚方法。OSFSOD 通过结合元学习和度量学习,在少样本情况下实现目标检测。具体而言,该方法首先通过元学习训练一个骨干网络,以提取高效的特征表示。然后,通过度量学习策略,计算目标类之间的相似性,实现目标的定位和识别。
5.3 有锚方法
有锚方法是指在目标检测任务中,使用预定义的锚框进行目标定位。这些方法通过在图像中生成多个锚框,并对每个锚框进行分类和回归,实现目标检测。有锚方法在 FSCIOD 中也具有重要应用,因为它们通常具有较高的检测精度和鲁棒性。
例如,Two-Stage Few-Shot Object Detection (TSFSOD) 是一种典型的有锚方法。TSFSOD 通过结合元学习和知识蒸馏,在少样本情况下实现目标检测。具体而言,该方法首先通过元学习训练一个骨干网络,以提取高效的特征表示。然后,通过知识蒸馏策略,将教师模型的知识传递给学生模型,实现目标的定位和识别。
5.4 方法比较和讨论
表 4 列出了几种典型的 FSCIOD 方法在 COCO 和 PASCAL VOC 数据集上的性能表现。通过对比这些方法,可以看出无锚方法通常具有更高的泛化能力,而有锚方法则在检测精度方面表现更好。如何在这两者之间取得平衡,是 FSCIOD 研究中的一个重要方向。
讨论:FSCIOD 方法在应对少样本增量目标检测任务中表现出色。然而,这些方法在处理高维数据和复杂场景时仍存在一些挑战。例如,无锚方法在处理大规模数据时通常会面临计算成本和模型复杂度的问题。有锚方法虽然具有较高的检测精度,但其对锚框的依赖可能限制其泛化能力。如何设计高效且鲁棒的 FSCIOD 方法,是未来研究的一个重要方向。
6 总结和未来方向
本文对少样本类增量学习 (FSCIL) 进行了全面和系统的综述。我们讨论了 FSCIL 的定义、核心挑战、通用方案以及与相关问题的关系。此外,我们还总结了现有 FSCIL 方法,分别从基于数据、基于结构和基于优化的角度进行了分类,并对其性能进行了比较和讨论。
尽管在 FSCIL 领域取得了一些进展,但仍有许多挑战需要解决。未来的研究方向可能包括:
设计更高效的重放策略:现有的数据重放方法在处理高维数据时面临存储成本和计算复杂度的问题。未来的研究可以探索更高效的重放策略,以减轻灾难性遗忘并提高模型的泛化能力。
开发鲁棒的元学习算法:元学习在 FSCIL 中具有重要应用。然而,现有的元学习算法在处理增量类数据时仍存在局限性。未来的研究可以开发更鲁棒的元学习算法,以提高模型在增量类任务中的表现。
优化特征空间设计:现有的特征空间设计方法在处理高维数据时面临计算成本和模型复杂度的问题。未来的研究可以探索更高效的特征空间设计方法,以提高模型的泛化能力。
结合自监督学习:自监督学习在 FSCIL 中具有重要应用。未来的研究可以结合自监督学习和其他策略,以提高模型在少样本增量任务中的表现。
实际应用中的性能优化:尽管现有方法在实验中表现出色,但在实际应用中仍存在一些挑战。未来的研究可以探索如何在实际应用中优化 FSCIL 方法的性能,以满足实际需求。
综上所述,少样本类增量学习是一个充满挑战和机遇的研究领域。通过不断探索和创新,我们可以设计出更高效、更鲁棒的 FSCIL 方法,以应对实际应用中的各种挑战。
7 方法概述
本节对 FSCIL 方法进行总结和概述,提供一个结构化的框架来理解各种方法的核心思想和实现策略。通过这种方式,可以更系统地理解不同方法在应对 FSCIL 挑战时的优缺点。
7.1 基于数据的方法
基于数据的方法通过数据重放和伪数据构建来应对 FSCIL 的挑战。这些方法的核心思想是通过重放有价值的数据或构建伪增量场景,以帮助模型复习以前的知识,同时适应新会话。
7.1.1 数据重放方法
数据重放方法通过在辅助存储器中存储一部分以前会话的原始样本,并在新会话的学习过程中重放这些样本,以复习以前的知识。这些方法包括原始重放和生成重放,涉及样本或特征表示的重放。
7.1.2 伪场景方法
伪场景方法通过构建伪增量场景来应对 FSCIL 的挑战。这些方法包括伪类和伪会话构建,旨在生成合成类及其相应的样本或模拟增量会话,以确保模型在实际增量会话中的有效性能。
7.2 基于结构的方法
基于结构的方法通过动态调整模型结构或原型之间的相互关系来实现 FSCIL。这些方法包括基于图的方法和其他方法,旨在利用模型设计或其特性来解决 FSCIL 中的挑战。
7.2.1 基于图的方法
基于图的方法利用图的拓扑特性,通过调整图结构来描述不同类之间的相似性和关联性,从而实现非遗忘的增量学习。这些方法通过动态调整特征表示之间的相互关系来实现 FSCIL。
7.2.2 其他方法
其他方法通过动态调整模型结构或原型之间的相互关系来实现 FSCIL。这些方法包括动态支持网络和其他具有特殊结构的特征空间设计,旨在通过临时扩展和动态压缩网络节点来增强特征表示,并减轻过拟合。
7.3 基于优化的方法
基于优化的方法通过解决优化问题的复杂性来应对 FSCIL 的挑战。这些方法主要包括表示学习、元学习和知识蒸馏,根据现有工作分类如下。
7.3.1 基于表示学习的方法
表示学习旨在从有限的样本流中提取有意义的特征,形成数据的“表示”。这些方法通过有效的表示学习,使模型能够识别并利用少量样本中的潜在模式,并将其泛化到新的未见类。
7.3.2 基于知识蒸馏的方法
基于知识蒸馏的方法通过使用教师模型的知识指导学生模型的学习来解决 FSCIL 中的挑战。通过结合学生模型和教师模型的预测结果,增强了学生模型的泛化能力,并在新旧类上取得平衡的性能。
7.3.3 基于元学习的方法
元学习通过在多个任务上进行训练,使模型能够快速适应新任务。这些方法在 FSCIL 中被广泛应用,通过构建伪增量任务,训练模型在这些任务上的表现,从而使其在实际增量任务中具有良好的性能。
7.4 其他方法
除了以上几种主要的方法外,还有一些其他方法在 FSCIL 中取得了良好的性能。例如,混合方法将不同的方法结合起来,以发挥各自的优势,从而在新旧类上取得平衡的性能。
7.5 性能比较
通过对现有方法的性能比较,可以看出,每种方法在应对 FSCIL 中的挑战时都有其独特的优势和不足。在实际应用中,选择合适的方法需要根据具体的应用场景和数据特点来决定。
8 结论和未来方向
少样本类增量学习 (Few-shot Class-Incremental Learning, FSCIL) 是机器学习中的一个重要挑战。本文综述了 FSCIL 的定义、核心挑战、通用方案、相关问题、数据集和评估指标,并对现有方法进行了详细分类和讨论。尽管在该领域取得了一些进展,但仍有许多未解问题和研究方向值得探索。本文的结论和未来研究方向如下:
8.1 结论
定义和核心挑战:FSCIL 要求模型在不断学习新类的同时保持对旧类的记忆。其核心挑战包括灾难性遗忘、不可靠的经验风险最小化和稳定性-可塑性两难困境。解决这些挑战对于实现高效和鲁棒的 FSCIL 模型至关重要。
通用方案和相关问题:本文总结了 FSCIL 的两种主要方案,即基于特征提取器和 softmax 分类器的方案以及基于特征嵌入网络和最近类均值分类器的方案。此外,还讨论了 FSCIL 与增量学习和少样本学习等相关问题的关系。
数据集和评估指标:本文回顾了几个常见的 FSCIL 数据集,包括 miniImageNet、CIFAR-100 和 CUB-200 等,并总结了各种评估指标,如分类准确率、性能下降率和平均准确率等。这些数据集和评估指标有助于量化和比较不同 FSCIL 方法的性能。
现有方法分类和讨论:本文从基于数据、基于结构和基于优化的角度对现有 FSCIL 方法进行了分类和讨论。基于数据的方法包括数据重放和伪数据构建;基于结构的方法包括动态结构和基于注意力的方法;基于优化的方法包括表示学习、元学习和知识蒸馏。每种方法在应对 FSCIL 中的挑战时都有其独特的优势和不足。
性能比较:本文通过在多个基准数据集上进行实验,对不同 FSCIL 方法的性能进行了比较。结果表明,每种方法在不同数据集和增量会话中的表现存在差异,选择合适的方法需要根据具体的应用场景和数据特点来决定。
8.2 未来方向
设计更高效的重放策略:现有的数据重放方法在处理高维数据时面临存储成本和计算复杂度的问题。未来的研究可以探索更高效的重放策略,以减轻灾难性遗忘并提高模型的泛化能力。
开发鲁棒的元学习算法:元学习在 FSCIL 中具有重要应用。然而,现有的元学习算法在处理增量类数据时仍存在局限性。未来的研究可以开发更鲁棒的元学习算法,以提高模型在增量类任务中的表现。
优化特征空间设计:现有的特征空间设计方法在处理高维数据时面临计算成本和模型复杂度的问题。未来的研究可以探索更高效的特征空间设计方法,以提高模型的泛化能力。
结合自监督学习:自监督学习在 FSCIL 中具有重要应用。未来的研究可以结合自监督学习和其他策略,以提高模型在少样本增量任务中的表现。
实际应用中的性能优化:尽管现有方法在实验中表现出色,但在实际应用中仍存在一些挑战。未来的研究可以探索如何在实际应用中优化 FSCIL 方法的性能,以满足实际需求。
综上所述,少样本类增量学习是一个充满挑战和机遇的研究领域。通过不断探索和创新,我们可以设计出更高效、更鲁棒的 FSCIL 方法,以应对实际应用中的各种挑战。
附录 A:缩略语
- FSCIL:少样本类增量学习 (Few-shot Class-Incremental Learning)
- FSL:少样本学习 (Few-shot Learning)
- IL:增量学习 (Incremental Learning)
- KD:知识蒸馏 (Knowledge Distillation)
- CIL:类增量学习 (Class-Incremental Learning)
- TIL:任务增量学习 (Task-Incremental Learning)
- DIL:领域增量学习 (Domain-Incremental Learning)
- AP:平均精度 (Average Precision)
- AR:平均召回率 (Average Recall)
- PD:性能下降率 (Performance Decline)
- AA:平均准确率 (Average Accuracy)
- MAML:模型-无关的元学习 (Model-Agnostic Meta-Learning)
附录 B:数据集描述
- miniImageNet:miniImageNet 是一个包含来自不同领域(如动物、植物、日常用品和车辆)的对象类的多样化和具有挑战性的数据集,常用于评估 FSL 和 FSCIL 算法。
- CIFAR-100:CIFAR-100 是一个涵盖了包括植物、人类和车辆在内的广泛图像数据的数据集,广泛用于评估增量学习和 FSCIL 算法。
- CUB-200:CUB-200 是一个细粒度分类的基准数据集,包含 200 个鸟类物种的图像,常用于评估 FSCIL 算法。
以上是对整个文档的总结和未来研究方向的翻译。如果有具体章节或段落需要优先处理,请告知。我可以继续深入翻译或提供更多详细信息。