DER

DER: Dynamically Expandable Representation for Class Incremental Learning](https://arxiv.org/abs/2103.16788) | CVPR 2021 | Code (opens new window)

0. 摘要

我们解决了类别增量学习的问题，这是实现自适应视觉智能的核心步骤。特别是，我们考虑了在有限内存下的增量学习任务设置，旨在实现更好的稳定性与可塑性之间的权衡。为此，我们提出了一种新颖的两阶段学习方法，利用动态可扩展的表示来更有效地建模增量概念。具体来说，在每个增量步骤中，我们冻结先前学习到的表示，并通过一个新的可学习特征提取器增加额外的特征维度。这使我们能够在保留已学知识的同时整合新的视觉概念。我们通过引入基于通道级掩码的剪枝策略，根据新概念的复杂性动态扩展表示。此外，我们引入了一个辅助损失，以鼓励模型学习新颖概念的多样化和区分性特征。我们在三个类别增量学习基准上进行了广泛的实验，我们的方法始终以较大优势超越其他方法。

1. 引言

人类可以轻松地从过去的经验中积累视觉知识，并逐步学习新的概念。受此启发，类别增量学习问题旨在设计能够以顺序方式学习新概念并最终在所有观察到的类别上表现良好的算法。这种能力对于许多现实世界的应用（如智能机器人、人脸识别和自动驾驶）是不可或缺的。然而，实现人类水平的增量学习对于现代视觉识别系统仍然具有挑战性。

在文献中，已有许多尝试解决增量学习问题的努力。其中，最有效的策略可能是保持一个内存缓冲区，存储部分观察到的数据以供未来复习。然而，由于数据内存的有限性，这种增量学习方法在一般的持续学习任务中仍然面临几个典型的挑战。特别是，它要求模型能够有效地整合新概念而不忘记现有知识，这被称为稳定性与可塑性之间的困境。具体来说，过度的可塑性通常会导致旧类别的大幅性能下降，称为灾难性遗忘。相反，过度的稳定性会阻碍新概念的适应。

现有的大多数工作试图通过逐步更新数据表示和类别决策边界来实现稳定性与可塑性之间的权衡。例如，正则化方法惩罚先前学习模型的重要权重的变化，而知识蒸馏则通过可用数据保留网络输出，基于结构的方法在为新类别分配更多参数时保持旧参数不变。然而，这些方法要么牺牲了模型的可塑性以换取稳定性，要么由于旧概念的特征退化而容易遗忘。如图1所示，在所有数据上训练的模型（Joint）与先前的最先进模型之间仍然存在较大的性能差距。

在本工作中，我们旨在解决上述弱点，并在类别增量学习中实现更好的稳定性与可塑性之间的权衡。为此，我们采用了两阶段学习策略，将特征表示的适应与深度网络的最终分类器头（简称分类器）解耦。在这个框架内，我们提出了一种新颖的数据表示，称为超级特征，能够增加其维度以适应新类别。我们的主要思想是冻结先前学习到的表示，并在每个增量步骤中通过一个新的可学习提取器增加额外的特征维度。这使得我们能够保留现有知识，并提供足够的灵活性来学习新概念。此外，我们的超级特征根据新概念的复杂性动态扩展，以保持紧凑的表示。

为了实现这一点，我们开发了一个模块化的深度分类网络，由超级特征提取器网络和线性分类器组成。我们的超级特征提取器网络由多个不同大小的特征提取器组成，每个增量步骤一个。具体来说，在新的步骤中，我们通过一个新的特征提取器扩展超级特征提取器网络，同时保持先前提取器的参数冻结。所有提取器生成的特征被连接在一起，并输入到分类器中进行类别预测。

我们在memory和新数据上训练新的特征提取器和分类器。为了鼓励新的提取器学习新类别的多样化和区分性特征，我们设计了一个辅助损失来区分新旧类别。此外，为了去除模型冗余并学习新类别的紧凑特征，我们应用了基于通道级掩码的可微分剪枝方法，根据新概念的难度动态剪枝网络。最后，在更新表示后，我们冻结超级特征提取器，并在平衡的训练子集上微调分类器，以解决类别不平衡问题。

我们在三个常用的基准（包括CIFAR-100、ImageNet-100和ImageNet-1000数据集）上验证了我们的方法。实验结果和消融研究表明，我们的方法优于先前的最先进方法。有趣的是，我们还发现我们的方法可以在步骤之间实现正向和反向迁移。我们的主要贡献有三点：

为了实现更好的稳定性与可塑性之间的权衡，我们开发了动态可扩展的表示和两阶段策略用于类别增量学习。
我们提出了一个辅助损失，以促进新添加的特征模块有效学习新类别，并提出了模型剪枝步骤以学习紧凑特征。
我们的方法在所有三个基准上实现了新的最先进性能，模型复杂度范围广泛，如图1所示。

2. 相关工作

类别增量学习旨在连续学习新类别。一些工作尝试在没有访问先前数据的情况下解决问题。然而，主流的方法是基于有限数据内存的复习策略，可以从表示学习和分类器学习两个主要方面进行分析。

表示学习：当前的工作主要分为以下三类。基于正则化的方法采用最大后验估计，期望重要参数发生小的变化，并顺序更新模型参数的后验。然而，其复杂的计算通常需要基于强模型假设的近似。例如，EWC使用拉普拉斯近似，假设权重落在上一步最优权重的局部区域内。这严重限制了模型适应新概念的能力。基于蒸馏的方法使用知识蒸馏来保留表示。iCaRL和EE2L在网络的输出上计算蒸馏损失。UCIR使用归一化的特征向量来应用蒸馏损失，而不是网络的预测。PODNet使用基于空间的蒸馏损失来限制模型的变化。TPCIL使模型保留CNN特征空间的拓扑结构。知识蒸馏的性能取决于保存数据的质量和数量。基于结构的方法保持与先前类别相关的学习参数不变，并以不同形式（如未使用的参数、额外的网络）分配新参数以学习新知识。CPG提出了一种压缩和选择/扩展机制，通过选择性权重共享交替剪枝深度模型并扩展架构。然而，大多数基于结构的方法是为任务持续学习设计的，需要在推理时知道任务身份。对于类别增量学习，RPSNet提出了一种随机路径选择算法，逐步选择最优路径作为新类别的子网络。CCGN为每个卷积层配备了任务特定的门控模块，以选择应用于给定输入的过滤器，并使用任务预测器在推理时选择门控模块。

分类器学习：由于内存有限，类别不平衡问题是分类器学习的主要挑战。一些工作（如LWF.MC、RWalk）在一阶段训练中联合训练提取器和分类器。相比之下，最近有许多工作通过在表示学习后引入独立的分类器学习阶段来解决类别不平衡问题。EEIL在平衡的训练子集上微调分类器。BiC添加了一个偏差校正层来校正模型的输出，该层在单独的验证集上训练。WA通过对齐新旧类别的权重向量的范数来校正偏差权重。

讨论：我们的工作是基于结构的方法，与我们的工作最相似的是RPSNet和CCGN。RPSNet无法保留每个旧概念的内在结构，并且通过在每个ConvNet阶段将先前学习的特征与新学习的特征相加，逐渐忘记已学概念。在CCGN中，由于只有部分层的参数被冻结，学习到的表示可能会逐渐退化。相比之下，我们保持先前学习到的表示不变，并通过新的特征提取器参数化的新特征来增强它。这使得我们能够在先前学习到的表示的子空间中保留旧概念的内在结构，并通过最终分类器重用该结构以减轻遗忘。

3. 方法

在本节中，我们提出了解决类别增量学习问题的方法，旨在实现更好的稳定性与可塑性之间的权衡。为此，我们提出了动态可扩展的表示（DER），逐步用新特征增强先前学习到的表示，并提出了一种两阶段学习策略。

下面我们首先在第3.1节中介绍类别增量学习的问题设置和我们方法的概述。然后我们在第3.2节中介绍可扩展表示学习及其损失函数。接着，我们在第3.3节中描述表示的动态扩展，并在第3.4节中介绍分类器学习的第二阶段。

3.1. 问题设置与方法概述

首先，我们介绍类别增量学习的问题设置。与任务增量学习不同，类别增量学习在推理时不需要任务ID。具体来说，在类别增量学习中，模型观察到一系列类别组 ${Y_{t}}$ 其对应的训练数据 ${D_{t}}$ 。特别地，第 $t$ 的输入数据集 $D_{t}$ 形式为 $(x_{t}^{i}, y_{t}^{i})$ ，其中 $x_{t}^{i}$ 输入图像， $y_{t}^{i} \in Y_{t}$ 标签集 $Y_{t}$ 的标签。模型的标签空间是所有已见类别的并集 ${\tilde{Y}}_{t} = \cup_{i = 1}^{t} Y_{i}$ ，模型期望在所有类别 ${\tilde{Y}}_{t}$ 表现良好。

我们的方法采用复习策略，将部分数据保存为内存 $M_{t}$ 供未来训练。对于第 $t$ 的学习，我们将学习过程解耦为以下两个顺序阶段：

表示学习阶段：为了在稳定性与可塑性之间实现更好的权衡，我们固定先前的特征表示，并通过一个新的特征提取器在输入数据和内存数据上进行训练来扩展它。我们设计了一个辅助损失来促进新提取器学习多样化和区分性特征。为了提高模型效率，我们通过引入基于通道级掩码的剪枝方法，根据新类别的复杂性动态扩展表示。我们提出的表示的概述如图2所示。
分类器学习阶段：在表示学习之后，我们使用当前可用的数据 ${\tilde{D}}_{t} = D_{t} \cup M_{t}$ 第 $t$ 重新训练分类器，以通过采用平衡微调方法解决类别不平衡问题。

3.2 可扩展表示学习

我们首先介绍可扩展表示。在第 $t$ 步，我们的模型由超级特征提取器 $Φ_{t}$ 和分类器 $H_{t}$ 组成。超级特征提取器 $Φ_{t}$ 通过扩展特征提取器 $Φ_{t - 1}$ 并添加一个新创建的特征提取器 $F_{t}$ 来构建。具体来说，给定一个图像 $x \in {\tilde{D}}_{t}$ ，通过 $Φ_{t}$ 提取的特征 $u$ 通过以下方式连接得到：

u = Φ_{t} (x) = [Φ_{t - 1} (x), F_{t} (x)]

这里我们重新使用之前的 $F_{1}, \dots, F_{t - 1}$ ，并鼓励新的提取器 $F_{t}$ 仅学习新类的新特征。特征 $u$ 随后被输入分类器 $H_{t}$ 进行预测，如下所示：

p_{H_{t}} (y | x) = Softmax (H_{t} (u))

然后预测结果 $\hat{y} = \arg max p_{H_{t}} (y | x)$ ，其中 $\hat{y} \in {\tilde{Y}}_{t}$ 。分类器设计为匹配其新的输入和输出维度以适应第 $t$ 步。 $H_{t}$ 中旧特征的参数从 $H_{t - 1}$ 继承以保留旧知识，而新添加的参数则随机初始化。

为了减少灾难性遗忘，我们在第 $t$ 步冻结之前学习到的函数 $Φ_{t - 1}$ ，因为它捕获了先前数据的内在结构。具体来说，上一步超级特征提取器 $θ_{Φ_{t - 1}}$ 的参数和批量归一化 [14] 的统计量不会被更新。此外，我们使用 $F_{t - 1}$ 作为初始化来实例化 $F_{t}$ ，以便重用先前的知识以实现快速适应和前向迁移。

我们可以从估计先验分布 $p (θ_{Φ_{t}} | D_{1 : t - 1})$ 的角度来理解这个问题，其中 $D_{1 : t - 1}$ 是先前的数据。与之前的正则化方法（如 EWC）不同，我们并不假设第 $t$ 步的先验分布是单峰的，因为这种假设限制了模型的灵活性，并且在实践中通常不成立。对于我们的方法，模型通过为输入数据创建一个单独的特征提取器 $F_{t}$ 来扩展新的参数，并将均匀分布作为先验分布 $p (θ_{F_{t}} | D_{1 : t - 1})$ ，这为模型适应新概念提供了足够的灵活性。同时，为了简化，我们将旧参数 $θ_{Φ_{t - 1}}$ 的先验分布 $p (θ_{Φ_{t - 1}} | D_{1 : t - 1})$ 近似为狄拉克分布，以保留在 $D_{1 : t - 1}$ 上学到的信息。通过对 $p (θ_{Φ_{t - 1}} | D_{1 : t - 1})$ 和 $p (θ_{F_{t}} | D_{1 : t - 1})$ 的两个先验分布假设进行整合，我们在实现更好的稳定性 - 可塑性权衡方面具有更大的灵活性。

训练损失

我们使用交叉熵损失在记忆和新数据上学习模型，如下所示：

L_{H_{t}} = - \frac{1}{| {\tilde{D}}_{t} |} \sum_{i = 1}^{| {\tilde{D}}_{t} |} \log (p_{H_{t}} (y = y_{i} | x_{i}))

其中 $x_{i}$ 是图像， $y_{i}$ 是对应的标签。

为了强制网络学习新概念的多样化和判别性特征，我们进一步开发了一个辅助损失，作用于新特征 $F_{t} (x)$ 。具体来说，我们引入了一个辅助分类器 $H_{t}^{a}$ ，它预测概率 $p_{H_{t}^{a}} (y | x) = Softmax (H_{t}^{a} (F_{t} (x)))$ 。为了鼓励网络学习能够区分新旧概念的特征， $H_{t}^{a}$ 的标签空间为 $| Y_{t} | + 1$ ，包括新类别集 $Y_{t}$ 和将所有旧概念视为一个类别的其他类。因此，我们引入辅助损失，并得到可扩展表示损失如下：

L_{ER} = L_{H_{t}} + λ_{a} L_{H_{t}^{a}}

其中 $λ_{a}$ 是控制辅助分类器效果的超参数。值得注意的是，对于第一步 $t = 1$ ， $λ_{a} = 0$ 。

3.3. 动态扩展

为了去除模型冗余并保持紧凑的表示，我们根据新类别的复杂性动态扩展超级特征。具体来说，我们采用基于通道级掩码的可微分剪枝方法，将提取器 $F_{t}$ 过滤器剪枝，掩码与表示联合学习。在掩码学习之后，我们将掩码二值化并剪枝特征提取器 $F_{t}$ 获得剪枝后的网络 $F_{t}^{P}$ 。

通道级掩码：我们的剪枝方法基于可微分的通道级掩码，改编自HAT。对于新特征提取器 $F_{t}$ ，卷积层 $l$ 输入特征图对于给定图像 $x$ 示为 $f_{l}$ 。我们引入通道掩码 $m_{l} \in R^{c_{l}}$ 控制层 $l$ 大小，其中 $m_{i}^{l} \in [0, 1]$ ， $c_{l}$ 层 $l$ 通道数。 $f_{l}$ 过掩码调制如下：

\begin{matrix} (5) & f_{l}^{'} = f_{l} ⊙ m_{l} \end{matrix}

其中 $f_{l}^{'}$ 掩码后的特征图， $⊙$ 示通道级乘法。为了使 $m_{l}$ 值落在区间 $[0, 1]$ ，采用以下门控函数：

\begin{matrix} (6) & m_{l} = σ (s e_{l}) \end{matrix}

其中 $e_{l}$ 示可学习的掩码参数，门控函数 $σ (\cdot)$ 本工作中使用sigmoid函数， $s$ 控制函数锐度的缩放因子。通过这种掩码机制，第 $t$ 的超级特征 $\tilde{u}$ 以重写为：

\begin{matrix} (7) & \tilde{u} = Φ_{t}^{P} (x) = [F_{1}^{P} (x), F_{2}^{P} (x), \dots, ϕ_{t} (x)] \end{matrix}

在训练期间， $ϕ_{t} (x)$ 带有软掩码的 $F_{t} (x)$ 。在推理时，我们赋予 $s$ 个较大的值以二值化掩码并获得剪枝后的网络 $F_{t}^{P}$ ，且 $ϕ_{t} (x) = F_{t}^{P} (x)$ 。

掩码学习：在每个epoch中， $s$ 过以下线性退火调度进行更新：

\begin{matrix} (8) & s = \frac{1}{s_{max}} + (s_{max} - \frac{1}{s_{max}}) \frac{b - 1}{B - 1} \end{matrix}

其中 $b$ 批次索引， $s_{max} \geq 1$ 控制调度的超参数， $B$ 一个epoch中的批次数量。训练epoch开始时，所有通道以均匀的方式激活。然后，随着批次索引的增加，掩码逐渐二值化。

sigmoid函数的一个问题是梯度由于 $s$ 度而不稳定。我们通过以下方式补偿 $e_{l}$ 梯度 $g_{e_{l}}$ ，以消除 $s$ 影响：

\begin{matrix} (9) & g_{e_{l}}^{'} = \frac{σ (e_{l}) [1 - σ (e_{l})]}{s σ (s e_{l}) [1 - σ (s e_{l})]} g_{e_{l}} \end{matrix}

其中 $g_{e_{l}}^{'}$ 补偿后的梯度。

稀疏损失：在每个步骤中，我们鼓励模型在最小性能下降的情况下最大限度地减少参数数量。出于此动机，我们添加了一个基于所有可用权重中使用权重的比率的稀疏损失：

\begin{matrix} (10) & L_{S} = \frac{\sum_{l = 1}^{L} K_{l} ∥ m_{l - 1} ∥_{1} ∥ m_{l} ∥_{1}}{\sum_{l = 1}^{L} K_{l} c_{l - 1} c_{l}} \end{matrix}

其中 $L$ 层数， $K_{l}$ 卷积层 $l$ 核大小，层 $l = 0$ 示输入图像，且 $∥ m_{0} ∥_{1} = 3$ 。

在添加稀疏损失后，最终的损失函数为：

\begin{matrix} (11) & L_{DER} = L_{H_{t}} + λ_{a} L_{H_{a}^{t}} + λ_{s} L_{S} \end{matrix}

其中 $λ_{s}$ 控制模型大小的超参数。

3.4. 分类器学习

在表示学习阶段，我们重新训练分类器头，以减少由不平衡训练引入的分类器权重偏差。具体来说，我们首先用随机权重重新初始化分类器，然后从当前可用数据 ${\tilde{D}}_{t}$ 采样一个类别平衡的子集。我们仅使用带有温度 $δ$ 交叉熵损失来训练分类器头，温度 $δ$ 制Softmax函数的平滑性，以提高类别之间的间隔。

4. 实验

在本节中，我们进行了广泛的实验以验证我们算法的有效性。特别是在CIFAR-100、ImageNet-100和ImageNet-1000数据集上使用两种广泛使用的基准协议评估了我们的方法。我们还进行了一系列消融研究，以评估每个组件的重要性，并进一步深入了解我们的方法。下面我们首先在第4.1节中介绍实验设置和实现细节，然后在第4.2节中介绍CIFAR100数据集的实验结果。接着，我们在第4.3节中展示ImageNet-100和ImageNet-1000数据集的评估结果。最后，我们在第4.4节中介绍我们方法的消融研究和分析。

4.1. 实验设置与实现细节

数据集：CIFAR-100由32x32像素的彩色图像组成，包含100个类别。它有50,000张训练图像，每个类别500张，以及10,000张评估图像，每个类别100张。ImageNet-1000是一个包含1,000个类别的大规模数据集，包含约120万张RGB训练图像和50,000张验证图像。ImageNet-100是从ImageNet-1000数据集中选择100个类别构建的。

基准协议：对于CIFAR-100基准，我们在两个流行的协议上测试我们的方法，包括：

CIFAR100-B0：我们遵循[27]中提出的协议，将100个类别分为5、10、20、50个增量步骤，每个批次的固定内存大小为2,000个样本；
CIFAR100-B50：我们遵循[12]中引入的协议，从训练50个类别的模型开始，剩余的50个类别分为2、5、10个步骤，每个类别的内存为20个样本。我们比较了每个步骤的平均增量精度，即每个步骤精度的平均值。

我们还在ImageNet-100上评估了我们的方法，使用了两个协议：

ImageNet100-B0：协议[27]从零开始以10个类别为批次训练模型，每个批次的固定内存大小为2,000；
ImageNet100-B50：协议[12]从训练50个类别的模型开始，剩余的50个类别以10个步骤引入，每个类别的内存为20个样本。为了公平起见，我们使用与协议[27, 12]相同的ImageNet子集和类别顺序。对于ImageNet-1000，我们评估了我们的方法在协议[27]上，称为ImageNet1000-B0基准，该协议以100个类别为批次训练模型，总共10个步骤，固定内存大小为20,000。具体来说，我们使用与[27]相同的类别顺序进行ImageNet-1000。此外，我们比较了ImageNet-100和ImageNet-1000数据集上的top-1和top-5平均增量精度以及最后一步的精度。

实现细节：我们的方法使用PyTorch实现。对于CIFAR-100，我们采用ResNet-18作为特征提取器 $F_{t}$ ，遵循RPSNet[26]。我们注意到，大多数先前的工作使用修改后的32层ResNet[27]，与标准ResNet-32相比，其通道和残差块更少。我们认为这样的小网络不适合，因为它在CIFAR100上无法与标准18层ResNet[10]相比取得有竞争力的结果，可能会低估方法的性能。我们基于相同的类别顺序运行这些方法的标准ResNet-18，基于它们的代码实现。对于那些没有发布代码的，我们基于我们的实现报告结果。对于RPSNet，我们直接使用其论文中的结果。对于ImageNet-100和ImageNet-1000基准，我们使用18层ResNet作为基本网络。在这些实验中，我们基于herding选择策略[32]选择样本作为内存，遵循先前的工作[27]。此外，我们在三个不同的类别顺序上运行实验，并在结果中报告平均值±标准差。我们还在附录中提供了基于修改后的32层ResNet[27]的CIFAR-100实验结果，这再次证明了我们方法的优越性。我们遵循[6, 30]中的协议，并在从原始训练数据中保留一部分创建的验证集上调整超参数。超参数的详细信息添加到附录中。

4.2. CIFAR100上的评估

定量结果：表1总结了CIFAR100-B0基准的结果。我们可以看到，我们的方法在不同增量分割中始终以显著优势优于其他方法。随着分割中步骤数量的增加，我们的方法与其他方法之间的差距持续增加，这表明我们的方法在步骤较长的困难分割上表现更好。特别是在50个步骤的增量设置下，我们将平均增量精度从64.32%提高到72.05%（+7.73%），且参数数量更少。值得注意的是，尽管大幅减少了模型参数，但我们的方法由于剪枝导致的性能下降可以忽略不计，这表明我们的剪枝方法的成功。如图3的左面板所示，可以看到我们的方法在每个步骤中始终优于其他方法。此外，随着新类别的不断添加，我们的方法与其他方法之间的差距也在增加。具体来说，在50个步骤的增量分割下，最后一步的精度从42.75%提高到58.66%（+15.91%），这进一步证明了我们方法的有效性。

我们还在CIFAR100-B50基准上比较了我们方法与先前方法的性能，如表2所示，结果显示我们的方法在所有分割中均以显著增益提高了性能。特别是在10个步骤的增量设置下，我们的方法比PODNet高出8.41%的平均增量精度。如图3的右面板所示，我们的方法在每个步骤中均优于其他方法。特别是，在10个步骤的分割中，我们的方法将最后一步的精度从52.56%提高到65.58%（+13.02%）。此外，与未剪枝的方法相比，我们的方法以更少的参数实现了类似的性能。

值得注意的是，先前的方法通常只在其中一个协议上表现良好，其中WA在CIFAR100-B0上是最先进的，而PODNet在CIFAR100-B50上是最先进的。相比之下，我们的方法在两个协议上始终优于其他方法。

模型大小的影响：我们进行了广泛的实验，研究模型大小对性能的影响。如图1所示，我们可以看到我们的方法在各种模型大小下始终显著优于其他方法。我们还注意到，随着模型大小的增加，我们的方法相比于大多数其他方法的改进变得更加显著，这表明我们的方法能够充分利用大模型的潜力。

4.3. ImageNet上的评估

表3总结了ImageNet-100和ImageNet-1000数据集的实验结果。我们可以看到，我们的方法在ImageNet-100和ImageNet-1000数据集的所有分割中均以显著优势优于其他方法，特别是最后一步的精度。具体来说，我们的方法在ImageNet100-B0基准上的平均top-5精度比最先进方法高出约1.79%。对于ImageNet100-B50基准，最后一步的top-1精度从66.91%提高到72.06%（+5.15%）。此外，我们的方法在ImageNet1000-B0基准上将最后一步的top-1精度从55.6%提高到58.62%（+3.02%）。尽管top-5精度的差距较小，但我们认为这是因为top-5精度对稍微不准确的预测更具容忍性，因此对遗忘不太敏感。

4.4. 消融研究与分析

我们进行了详尽的消融研究，以评估我们方法中每个组件的贡献。我们还在附录中对超参数进行了敏感性研究。此外，我们研究了每种方法的表示的反向迁移和正向迁移。

每个组件的影响：表4总结了我们在CIFAR100-B0上进行的10个步骤的消融实验结果。我们可以看到，通过表示扩展，平均精度从61.84%显著提高到73.26%。我们还表明，使用辅助损失后，模型的性能进一步提高了2.10%。

表示的反向迁移：为了评估表示的质量，我们引入了一个通过使用所有观察到的数据微调分类器获得的理想决策边界，这使我们能够排除分类器的影响。然后，我们定义第 $t$ 在类别集 $Y_{k}$ 的分类精度 $A_{t}^{Y_{k}}$ ，其中模型的预测空间限制为 $Y_{k}$ 。通过观察 $A_{t}^{Y_{k}}$ $t$ 变化曲线，我们可以看到表示质量如何随增量变化。图4显示了CIFAR100-B0上10个增量步骤的结果。我们还计算了不同方法的反向迁移值如下：

\begin{matrix} (12) & BWT = \frac{1}{T - 1} \sum_{i = 2}^{T} \frac{1}{i} \sum_{j = 1}^{i} (A_{i}^{Y_{j}} - A_{j}^{Y_{j}}) \end{matrix}

结果如表5所示。我们可以看到，其他方法遭受了严重的遗忘。相比之下，我们的方法甚至实现了正向反向迁移+1.36%，并且精度随步骤增加而提高，这进一步证明了我们方法的优越性。

表示的正向迁移：我们还测量了现有知识对后续概念性能的影响，称为正向迁移。具体来说，我们定义了表示的正向迁移率如下：

\begin{matrix} (13) & FWT = \frac{1}{T - 1} \sum_{i = 2}^{T} (A_{i}^{Y_{i}} - {\bar{A}}_{i}^{Y_{i}}) \end{matrix}

其中 ${\bar{A}}_{i}^{Y_{i}}$ 通过使用仅交叉熵损失在随机初始化时训练的模型在可用数据 ${\tilde{D}}_{t}$ 获得的测试精度。如表5所示，大多数方法具有负向迁移，这表明它们牺牲了适应新概念的灵活性。相比之下，我们的方法实现了+1.49%的正向迁移，这表明我们的方法不仅使模型具有高度灵活性，还带来了正向迁移。

5. 结论

在本工作中，我们提出了动态可扩展的表示，以改进类别增量学习的表示。在每个步骤中，我们冻结先前学习到的表示，并通过新的参数化特征增强它。我们还引入了基于通道级掩码的剪枝方法，根据新概念的难度动态扩展表示，并引入了一个辅助损失以更好地学习新颖的区分性特征。我们在三个主要的增量分类基准上进行了详尽的实验。实验结果表明，我们的方法始终以显著优势优于其他方法。有趣的是，我们还发现我们的方法甚至可以实现正向和反向迁移。

上次更新: 2025/06/25, 11:25:50

← PackNet FOSTER→