DGM

0. 摘要

在类增量学习（Class-Incremental Learning, Class-IL）中，模型在测试时必须对所有先前见过的类别进行分类，而无需任务ID，这导致了任务混淆（Task Confusion, TC）。尽管这是一个关键的挑战，但任务混淆缺乏理论上的理解。我们提出了一个新颖的数学框架来分析Class-IL，并证明了不可行定理（Infeasibility Theorem），表明由于任务混淆，使用判别模型（Discriminative Modeling）无法实现最优的Class-IL。然而，我们通过可行性定理（Feasibility Theorem）证明，生成模型（Generative Modeling）可以通过克服任务混淆来实现最优的Class-IL。接着，我们使用该框架评估了流行的Class-IL策略，包括正则化、偏差校正、回放和生成分类器。我们的分析表明，采用生成模型——无论是用于生成回放还是直接分类（生成分类器）——对于实现最优的Class-IL至关重要。源代码可在以下链接获取：https://github.com/miladkhademinori/class-incremental-learning (opens new window)。

1. 引言

增量学习（Incremental Learning, IL）在学术界和工业界引起了广泛关注[1,2]，因为它能够：(i) 通过避免从头开始重新训练模型来实现更资源高效的学习，(ii) 通过消除存储原始数据的需求来减少内存使用，这对于遵守隐私法规至关重要，(iii) 开发一种模仿人类学习的学习系统[3]。文献中存在两类增量学习设置[4]：(i) 基于任务的增量学习[5–7]和(ii) 无任务的增量学习[8–11]。

基于任务的增量学习本身包含三种场景[5]：(a) 任务增量学习（Task-Incremental Learning, Task-IL），(b) 域增量学习（Domain-Incremental Learning, Domain-IL），和(c) 类增量学习（Class-Incremental Learning, Class-IL）。这三种场景在测试时的区别在于：Task-IL场景提供了任务ID，Domain-IL场景不需要任务ID，而Class-IL场景必须推断任务ID。第二类，即无任务的增量学习，旨在完全消除任务（边界）的概念，无论是在训练时还是测试时。

本文重点关注基于任务的Class-IL，这是目前最流行的模式[12–15]。然而，我们的理论结果和提出的方案也适用于无任务的设置[8,9]。向无任务学习的迈进非常重要，因为像大脑一样，增量学习应减少对监督的依赖，消除对任务ID的需求。

对于包括Class-IL在内的增量学习，主要的挑战一直被认为是灾难性遗忘（Catastrophic Forgetting, CF），它广泛指的是在学习新任务后，先前学习任务的性能下降[1]。然而，对于Class-IL，我们不鼓励使用这种语言，因为最近发现，在Class-IL中，并非所有的性能下降都是由“遗忘”引起的，实际上大部分性能下降是由任务混淆（Task Confusion, TC）造成的[16]。TC源于Class-IL中，位于不同任务中的类别从未一起出现过；然而，在测试时必须在不提供任务ID的情况下对它们进行区分（意味着必须推断任务ID）。

将所有性能下降归因于Class-IL中的CF是误导性的。使用“遗忘”一词意味着先前学习的内容被遗忘了。然而，在Class-IL中，模型从未学习如何区分任务，因为它从未见过这些任务一起出现。在测试时，它必须推断任务ID以进行这些区分。因此，说“它忘记了如何区分这些任务”是没有意义的。在Class-IL中，我们区分由TC和CF引起的性能下降。

尽管TC最近被发现为Class-IL中的主要障碍[16,3]，但它尚未在数学/理论上得到充分理解，几乎所有Class-IL工作都将CF（曾经是Task-IL场景中的唯一问题）归因于Class-IL场景中观察到的性能下降。这就是问题所在。为此，我们在图1中展示了TC是如何出现的：当Class-IL模型分别学习任务1和任务2时（如图1(a)和1(b)所示），它可以执行任务内区分（如图1(c)所示）；然而，它仍然无法执行任务间区分，其缺失在图1(c)中用虚线表示。这种无能不是因为Class-IL模型在学习任务2后忘记了任务1的知识；事实上，它一开始就没有学会进行任务间区分。换句话说，任务间区分的失败与CF无关；它是关于TC的，而TC源于Class-IL模型从未见过不同任务的类别，因此无法进行区分。

有两项研究与我们的工作相邻：(i) Kim的[17]和(ii) Soutif-Cormerais的[16]。尽管Kim的工作与我们的工作范围相似，但存在关键差异：

Kim的论文既没有定义也没有讨论TC。整篇论文中没有提到TC这个术语，更不用说证明其发生了。
Kim的工作没有证明在生成模型中TC不会发生，而在判别模型中TC会发生。在Kim的工作中，没有提到判别模型或生成模型。
Kim的数学框架与我们的数学框架非常不同，因为他们的数学框架没有理解TC与判别/生成模型之间的关系（详细相关工作见附录）。

此外，Soutif-Cormerais的工作与我们的工作之间存在显著对比：

Soutif-Cormerais的工作基于黑盒实验提供了经验结果，支持跨任务特征对于缓解TC的重要性。提供的证据显然没有证明任何陈述；它只是暗示性的。而我们的工作采用白盒方法，通过将N路判别分类器的损失分解为 $(\binom{N}{2})$ 个损失（见引理1），并证明如果不考虑非对角损失，确实无法获得最佳性能。我们研究TC的作用的方法基于严格的数学分析。
Soutif-Cormerais的工作对TC在判别/生成模型中的存在保持沉默。而我们的工作通过严格的数学分析证明，虽然TC确实发生在判别模型中，但在生成模型中不会发生[16]。

我们认为，TC和CF的本质以及它们的区别尚未从理论角度得到充分研究。这激发了当前的研究。在本文中，我们提出了三个贡献：

我们引入了一个新的数学框架，区分了Class-IL和无任务设置中的TC和CF，阐明了它们的不同作用。与现有定义通常基于整体性能混淆TC和CF不同，我们的框架提供了明确的区分。
利用该框架，我们提出了不可行定理，证明了在即使预防了CF的情况下，使用判别模型也无法实现最优的Class-IL，原因在于TC。相反，我们提出了可行性定理，表明如果预防了CF，生成模型可以实现最优的Class-IL。
我们进一步为各种Class-IL策略提供了推论，如正则化、偏差校正、回放方法和生成分类器方案，使我们能够讨论它们的最优性。

在下一节中，对于判别模型，引理1和引理2构成了定理1及其后续推论1至5的基础。对于生成模型，引理3支撑了定理2和推论6。此外，假设1是从引理1中概述的原理推导出来的。

2. Class-IL的数学框架

在任何增量学习（包括Class-IL）中，目标是接近（理想情况下达到）非增量学习的最终性能，而不会遗忘过去的任务或任务之间的混淆，这是在所有任务的数据同时可用于训练时获得的。这是一个性能上限，稍后将在表2中表示为联合方案。为了实现Class-IL中的目标，我们提出了我们的数学框架，并制定了解决TC和CF的训练问题。TC和CF问题的表述本身就是有意义的贡献。

在本节中，在TC和CF的表述之后，我们提出了我们的第一个定理（即不可行定理），在该定理中，我们证明了通过实施条件概率 $P (Y | X)$ （相当于判别模型，这是Class-IL文献中的常见做法）实现最优Class-IL基本上是不可行的，即使在预防了CF之后也是如此。然后，在另一个定理（即可行性定理）中，我们证明了通过实施联合概率 $P (X, Y)$ （即生成模型）实现最优Class-IL是可行的。

2.1 判别模型

首先，我们分析判别模型：为此，我们证明了一个引理，说明通过判别模型实施条件概率的N路分类器（具有N个类别）相当于实施 $(\binom{N}{2})$ 个二元分类器。该引理对于表述和理解TC和CF问题至关重要。

为此，我们首先定义分类器的损失函数：设 $I_{θ}$ 表示分类误差，如下所示：

\begin{matrix} (1) & I_{θ} = \int_{X \times Y} v (f_{θ} (x), y) p (x, y) d x d y \end{matrix}

其中 $v (f_{θ} (x), y)$ 是给定的损失函数， $x, y \in X, Y$ 是输入数据和标签， $f_{θ} (\cdot)$ 表示由 $θ$ 参数化的模型， $p (x, y)$ 是 $(x, y)$ 的联合概率密度函数。现在，我们提出我们的引理如下。

引理1（条件概率等价引理）： 由 $θ$ 参数化的N路判别分类器，实施条件概率 $P (Y | X)$ ，其损失函数定义为公式(1)，等价于实施 $(\binom{N}{2})$ 个虚拟二元分类器，如下所示：

\begin{matrix} (2) & I_{θ} = \frac{1}{N - 1} \sum_{k = 1}^{N} \sum_{l = 1, l \neq k}^{N} \int_{X_{k l} \times Y_{k l}} v (f_{θ} (x), y) p (x, y) d x d y \end{matrix}

其中 $X_{k l} = X_{k} \cup X_{l}$ ， $Y_{k l} = Y_{k} \cup Y_{l}$ ， $X_{k}, X_{l} \subset X$ ， $Y_{k}, Y_{l} \subset Y$ ， $X_{k} \cap X_{l} = \emptyset$ ， $Y_{k} \cap Y_{l} = \emptyset$ ，且 $k \neq l$ 。

证明： 见附录A。

简单来说，该引理表明，例如，一个3路分类器（N=3）可以被视为由3个底层二元分类器（ $(\binom{N}{2}) = 3$ ）组成。想象一个3路分类器，它应该区分猫、狗和兔子；根据我们的引理，该分类器可以被视为具有3个底层二元分类器，分别用于区分猫-狗、猫-兔子和狗-兔子。

为了理解引理1的含义，我们简化了符号：我们将公式(2)中每个个体二元分类器的损失项定义如下：

\begin{matrix} (3) & ρ_{k l} (θ) = \frac{1}{N - 1} \int_{X_{k l} \times Y_{k l}} v (f_{θ} (x), y) p (x, y) d x d y \end{matrix}

其中 $ρ_{k l} (θ)$ 是虚拟二元分类器的损失，用于区分类别 $k$ 和 $l$ 。这使得我们可以将整体损失项简化为如下形式： $I_{θ} = \sum_{k = 1}^{N} \sum_{l = 1, k \neq l}^{N} ρ_{k l} (θ)$ 。

将 $I_{θ}$ 视为二元分类器损失项的二维数组（矩阵），如下所示：

\begin{matrix} (4) & P (θ) = [\begin{matrix} ⊘ & ρ_{12} (θ) & \dots & ρ_{1 N} (θ) \\ ρ_{21} (θ) & ⊘ & \dots & ρ_{2 N} (θ) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ρ_{N 1} (θ) & ρ_{N 2} (θ) & \dots & ⊘ \end{matrix}] \end{matrix}

其中 $⊘$ 表示“未定义”。对角损失未定义，因为由于判别模型的性质，给定类别与自身没有损失项。总结来说，我们在公式(4)中所做的是，不是简单地说我们有一个单一的损失函数需要最小化，例如对于我们的猫-狗-兔子分类器，而是说有三个二元分类器，每个分类器都有自己的损失项；然后我们将这些损失以矩阵的形式排列。

现在，我们考虑基于任务的（判别）Class-IL模型，它依次观察T个任务，每次一个任务，每个任务有C个类别（即 $N = T \times C$ ）。目标是实现通过同时呈现所有T个任务所达到的性能（通过公式(1)中的损失函数衡量）。我们可以在Class-IL的系统模型中重写损失矩阵，如下所示：

\begin{matrix} (5) & P (θ) = [\begin{matrix} P_{11} (θ) & P_{12} (θ) & \dots & P_{1 T} (θ) \\ P_{21} (θ) & P_{22} (θ) & \dots & P_{2 T} (θ) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ P_{T 1} (θ) & P_{T 2} (θ) & \dots & P_{T T} (θ) \end{matrix}], P_{i j} (θ) = [\begin{matrix} ρ_{i j}^{11} (θ) & ρ_{i j}^{12} (θ) & \dots & ρ_{i j}^{1 C} (θ) \\ ρ_{i j}^{21} (θ) & ρ_{i j}^{22} (θ) & \dots & ρ_{i j}^{2 C} (θ) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ρ_{i j}^{C 1} (θ) & ρ_{i j}^{C 2} (θ) & \dots & ρ_{i j}^{C C} (θ) \end{matrix}] \end{matrix}

其中 $P (θ)$ 被重写为任务级损失矩阵，其条目是任务内的 $P_{i i} (θ)$ 或任务间的 $P_{i j} (θ)$ （ $i \neq j$ ）损失矩阵； $ρ_{i j}^{m n} (θ)$ 是任务 $i$ 的第 $m$ 个类别与任务 $j$ 的第 $n$ 个类别之间的损失项。注意，当 $i = j$ 且 $m = n$ 时， $ρ_{i j}^{m n} (θ) = ⊘$ （更多细节见附录B）。我们将提供一个定义，定义1，指定这种判别Class-IL模型如何逐个任务进行学习。

公式(4)解释了，例如，如果我们有四个类别：猫、狗、兔子和鸭子，前两个在第一个任务中，后两个在第二个任务中，那么我们就有四个任务级矩阵。第一个矩阵，第一行和第一列，涉及区分猫和狗的二元分类器的损失项；第二和第三个损失矩阵（非对角矩阵）描述了区分猫-兔子、猫-鸭子、狗-兔子和狗-鸭子的二元分类器的损失项（任务间二元分类器）；最后，第二个行和列表示区分兔子和鸭子的二元分类器的损失。

定义1（判别Class-IL）： 判别Class-IL模型通过最小化公式(5)中损失矩阵 $P (θ)$ 的对角块来“顺序”训练。即，判别Class-IL模型首先通过最小化 $| P_{11} (θ) |$ 来优化 $θ$ ，然后通过最小化 $| P_{22} (θ) |$ 重新优化 $θ$ ，依此类推，其中 $| \cdot |$ 运算符对给定矩阵的所有（定义）分量求和。

定义1暗示了关键问题；“对角”是关键词。Class-IL模型只最小化对角块，而忽略非对角块；这就是TC问题的根源：这个臭名昭著的问题被误解了。本文澄清了这种误解。

通过定义1，我们现在也可以定义CF。正确定义CF非常重要，因为在文献中，CF被过于广泛地定义为基于整体性能的，这导致CF与另一个关键现象TC（稍后在定义5中定义）混淆。

定义2（灾难性遗忘）： 考虑一个Class-IL模型，它最小化任务 $i$ 的损失 $| P_{i i} (θ) |$ ，达到最小损失 $| P_{i i} ({\tilde{θ}}_{i}) |$ ，其中

\begin{matrix} (6) & {\tilde{θ}}_{i} = \arg min_{θ} | P_{i i} (θ) | . \end{matrix}

然后，模型继续并最小化任务 $(i + 1)$ 的损失 $| P_{(i + 1) (i + 1)} (θ) |$ ，达到最小损失 $| P_{(i + 1) (i + 1)} ({\tilde{θ}}_{(i + 1)}) |$ ，其中 ${\tilde{θ}}_{(i + 1)}$ 由公式(6)给出， $i$ 被替换为 $i + 1$ 。如果

\begin{matrix} (7) & | P_{i i} ({\tilde{θ}}_{i}) | < | P_{i i} ({\tilde{θ}}_{(i + 1)}) |, \end{matrix}

我们称模型发生了灾难性遗忘。

定义2表明，在学习第二个任务后，新的权重可能不如我们通过仅最小化第一个任务获得的权重那样有效地最小化第一个任务的损失。简而言之，模型的猫-狗二元分类器在学习兔子-鸭子二元分类器后，不再像之前那样有效。

定义3（CF最优Class-IL）： 如果仅最小化了CF，Class-IL模型 $θ^{*}$ 被称为CF最优。具体来说， $θ^{*}$ 是模型，它最小化所有对角块 $P_{i i} (θ)$ 的损失之和，忽略任务间损失，如下所示：

\begin{matrix} (8) & θ_{1 : T}^{*} = \arg min_{θ} \sum_{i = 1}^{T} | P_{i i} (θ) | . \end{matrix}

CF最优意味着分类器可以区分猫-狗（任务一）；也可以区分鸭子-兔子（任务二）。然而，模型虽然能正确分类每个任务一和任务二中的类别（任务内分类），但在区分不同任务（任务间分类）时可能仍然失败。

在定义了CF之后，我们将基于不兼容性定义和引理（引理2）证明其发生（推论1）及其后续的次优性（推论2）。然而，在此之前，值得一提的是，在本文中，我们假设任务是不兼容的；这在下文中指定。（见附录C。）

定义4（不兼容性）： 如果以下条件成立，则非零函数 $f (x)$ 和 $g (x)$ 被称为不兼容，并表示为 $f (x) ∦ g (x)$ ：

在 $x = x_{f}$ 和 $x = x_{g}$ 处， $f (x)$ 和 $g (x)$ 的导数为零：
$\frac{d f (x)}{d x} |_{x = x_{f}} = \frac{d g (x)}{d x} |_{x = x_{g}} = 0.$
在 $x = x_{g}$ 和 $x = x_{f}$ 处， $f (x)$ 和 $g (x)$ 的导数不为零：
$\frac{d f (x)}{d x} |_{x = x_{g}} = \frac{d g (x)}{d x} |_{x = x_{f}} \neq 0.$
$x_{f} = \arg min_{x} f (x)$ ， $x_{g} = \arg min_{x} g (x)$ ，且 $x_{f} \neq x_{g}$ 。

其中 $f (x)$ 和 $g (x)$ 在 $x_{f}$ 和 $x_{g}$ 处可微。

有人可能会认为，假设任务的不兼容性是不利的，因为良好的Class-IL和无任务算法旨在最大化前向和后向转移，而在不兼容任务的情况下，这些转移将不存在。然而，本文的最终目的是研究判别和生成模型设置中的TC和CF。我们的假设旨在捕捉TC和CF，而不是前向和后向转移。虽然前向和后向转移在Class-IL和无任务学习中很重要，但它们不是我们工作的重点。

引理2（不兼容性引理）： 对于不兼容的函数 $f (x)$ 和 $g (x)$ ，即 $f (x) ∦ g (x)$ ，我们可以得出以下结论：

\begin{matrix} (10) & x^{*} \neq x_{f}, x_{g}, x^{*} = \arg min_{x} f (x) + g (x), x_{f} = \arg min_{x} f (x), x_{g} = \arg min_{x} g (x) . \end{matrix}

证明： 见附录D。

简单来说，两个不兼容的任务（函数）具有不同的最小化点。并且，它们的和的最小化点既不是 $f (x)$ 的最小化点，也不是 $g (x)$ 的最小化点。这是实践中不同任务的情况。

从许多经验结果[1,18]中我们知道，每当学习新任务时，先前任务的最优点都会丢失。CF总是发生，这表明不兼容性总是成立。通过不兼容性，我们可以在以下推论中证明CF的发生。

推论1（灾难性遗忘）： 对于定义1中的判别Class-IL模型，由于顺序对角优化，在优化任务 $(i + 1)$ 后，我们可以得出公式(7)，表明当 $| P_{i i} (θ) | ∦ | P_{(i + 1) (i + 1)} (θ) |$ 时，任务 $i$ 发生了CF。

证明： 见附录E。

在证明了CF的发生后，我们还可以得出以下结论，即在学习了第二个任务后，我们的Class-IL模型甚至不是CF最优的。

推论2（次优性推论）： 对于定义1中的判别Class-IL模型，由于顺序对角优化，在优化任务 $(i + 1)$ 后，如果

\sum_{i^{'} = 1}^{i} | P_{i^{'} i^{'}} (θ) | ∦ | P_{(i + 1) (i + 1)} (θ) |,

则Class-IL模型可能不是CF最优的。

证明： 见附录E。

基于我们的数学框架，我们现在定义TC (这是本文的一大贡献)，然后定义以最小化TC和CF (这就是本文开篇提出的IL类的最终目标)为目标的最优类IL。

定义5（任务混淆）： 考虑一个Class-IL模型，它最小化任务 $i$ 的损失 $| P_{i i} (θ) |$ ，达到最小损失 $| P_{i i} ({\tilde{θ}}_{i}) |$ ，其中 ${\tilde{θ}}_{i}$ 由公式(6)给出。然后，模型继续并最小化任务 $(i + 1)$ 的损失 $| P_{(i + 1) (i + 1)} (θ) |$ ，达到最小损失 $| P_{(i + 1) (i + 1)} ({\tilde{θ}}_{(i + 1)}) |$ 。此Class-IL模型从未有机会通过最小化任务间损失 $| P_{i (i + 1)} (θ) |$ 来优化 $θ$ 。因此，当Class-IL模型需要区分来自两个不同任务的类别时，它会感到困惑，因为那些对应于任务间二元分类器的损失矩阵没有被联合最小化。

在定义了TC之后，我们现在在下一个定义中指定最优Class-IL模型（其实现是Class-IL的最终目标）。

定义6（最优Class-IL）： 如果同时最小化了TC和CF，则Class-IL模型 $θ^{* *}$ 被称为最优。具体来说， $θ^{* *}$ 是模型，它最小化损失矩阵所有块的损失之和，包括所有任务间块，如下所示：

θ_{1 : T, 1 : T}^{* *} = \arg min_{θ} \sum_{i = 1}^{T} \sum_{j = 1}^{T} | P_{i j} (θ) | .

在以下定理中，我们将陈述我们的重要发现，即与Class-IL社区中的普遍信念不同，即使在预防了CF的情况下，实现最优Class-IL可能仍然是不可能的，特别是由于未能最小化损失矩阵（公式(5)）中的非对角块（任务间块）而导致的TC存在时，这是不可能的。

定理1（不可行定理）： 如果整个损失和对角损失不兼容，定义3中的CF最优Class-IL模型不是最优的：

\sum_{i = 1}^{T} \sum_{j = 1}^{T} | P_{i j} (θ) | ∦ \sum_{i = 1}^{T} | P_{i i} (θ) | .

证明： 见附录E。

这很有趣，因为事实证明，即使CF被最小化，由于TC的存在（如图2所示），实现最优Class-IL也是不可行的。在图2中，左侧展示了判别Class-IL模型中的TC和CF，该模型通过“顺序”最小化损失矩阵的对角块进行优化。当为下一个块优化时，前一个块的损失逐渐被遗忘，导致CF（浅绿色），并且模型未针对任务间损失矩阵进行优化，导致TC（红色）。在右侧图中，我们展示了生成模型中的CF。当Class-IL模型通过“顺序”最小化损失矩阵的对角块进行优化时，前一个块的损失在优化下一个块时被遗忘；然而，不再有任何任务间块（灰色）。

2.2 生成模型

在本节中，我们专注于生成模型，它是有希望的：它最终形成了我们称之为可行性定理的内容，并提供了一种解决TC的方法。首先，我们提出联合概率等价引理，如下所示，它帮助我们推导出相应的损失矩阵。

引理3（联合概率等价引理）： 由 $θ$ 参数化的N路（类别）生成模型，其损失函数为 $v (f_{θ} (x), y)$ ，数据生成过程具有概率密度 $p (x, y)$ ，等价于实施N个不同的生成模型，其损失如下：

\sum_{i = 1}^{N} q_{r r} (θ) = I_{θ} = \int_{X \times Y} v (f_{θ} (x), y) p (x, y) d x d y

其中 $q_{r r} (θ) = \int_{X_{r} \times Y_{r}} v (f_{θ} (x), y) p (x, y) d x d y$ ，其中 $X_{r} \subset X$ ， $Y_{r} \subset Y$ ， $X_{r} \cap X_{t} = \emptyset$ ， $Y_{r} \cap Y_{t} = \emptyset$ ， $r \neq t$ 。此外， $q_{r r} (θ)$ 表示第 $r$ 个类别的损失。

生成Class-IL模型通过最小化由以下公式给出的损失矩阵的对角块来“顺序”训练模型：

\begin{matrix} (11) & Q (θ) = [\begin{matrix} Q_{11} (θ) & ⊘ & \dots & ⊘ \\ ⊘ & Q_{22} (θ) & \dots & ⊘ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ⊘ & ⊘ & \dots & Q_{T T} (θ) \end{matrix}], Q_{i i} (θ) = [\begin{matrix} q_{i i}^{11} (θ) & ⊘ & \dots & ⊘ \\ ⊘ & q_{i i}^{22} (θ) & \dots & ⊘ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ⊘ & ⊘ & \dots & q_{i i}^{C C} (θ) \end{matrix}] \end{matrix}

其中 $q_{i i}^{m m}$ 表示任务 $i$ 的第 $m$ 个类别的生成模型的损失。正如我们在上一节中对判别模型的定义1-6所做的那样，我们可以为生成模型定义相同的属性。在以下定理中，我们陈述了通过实施联合概率 $P (X, Y)$ 来解决TC是可行的——通过生成模型。这带来了根本性的区别。

定理2（可行性定理）： 对于采用生成模型的Class-IL模型，其损失矩阵为公式(11)，如果CF被预防，意味着所有对角块都是最优的 $[Q_{11}^{*} (θ), Q_{22}^{*} (θ), \dots, Q_{N N}^{*} (θ)]$ ，则模型是最优的。

证明： 见附录E。

因此，在生成式建模中，对对角线的优化等价于对所有损失项的优化。换句话说，与不同任务/类别相关的损失是不相关的；因此，损耗矩阵只能进行对角优化，如图2所示。这一部分对此进行了总结。迄今为止的经验教训是：( i ) class - IL面临两个问题，CF和TC，( ii ) TC是不可避免的，除非我们使用生成式建模(正如不可行性/可行性定理所证明的那样)。这些都是评估IL类方案最优性的广泛适用的经验教训。

3. Class-IL策略的最优性分析

我们分析了流行Class-IL策略的行为，包括：(i) 正则化，(ii) 偏差校正，(iii) 回放，和(iv) 生成分类器；其中前三种策略采用判别模型，而最后一种采用生成模型。需要注意的是，即使是生成回放也被视为判别模型，因为最终分类是由判别器执行的。然而，生成分类器仅通过生成模型直接进行分类。在本节中，我们研究了上述Class-IL策略的最优性。以下三个推论（即推论3、4和5）基于定理1；而最后一个推论6基于定理2（表1总结了我们在本节中的讨论）。

3.1 正则化策略

我们首先从正则化开始。如前所述，正则化本质上试图通过限制后续更新以尽可能少地修改参数来保持任务内块（由公式(5)中的对角块 $P_{i i} (θ)$ 表示）的最优性，从而缓解CF。

推论3（正则化无效推论）： 采用判别模型的正则化Class-IL模型可能会最小化CF；然而，由于TC的次优性，它永远无法实现最优Class-IL。

在Class-IL/无任务场景中，判别模型的性能可以通过一个假设来表征。这些模型，包括None、LwF、EWC和SI等正则化方案，优先最小化任务内的混淆，而不是任务间的区分。它们通过专注于优化对角损失元素并忽略非对角元素来实现这一点，这使得它们在任务内区分类别方面表现出色，但在区分不同任务方面能力有限。因此，它们的分类准确率的上限为 $100 / T %$ ，其中 $T$ 是任务数量。这一限制表明，这些模型最多是CF最优的，因为它们优先考虑任务内的性能，而不是任务间的性能，正如我们在实验结果中观察到的那样。

假设1（CF最优模型推论）： CF最优Class-IL模型（即表2中的None和正则化方案）的性能（以分类准确率衡量）的上限为 $100 / T %$ ，其中 $T$ 表示任务数量。

这可以在表2中看到（对于MNIST、CIFAR-10、CORe50， $T = 5$ ；对于CIFAR-100， $T = 10$ ）：当Class-IL方案仅解决CF而不解决TC时，例如在None方案和正则化策略中，性能从未超过 $100 / T %$ ；因为TC（任务间块）被忽略，处于次优状态。

不仅如此，文献[4]中的结果也支持这一假设。然而，Masana的[3]工作中的一些结果表明，基于熵的技术增强的正则化方案表现出超过 $100 / T %$ 上限的性能，尽管其性能仍然远低于基于生成模型的方案。这是一个不同研究之间的微小差异：一方面，得出这一结论的推理步骤似乎无懈可击，并且有数值结果支持；另一方面，我们不能忽视与这一结论略有矛盾的实证结果。如何解释这一小幅超过上限的现象仍有待研究，希望在未来的工作中得到解决。

到目前为止，我们从理论上明确了TC和CF的区别；为了进一步从经验上区分TC和CF，我们在图3中对比了None方案以及典型正则化方案（Elastic Weight Consolidation, EWC [1]，超参数 $λ = 5000$ ）在两种场景下的表现：(i) Task-IL，模型仅面临CF，(ii) Class-IL，模型同时面临TC和CF。模拟使用CNN在CIFAR-10上运行，仅报告10次重复的平均值。

如图3（左上）所示，对应于None方案，TC导致的性能下降显著大于CF。这是因为TC需要最小化的块损失（ $T^{2} - T$ 个红色块）远多于CF（ $T$ 个绿色块），如图2（左）所示。在图3（左中）中，对应于EWC方案，我们观察到尽管EWC能够最小化CF，但TC的量保持不变，表明正则化对TC无效（见附录F）。

3.2 蒸馏策略

知识蒸馏[19]作为一种有效的正则化策略，在缓解灾难性遗忘方面表现突出。与EWC和SI等对参数更新施加约束的方法不同，知识蒸馏侧重于确保新旧模型的响应一致性。这一独特特征提供了更广泛的解空间，使模型能够探索适用于新旧任务的最优参数。

然而，由于知识蒸馏策略本质上是一种正则化技术，它像所有其他正则化策略一样受到假设1的上限限制。在表2中，Disscheme [19]的表现也体现了这种上限性。

3.3 偏差校正策略

偏差校正策略特别试图缓解TC，但只是轻微地（见图3（右上）和图4中关于AR1方案的内容）：它从任务间二元分类器中移除偏差，略微减少了任务间块损失。然而，偏差校正不足以实现最优的任务间区分，因为偏差参数仅占模型所有参数的一小部分。

推论4（偏差校正无效推论）： 对于采用判别模型的偏差校正Class-IL模型，既不能确保对角块 $P_{i i} (θ)$ 的最优性，也不能确保任务间块 $P_{i j} (θ)$ （ $i \neq j$ ）的最优性；因此，它永远无法实现最优Class-IL。

在CWR [20]、CWR+、AR1 [21]和Label [11]中，通过校正偏差带来的轻微改进在表2中体现出来，其中偏差校正方案通过仅校正偏差，略微缓解了TC，表现优于正则化方案（和None）。这表明了TC问题的重要性高于CF。

3.4 生成回放

另一方面，存在生成回放策略，它试图通过生成伪样本的代理密度 $\hat{p} (x, y)$ 来最小化公式(1)中的目标函数，以模拟真实密度 $p (x, y)$ 。对于生成回放，我们可以提出以下推论。

推论5（生成回放推论）： 采用生成回放的Class-IL模型（判别模型），如果其代理密度 $\hat{p} (x, y)$ 与真实密度 $p (x, y)$ 完全相同，则可以实现最优Class-IL。

尽管在原则上生成回放可以实现最优性并应对TC和CF，因为在学习每个新任务时，所有任务间和任务内的块损失都被最小化，但在实践中，有效地训练这种代理密度 $\hat{p} (x, y)$ （其中 $\hat{p} (x, y) \sim p (x, y)$ ）是具有挑战性的（除非显式存储所有/部分数据集）；这可以在表2中看到，生成回放家族（DGR [6]、BI-R和BI-R+SI [18]）虽然在玩具数据集（如MNIST）上表现良好，但在与生成分类器竞争时，对于更大的数据集表现不佳。这也可以在图3（左下）和图4中看到，DGR不仅未能应对TC，还因代理密度 $\hat{p} (x, y)$ 无法捕捉真实密度 $p (x, y)$ 而遭受CF。

3.5 生成分类器

3.5 生成分类器（续）

最终，与前三种策略（均为判别模型）不同，第四种策略，即生成分类器（依赖于生成模型），以SLDA [10]和GenC [4]为代表，不仅可以在无需回放的情况下应对TC，还承诺实现最优Class-IL，如以下推论所示。

推论6（生成分类器可行性推论）： 根据可行性定理，对于采用生成模型的生成Class-IL模型，如果CF被最小化，则该Class-IL模型是最优的。

我们在表2（以及图3（右下）和图4）中看到，SLDA [10]和GenC [4]能够最好地应对TC。为了预防CF，这两种方案采用了共享的方法，即基于扩展的架构：与所有类别使用相同架构不同，扩展架构在学习新类别时逐步增长其模型。因此，它们不会在新知识上覆盖先前的知识。这就是为什么像SLDA [10]和GenC [4]这样的方案在图3（右下）和图4中没有遭受CF的原因。

4. 全局视角与结论

自AlexNet [22]问世以来，神经科学界一直对深度学习社区的判别模型分类方法持怀疑态度[23,24]。他们认为，人类并不是通过学习 $p (y | x)$ 进行分类（判别模型）；相反，人类学习 $p (x)$ ，这是生成模型。判别模型的主要问题是捷径学习[24]，这一担忧最近在深度学习社区中引起了更多关注[25]。在本工作中，我们研究了捷径学习如何特别阻碍类增量学习。我们讨论了判别模型中的捷径学习如何导致任务混淆，并认为生成模型原则上可以解决这一问题。

我们提出了一个数学框架，形式化类增量学习和无任务学习的问题：任务混淆和灾难性遗忘。我们证明了在判别模型中，非对角块损失没有被最小化，这导致了任务混淆，即使灾难性遗忘被预防，Class-IL模型的性能仍然是次优的。我们展示了实证结果，证实生成模型不会遭受任务混淆，因为没有需要最小化的非对角块。我们观察到，虽然生成模型能够有效应对任务混淆，但采用基于扩展的架构可以克服灾难性遗忘。

上次更新: 2025/04/02, 12:03:38