CoFiMA
Weighted Ensemble Models Are Strong Continual Learners
0. 摘要
在这项工作中,我们研究了持续学习(Continual Learning, CL)问题,目标是在一系列任务上学习一个模型,假设在学习当前任务数据时,之前任务的数据不可用。持续学习本质上是在学习新任务(即可塑性)和保持先前学习概念的性能(即稳定性)之间进行平衡。为了解决稳定性与可塑性之间的权衡问题,我们提出对先前任务和当前任务的模型参数进行加权集成。这种加权集成模型,我们称之为持续模型平均(CoMA),通过利用可塑性在当前任务上获得高准确率,同时不会偏离先前的权重配置太远,从而确保稳定性。我们还提出了 CoMA 的改进版本,名为持续 Fisher 加权模型平均(CoFiMA),它通过利用模型权重的 Fisher 信息选择性地对权重集成中的每个参数进行加权。这两个变体在概念上简单,易于实现,并且在多个标准 CL 基准测试中达到了最先进的性能。代码可在以下网址获取:https://github.com/lemProg/CoFiMA。
关键词:持续学习,模型平均。
1. 引言
从一系列任务中持续学习一个统一的模型是一个具有挑战性的问题,主要原因是灾难性遗忘(Catastrophic Forgetting, CF)[15]——这种现象表现为模型在先前见过的数据上性能下降。持续学习(CL)作为解决 CF 的一种方案,允许模型在吸收新任务信息的同时保留对先前学习类别的分类能力 [36]。直到最近,CL 方法主要集中在相对较小的网络,通常是 ResNets[18],从随机初始化开始 [36, 76]。最近,大规模预训练模型(Pre-Trained Models, PTMs)[11, 27, 51]——如在大规模数据集(如 ImageNet[55]、LAION-400M[58])上预训练的 Vision Transformer(ViT)[27, 35]——的兴起,导致了许多 CL 方法的涌现,这些方法利用了 PTMs 的强大表示能力,引发了 CL 领域的范式转变 [70, 77, 78, 79, 88]。具体来说,许多基于 PTM 的 CL 方法 [10, 40, 82] 通过实验验证了,通过大规模和多样化的预训练获得良好的初始表示,有助于增量学习,因为新任务可以通过较少的训练步骤学习。然而,顺序地对 PTM 骨干进行全微调会导致原始 PTM 表示的退化,同时显著遗忘先前学习的任务 [38, 47, 86, 88]。为了防止过拟合,许多方法提出了启发式地限制 PTM 微调仅在第一次适应会话中进行 [38, 47, 88],或者谨慎选择低学习率来微调骨干 [86]。然而,在快速积累新任务知识的同时保持 PTMs 的泛化能力仍然是一个开放的研究问题。
在追求实现 PTMs 的鲁棒微调过程中,一些研究探讨了权重平均(Weight Averaging, WA)方法的应用 [1, 25, 37, 42, 80, 81]。这些方法的本质是通过集成多个微调后的 PTMs 来获得一个单一模型,该模型封装了多个模型的表示能力。虽然据我们所知,WA 尚未在 CL 中进行研究,但最近的两项研究 [80, 81] 激发了我们对 WA 在 CL 中可行性的兴趣。首先,WISE-FT[81] 通过平均微调模型和预训练模型的权重,提高了零样本分类器(如 CLIP)的微调过程的鲁棒性(图 1(a))。在这里,生成的集成模型在目标分布上表现出高准确率,同时保留了原始 PTM 的分布外(Out-of-Distribution, OOD)性能。重要的是要认识到,模型鲁棒性和 CL 是相互关联的:OOD 性能与目标性能之间的平衡反映了 CL 中的稳定性与可塑性权衡,目标是在适应新任务的同时保持对先前任务的有效性 [1, 25, 42]。其次,“Model soups”[80] 表明,通过 WA 结合同一 PTM 的多个微调模型,可以提高在分布内和分布外任务上的性能(图 1(b))。他们的实验强调了 WA 在相对较大的模型池(例如 32 个)中的潜力,这与 CL 中通常遇到的任务数量相呼应。
图 1:现有模型平均技术与我们提出的 CL 技术的比较。 (a) 平均预训练模型和微调模型的权重,同时提高了分布外和目标数据集的性能。(b) Model soups 结合了多个微调模型,生成了一个鲁棒的统一模型。(c) 在提出的 CoFiMA 中,当前和过去模型的权重基于它们的 Fisher 信息矩阵(用
2. 相关工作
2.1 基于 PTM 的持续学习
不久之前,CL 的主要焦点是从头开始顺序训练深度神经网络,旨在熟练地获取新任务,同时减轻对先前任务的遗忘。典型的 CL 策略包括基于正则化的方法 [2, 8, 26, 33, 85],这些方法保持初始模型并选择性地稳定参数或预测变化;基于回放的方法 [4, 50, 73, 83],这些方法试图近似并重新生成先前学习的数据分布;以及基于架构的方法 [56, 59, 84],这些方法为每个任务分配离散的参数子空间。
不同的是,最近的 CL 研究探讨了 PTMs 的优势 [10, 78, 79]。预训练获得的表示不仅促进了知识转移,还在下游持续学习中表现出对灾难性遗忘的抵抗力 [40, 52]。此外,在预训练阶段学习大量基础类允许 CL 以最小的适应进行 [82]。例如,L2P[79] 利用了 NLP 中预训练知识利用的技术,采用了一组额外的可学习参数,称为“提示”,这些提示指导预训练表示层学习增量任务。DualPrompt[78] 扩展了这一概念,通过将额外的提示附加到预训练表示层,以促进任务不变和任务特定指令的学习。尽管基于提示的方法已被证明显著优于传统的 CL 基线,但它们引入了额外的推理成本。最近,Zhang 等人 [86] 表明,使用 PTMs 进行小学习率的顺序微调优于传统的 CL 方法。Wang 等人 [74, 75] 提出了一种架构,该架构采用多个较窄的子网络来管理增量任务,有效减少了 CL 中的泛化误差。然而,这种方法引入了增加的复杂性。
与先前在 CL 中通过提示 [78, 79]、专家集成 [57, 74, 75] 或回放缓冲区 [4, 50, 73, 83] 增强 PTMs 的方法不同,CoFiMA 采用了不同的策略。CoFiMA 通过解锁所有模型参数进行微调来实现可塑性,与 [38, 78, 79] 不同。此外,它通过平均先前模型的参数权重来减少训练期间的遗忘。与 EWC[26] 相比,EWC 使用 Fisher 信息矩阵(FIM)作为任务间 L2 转移的正则化项,而 CoFiMA 将 FIM 作为加权因子来评估每个任务的权重重要性,而不施加任何正则化约束(更多细节见补充材料)。
2.2 输出空间/权重空间集成
传统的集成方法,或输出空间集成,结合了多个分类器的预测,通常优于单一模型,并在分布变化下提供更校准的不确定性估计 [16, 31, 37, 46, 64]。然而,这些输出空间集成在推理时需要大量的计算资源。权重空间集成通过插值模型权重提供了一种计算效率高的替代方案 [22, 44, 66, 80, 81]。Wortsman 等人 [81] 通过插值零样本 CLIP 和微调模型权重实现了这一点,从而在微调任务和分布变化下都获得了性能提升。Matena 等人 [37] 提出了一种使用 Fisher 值进行不同文本分类任务的高级 WA 技术,但他们没有研究这种方法在 CL 中的可行性。在联邦学习(Federated Learning, FL)中,模型平均(特别是 FedAvg)是一种基本技术,用于在保护隐私的同时整合来自分散数据的见解 [39]。这种方法涉及在分布式节点上训练本地模型,并平均它们的参数以更新全局模型,从而提高学习效率和数据隐私 [24, 32, 39]。我们的方法与现有的 WA 方法 [37, 80, 81] 不同,因为它专注于顺序微调与权重平均,以适应 CL 设置,我们在每个任务中迭代执行我们的过程,使用每个任务的平均模型作为下一个任务的初始化。
WA 还与 Frankle 等人 [14] 引入的线性模型连通性概念密切相关。这个概念确定了在两个独立网络的权重之间进行线性插值时保持准确性的条件。神经网络权重的插值在各种场景中保持高准确性,沿着共享的优化轨迹 [7, 12, 14, 22, 80, 81]。类似地,Neyshabur 等人 [43] 证明了预训练模型与全新初始化模型之间存在的连接。他们指出,来自预训练模型的解决方案之间没有性能障碍,但不同随机初始化模型的解决方案之间可能存在障碍。Mizradeh 等人 [41] 在多任务学习和 CL 的背景下研究了线性连通性。他们表明,存在一个线性路径解决方案,连接两个分别在任务“A”和“B”上训练的模型:一个在任务 A 上表现出色,另一个在任务 A 和 B 上进行了微调。这些工作为线性插值在模型性能中的有效性提供了坚实的理论和实证基础。基于这些发现,我们的工作提出了一个针对 CL 的新解决方案,这是一个尚未探索的领域。
3. 方法
3.1 问题表述与概述
3.1.1 基于预训练模型的持续学习
我们考虑一个分类模型
这个问题提出了两个主要挑战:(i) 需要将从 PTM 中获得的知识适应新任务;(ii) 在吸收新任务的同时,保持模型的全面学习能力以避免遗忘先前获得的知识。
概述。在这项工作中,我们提出模型平均作为基于 PTM 的 CIL 的有效解决方案。由于在新任务上微调 PTM 会导致权重偏离原始 PTM 和先前任务的配置,模型平均通过平均先前任务和当前任务的模型权重来避免对先前任务的遗忘,并保持 PTM 的泛化能力。每个任务结束时,使用平均模型对所有已见任务进行推理,并将其作为下一个任务的初始化。我们将这种方法称为持续模型平均(CoMA),并将在第 3.2 节中详细讨论。
我们通过引入持续 Fisher 加权模型平均(CoFiMA)扩展了 CoMA,其中我们在任何任务
3.2 持续模型平均(CoMA)
暂时忽略 CIL 中典型的内存限制,提出了一种通过模型集成的实用方法:从预训练模型开始,依次为每个任务训练单独的模型,并在每个任务后保存模型。假设我们已经在一系列
我们将复合参数
这个优化问题的解是模型参数的简单平均 [37, 39]。稍微滥用符号,我们用求和运算符表示跨集合的元素求和,可以写成:
除了得到广泛支持的似然最大化框架的支持外,如式 (2) 所示的模型平均还得到了 Mirzadeh 等人 [41] 的见解的进一步验证。他们的研究表明,当两个模型分别在两个不同的任务上训练时,一个在两个任务上都表现出色的模型通常存在于它们的参数空间的线性插值中。下面,我们详细说明如何将这种模型平均方法适应于 CIL 的约束条件,即任务数据按顺序到达,并且不存储先前数据。
首先,从相同的预训练模型
其次,我们的方法的目标之一是防止模型数量随
其中
在内存方面,与在所有任务上进行简单的顺序微调相比,我们的方法在每个训练阶段的存储开销仅限于单个模型的大小。然而,在过渡到后续任务时,只需要存储
处理分类器参数。在每个新任务
3.3 持续 Fisher 加权模型平均(CoFiMA)
均匀权重平均隐含地假设模型的所有参数对训练任务
我们的贡献总结如下:
- 我们在鲁棒微调和持续学习之间建立了联系,并表明模型平均是解决基于 PTM 的 CL 问题的简单而有效的解决方案。我们提出了 CoMA,一种基于权重集成的 CL 方法,解决了稳定性与可塑性权衡的挑战性任务。
- 我们通过使用 Fisher 信息自适应地加权先前任务和当前任务模型的参数,扩展了 CoMA 到 CoFiMA。
- 我们在多个标准 CL 基准测试上进行了广泛的实验,并证明 CoFiMA 虽然简单,但始终优于基于 PTM 的 CL 解决方案。
4. 实验
在本节中,我们首先简要描述实验设置,然后展示实验结果。
4.1 实验设置
数据集和设置。我们使用 PILOT[65] 框架进行实验。我们在四个 CIL 基准测试上进行了实验:CIFAR-100[30]、ImageNet-R[19]、CUB-200[72] 和 Cars-196[28]。CIFAR-100 数据集 [30] 包含 100 类自然图像,每类有 500 张训练图像。ImageNet-R 数据集 [19] 包含 200 类图像,分为 24,000 张训练图像和 6,000 张测试图像。这些图像虽然与 ImageNet-21K 相关,但由于它们是 ImageNet 中的困难样本或不同风格的新图像,因此对 PTM 具有挑战性。CUB-200 数据集 [72] 包含 200 类鸟类图像,每类大约 60 张图像,一半用于训练,一半用于测试。Cars-196 数据集 [28] 包含 196 类汽车图像,分为 8,144 张训练图像和 8,040 张测试图像,保持相似的类别比例。前两个数据集专注于细粒度分类,而后两个数据集(即 CIFAR-100 和 ImageNet-R)是 CL 的标准基准测试。根据 SLCA[86],我们将每个基准测试分为 10 个任务。我们在类增量设置中报告结果,即在推理时不知道任务 ID。
指标。我们报告在学习每个增量任务后所有已见类别的平均分类准确率(记为_Inc-Acc_(%))和学习最后一个任务后的准确率(记为_Last-Acc_(%))。
基线和竞争对手。我们与最先进的基于 PTM 的 CIL 方法 L2P[79]、DualPrompt[78]、SLCA[86] 和 RanPAC[38] 进行了比较。我们还使用相同的 PTM 作为经典 CL 方法 GDumb[50]、LvPF[33]、DER[4]、BIC[83] 和 EWC[26] 的初始化。此外,我们报告了以下基线:顺序微调模型(记为 Seq FT)和 Prototype-classifier[23],后者是基于 PTM 提取特征的余弦相似度分类器。Joint-Training 是一个上限,其中模型同时在所有任务上进行训练。
实现细节。我们在实验中采用了两种 PTM:在 ImageNet-21K[55] 上监督预训练的 ViT-B/16[27] 骨干,默认 PTM;以及在 ImageNet-1K 上使用 MoCo-V3[5] 进行自监督预训练的 ViT-B/16 骨干。我们遵循 SLCA[86] 的实现,采用 0.0001 的小学习率用于表示层,0.01 的学习率用于分类层,以及类对齐策略。我们在所有实验中将批量大小设置为 128,
4.2 最先进方法的比较
本节分析了 CoMA 和 CoFiMA 在各种 CL 基准测试中的性能。我们在表 1 和表 2 中报告了 CoMA 和 CoFiMA 与使用 ViT-B/16 骨干的最先进 CL 方法的比较,该骨干分别在监督和自监督预训练下进行。
如表 1 所示,我们提出的 CoMA 在所有基准测试中始终优于表现最佳的 CIL 基线 SLCA[86] 和 RanPAC[38]。这证实了模型平均在 CIL 中的优势。此外,CoFiMA 作为 CoMA 的改进版本,进一步提高了性能,在 CIL 中达到了新的最先进结果。这突显了基于参数重要性进行自适应模型平均的必要性。具体来说,CoFiMA 在 CUB-200 上实现了 87.11% 的 Last-Acc 和 91.87% 的 Inc-Acc,超过了 SLCA 的表现,分别提高了 +**2.4%**和 +0.93%。同样,在 Cars-196 上,CoFiMA 在 Last-Acc 和 Inc-Acc 上分别比 SLCA 提高了 +**9.23%**和 +5.72%。在 Imagenet-R 上,CoFiMA 在 Last-Acc 和 Inc-Acc 上分别比 SLCA 提高了 +**1.25%**和 +0.31%。
从表 2 中我们观察到,CoMA 和 CoFiMA 在使用自监督预训练的 PTM 时,均大幅超越了最先进的方法。结果表明,访问自监督 PTM 足以在 CIL 中达到令人满意的性能,尽管与表 1 相比,所有方法的绝对性能较低。具体来说,在 CUB-200 上,CoFiMA 的 Last-Acc 为 77.65%,Inc-Acc 为 83.54%,继续显示出相对于 SLCA 的优势。CoFiMA 在 Cars-196、CIFAR-100 和 ImageNet-R 上也处于领先地位,展示了其在不同数据集上的一致性能。
值得注意的是,CoFiMA 的性能在表 1 和表 2 中均接近联合训练的基线。例如,在表 1 中,CIFAR-100 的 CoFiMA 的 Last-Acc 仅比联合训练的基线 93.22% 低0.45%。在其他基准测试中,这一差距进一步缩小,表明 CoFiMA 在接近 CL 性能上限方面的有效性。CoFiMA 通过有效平衡旧知识的保留与新信息的获取,在使用监督和自监督 PTM 时均表现出强大的性能。
4.3 消融研究
4.3.1 模型平均的分析
本节评估了我们的持续模型平均方法与两个基线的比较:
- 权重集成,它均匀地平均模型权重(例如
=1/ ),从预训练的 PTM( )或先前任务的参数( )初始化每个模型 。 - 指数移动平均(EMA)[67],一种在每次梯度下降迭代
时计算模型参数的运行平均的技术,如下所示: ,其中 。
表 3 展示了结果。CoFiMA 在所有数据集上表现出优越的性能。从
然而,从
对所有训练到任务
EMA 方法虽然在大多数情况下优于两种权重集成变体,但仍不及 CoFiMA 的性能。这种差异可能源于 EMA 中过多的平均,其中
4.3.2 PTM 的影响
在本节中,我们评估了 CoFiMA 方法在各种骨干架构上的性能,包括自监督(MAE [17]、MoCoV3 [5] 和 DINOv2 [45])和监督(ViT-Tiny [27] 和 ViT-B/16-SAM [13])模型。这一综合分析旨在确定 CoFiMA 在不同训练范式中的适应性和性能一致性。结果如图 3 所示。
我们的结果表明,CoFiMA 在几乎所有测试的骨干上相对于基线 SLCA 方法都提高了性能。例如,使用 ViT-Tiny 骨干时,CoFiMA 将 SLCA 的 Last-Accuracy 从 80.25% 提高到 82.96%。这种趋势在 ViT-Large 上也类似,CoFiMA 达到了 86.81% 的准确率,超过了 SLCA 的 85.93%。只有在 ViT-B/16-DINOv2 的情况下,性能略有下降,这可能是由于基准测试达到了饱和点:SLCA 和 CoFiMA 的表现都接近联合学习的黄金标准。
在自监督学习模型的背景下,CoFiMA 通过在 ViT-B/16-MAE 和 ViT-B/16-MoCoV3 骨干上优于 SLCA 展示了其有效性。重要的是,ViT-B/16-SAM 骨干 [13] 在评估模型中表现最佳。这可以归因于 SAM 骨干中固有的有效泛化特征,这是使用 SAM 优化器训练的结果。该优化器以其增强模型泛化能力而闻名,这反映在我们的实验中观察到的优越性能指标中,正如 Mehta 等人 [40] 的工作中所提到的。我们还注意到,自监督预训练通常会导致持续学习基线与联合训练之间的性能差距更大。特别是对于 ViT-B/16-MAE,正如 Zhang 等人 [86] 的工作中所指出的,因为使用 MAE 进行联合训练需要较小的更新来学习所有任务,而使用 SLCA 或 CoFiMA 进行增量学习则需要更大的更新。
与联合训练相比,联合训练在 CL 设置中始终处于领先地位,正如 ViT-Large(94.45%)和 ViT-B/16-SAM(91.87%)所看到的那样,CoFiMA 仍然接近,特别是在 ViT-B/16-SAM 上,它达到了 90.48%。这些结果表明,CoFiMA 是一种多功能的方法,在监督和自监督学习背景下,使用各种骨干都能有效提高性能。然而,我们方法的性能提升因骨干(大小)及其预训练范式的选择而异。
4.3.3 平衡旧任务和新任务的信息
在 CL 中,一个主要目标是平衡从先前任务中保留的知识与从当前任务中获取的新信息。本研究考察了在平均过程中用于平衡模型稳定性/可塑性的
除了我们的方法外,我们还纳入了 WiSE-FT [81] 的聚合方案的适应版本,我们称之为 WiSE-FT-CL。在学习任务
根据图 4,CoFiMA 在各种
WiSE-FT-CL 表现不佳的原因在于与模型
总之,我们的方法 CoFiMA 通过利用连续模型之间的权重平均,有效地保持了保留旧任务信息和适应新任务数据之间的平衡。这里的关键好处是,任务
5. 结论
在这项工作中,我们提出了 CoFiMA,这是第一个基于权重平均技术来解决 CIL 设置中灾难性遗忘的方法。该方法基于两个支柱:首先,它利用模型平均,提供了一种平衡机制,既能保留先前的知识,又能适应新信息。其次,它结合了 Fisher 信息,智能地对参数的平均进行加权。这种改进允许根据每个参数的 Fisher 信息确定其重要性来调整其值,从而有效减少灾难性遗忘。
我们在各种 PTM 骨干和基准数据集上的基准测试表明,CoFiMA 始终优于最先进的 CIL 方法。我们的研究结果强调了 CoFiMA 在减轻遗忘方面的有效性,并突出了其在不同 PTM 骨干和基准数据集上的多功能性。