APER
Revisiting Class-Incremental Learning with Pre-Trained Models Generalizability and Adaptivity are All You Need
摘要
类增量学习(CIL)旨在适应新出现的类而不遗忘旧类。传统的CIL模型从零开始训练,以不断获取知识。最近,预训练取得了显著进展,使得大量预训练模型(PTM)可用于CIL。与传统方法相反,PTM具有通用的嵌入,可以轻松转移到CIL。在这项工作中,我们重新审视了使用PTM的CIL,并提出CIL的核心因素是模型更新的适应性和知识转移的普适性。1)我们首先揭示了冻结的PTM已经可以为CIL提供通用嵌入。令人惊讶的是,一个简单的基线(SimpleCIL),不断将PTM的分类器设置为原型特征,即使不在下游任务上训练,也可以超过最先进的方法。2)由于预训练和下游数据集之间的分布差距,通过模型适应性,PTM可以进一步培养适应性。我们提出了ADapt And Merge(ADAM),该方法聚合了PTM和适应模型的嵌入来构建分类器。ADAM是一个通用框架,可以与任何参数高效的调优方法正交结合,具有PTM的通用性和适应模型的适应性优势。3)此外,我们发现以前的基准在PTM时代不再适用,因为数据重叠问题,我们提出了四个新的基准用于评估,即ImageNet-A、ObjectNet、OmniBenchmark和VTAB。大量实验验证了ADAM在一个统一而简洁的框架中的有效性。代码可在以下网址获取:GitHub 链接 (opens new window)
1. 引言
随着深度学习的进步,深度模型在许多领域取得了令人印象深刻的成就。然而,大多数研究集中在静态环境中识别有限数量的类。在现实世界中,应用程序通常处理包含新类的流数据。为了解决这个问题,提出了类增量学习(CIL),允许模型从不断变化的数据中学习并持续构建统一的分类模型。然而,当新类依次添加时,会出现著名的灾难性遗忘问题,即以前学到的知识被抹去。许多先前的工作旨在不断构建一个整体嵌入而不遗忘。
虽然典型方法假设模型从零开始训练,但最近在预训练方面的进展使得预训练模型(PTM)在下游任务中设计模型时更加可用。这些PTM通常在庞大的语料库或无数图像上训练,使用手工设计的技巧,从而具有强大的普适性。因此,一些方法提出利用PTM来实现更好的增量学习。
强大的PTM减轻了学习过程的负担,显著超过了基于非PTM方法的性能上限。然而,在重新审视CIL目标时,我们发现这些协议之间存在本质差异。没有PTM的情况下,CIL模型旨在不断获取新类的知识并构建统一的嵌入空间,这需要适应性来进行顺序更新。相反,PTM在大规模数据集上训练,使其更容易实现具有强普适性的理想知识和嵌入空间。用人类学习类比,非PTM方法旨在教婴儿通过大学逐渐获取知识,而基于PTM的方法依赖教授完成同样的事情,这非常容易。
为了评估PTM的普适性,我们使用VTAB数据集制定了一个CIL任务,并测试了基于预训练ViT-B/16-IN1K的最先进PTM方法。作为对比,我们提出了一个简单的基线SimpleCIL来评估预训练特征的质量。在整个学习过程中冻结预训练嵌入函数,SimpleCIL将每个新类的平均嵌入设置为分类器权重。如果PTM已经具有普适特征,直接将平均模式匹配到每个查询实例也可以实现竞争性结果。令我们惊讶的是,我们发现SimpleCIL在这些下游任务中即使没有任何调优也超过了当前的SOTA,验证了其在知识转移中的强大普适性。
尽管PTM在CIL中具有普适性,但预训练和增量数据集之间可能仍然存在域差距。例如,ImageNet预训练模型可能在分布外或专门任务中表现不佳。在这种情况下,冻结嵌入以进行知识转移不是“万灵药”。因此,适应性变得至关重要,使模型能够掌握任务特定特征。然而,顺序调优PTM会损害结构信息,削弱普适性,导致先前学到知识的不可逆遗忘。有没有一种方法可以统一PTM的普适性和适应性?
在本文中,我们提出了ADapt And Merge(ADAM),该方法在统一框架中利用PTM增强普适性和适应性。为了提高适应性,我们在第一个增量阶段通过参数高效的调优调整PTM。调整模型有助于获取任务特定特征并填补PTM和增量数据之间的域差距。然后,我们将适应模型与PTM连接起来提取平均嵌入作为分类器,从而保持普适性。ADAM在第一个阶段限制模型调优,在适应性和普适性之间取得平衡。此外,典型的CIL基准,如ImageNet100/1000,不适合评估,因为预训练和下游任务之间存在重叠。因此,我们使用四个具有大域差距的新数据集作为基准。各种设置下的大量实验验证了ADAM的有效性。
2. 相关工作
类增量学习(CIL)
类增量学习使学习系统能够不断整合新概念而不遗忘旧概念。典型的CIL方法大致分为四类。第一组保存并重播旧类的实例,以恢复以前的知识。第二组利用知识蒸馏对齐新旧模型的输出,从而维护旧概念的知识。第三组通过归一化和对数/特征调整来校正增量模型中的归纳偏差。最后,其他工作在需要时扩展网络以增强表示能力。网络扩展技术进一步分为神经元级、骨干网络级和令牌级。
基于PTM的CIL
随着PTM的普及,基于PTM的CIL成为一个热门话题。目的是顺序调整PTM以处理包含新类的流数据。L2P在预训练的Vision Transformer基础上应用视觉提示调优并学习提示池以选择实例特定的提示。DualPrompt在L2P的基础上扩展了两种提示,即通用提示和专家提示。与L2P中的键值搜索不同,CODA-Prompt通过注意力机制改进了提示选择过程。还有研究探索了基于锚点的能量自正则化策略,以聚合多个预训练分类器。当将ViT换成CLIP时,研究通过学习文本和图像模式的提示扩展了L2P。
参数高效的PTM调优
参数高效的PTM调优旨在通过调优少量(额外)参数将PTM适应下游任务。与完全微调相比,参数高效调优以较低成本获得了竞争甚至更好的性能。VPT在输入或隐藏层之前添加可学习的前缀令牌。LoRA学习低秩矩阵来近似参数更新。其他研究通过学习额外的适配器模块进行下投影和上投影。还有研究通过融合模块合并学习的适配器。SSF通过缩放和偏移操作进行模型调优。除了网络中的附加模块,研究提出在输入空间中学习可调参数。最后,有研究将这些工作统一在一个框架中,并搜索下游任务的提示模块的最佳设计。
3. 从旧类到新类
3.1 类增量学习
类增量学习旨在从不断变化的数据流中学习新类,以构建一个统一的分类器。给定一系列B个训练任务,其中第b个增量步骤包含nb个实例。在第b个训练阶段,我们只能访问Db中的数据进行模型更新。本文重点关注无实例的CIL设置,即不获取历史数据进行
排练。CIL的目标是逐步构建一个针对所有已见类的统一模型,即获取新类的知识,同时保留以前的知识。模型的能力通过每个增量任务后针对所有已见类进行评估。
3.2 CIL中的适应性和普适性
CIL中的适应性
在将PTM引入CIL之前,模型从零开始训练以逐步获取新类的知识。一个简单的想法是使用交叉熵损失更新增量模型,从而赋予模型适应新任务的适应性。
L = \sum_{(xi, yi) ∈ Db} ` (f (xi) , yi) + Lreg
其中Lreg代表正则化项以抵抗遗忘,例如知识蒸馏。
CIL中的普适性
PTM天生具有普适性,可以转移到下游任务。具体来说,我们定义了一个简单的基线SimpleCIL,以将PTM转移到增量任务。在整个学习过程中冻结嵌入函数,我们提取每个类的平均嵌入(即原型):
pi = \frac{1}{K} \sum_{|Db|}{j=1} I(yj = i)φ(xj)
平均嵌入代表相应类的最常见模式。我们将原型设置为分类器,即wi = pi,以直接调整PTM进行CIL。SimpleCIL在图1中展示了竞争性能,验证了PTM的强大普适性。
普适性 vs. 适应性
公式2和公式3解决了CIL模型的不同方面。前者旨在通过逐渐调整模型来增强适应性。相反,后者通过在整个学习过程中冻结模型来突出其普适性。为了理解它们在CIL中的作用,我们在CIFAR100上进行了20个增量任务的实验,比较了微调和SimpleCIL的性能。这些方法基于预训练的ViT-B/16-IN21K,我们分别报告了新类和旧类的性能。具体来说,SimpleCIL依赖于PTM的普适性,即使不在目标数据集上训练也能竞争。然而,可以进一步通过抓住任务特定特征来改进,微调在新类上显示出更好的性能,但由于特征不断变化,旧类遭受灾难性遗忘。总结,这些特性是CIL的两个核心方面——适应性使模型能够弥合域差距,而普适性鼓励知识转移。因此,两者都应在CIL中培养。
4. ADAM: 用于CIL的适应和合并PTM
受到增强普适性和适应性的潜力的启发,我们能否在统一框架中实现这些特性?具体来说,我们旨在从两个方面实现这一目标。一方面,为了弥合PTM和下游数据集之间的域差距,模型适应性至关重要。另一方面,由于适应模型可能失去高层特征的普适性,我们尝试将适应模型和PTM合并到一个统一的网络中,以便未来任务。合并的嵌入函数在整个增量学习过程中保持冻结,将模型集的普适性嵌入转移到新类中。通过这种方式,在统一框架中实现了普适性和适应性。
首先介绍ADAM的一般框架,然后讨论具体的模型适应技术。
4.1 ADAM的训练过程
虽然PTM具有区分特征,但预训练数据集和增量数据之间可能存在显著的域差距。例如,PTM被优化以捕捉ImageNet中类的特征,而增量数据流可能对应于需要领域知识或与ImageNet有广泛概念漂移的专门数据。为了弥合这种差距,可以开发一个适应过程:
f∗(x) = F(f(x),D,Θ)
其中,适应算法F将当前模型f(x)和数据集D作为输入,优化参数集Θ,生成适应模型f∗(x),在相应数据集中获取领域特定知识。我们在4.2节中介绍F的变体。如果我们可以一次获得所有增量训练集,通过F(f(x),D1 ∪ D2 · · · ∪ DB ,Θ)适应模型可以将知识从PTM转移到增量数据集,并掌握任务特定特征以获得更好的性能。
然而,由于CIL中的数据是顺序到达的,我们无法一次持有训练集。不断适应模型将导致灾难性遗忘。因此,一个简单的解决方案是仅在第一个增量阶段适应模型:
f∗(x) = F(f(x),D1,Θ)
由于D1是增量数据流的子集,它也具有领域特定知识,可以促进模型适应。调优过程增强了CIL模型的适应性,下一个问题是确保普适性。由于公式5强迫原始的普适特征变得更专用于下游任务,与D1无关的高层特征将被覆盖和遗忘。因此,一个更好的解决方案是连接PTM和适应模型提取的特征,即[φ∗(x), φ(x)],其中φ∗(x)和φ(x)分别表示适应和预训练的嵌入函数。
为了保持普适性,我们在适应后冻结连接的嵌入函数[φ∗(·), φ(·)],并为后续类提取原型:
pi = \frac{1}{K} \sum_{|Db|}{j=1} I(yj = i)[φ∗(xj), φ(xj)]
与公式3相比,公式6包含了适应模型的额外信息,整合了领域特定特征以便更好的识别。这些原型揭示了适应和预训练模型中的最常见模式,确保了普适性和适应性。我们直接采用类原型作为分类器权重,即wi = pi,并利用余弦分类器进行分类:f(x) =
(W ‖W‖2 )>( [φ∗(x),φ(x)] ‖[φ∗(x),φ(x)]‖2 )
基于实例嵌入和类原型之间的相似性,它将更高的概率分配给具有更相似原型的类。
适应和合并的效果:我们在图3(左)中展示了ADAM的可视化。虽然D1是整个训练集的子集,但通过它进行适应仍有助于将PTM从上游数据集转移到下游任务。适应过程可以看作是进一步的预训练过程,将PTM适应增量数据集并弥合域差距。通过合并PTM和适应模型的嵌入函数,提取的特征比任何单一特征更具代表性。此外,由于模型仅在第一个增量任务中可训练,ADAM的效率与不需要顺序调优的SimpleCIL相当。另一方面,由于模型在后续任务中被冻结,它不会遗忘先前的概念。我们在算法1中给出了ADAM的伪代码。在极端情况下,如果第1行中的适应过程对PTM没有任何作用,ADAM将退化为SimpleCIL,保证性能下限。
4.2 调优PTM
为了弥合预训练和增量数据集之间的分布差距,ADAM的性能取决于有效的适应算法F。在本节中,我们讨论六种在ADAM中处理不同类型PTM的专门化。
完全微调
这是将模型转移到下游任务时的一个简单想法。它在适应过程中调整所有参数,即Θ = θφ ∪ θW ,并最小化模型输出与真实标签之间的差异:
minθφ∪θW ∑(xj ,yj)∈D1 ` (f (xj) , yj)
然而,对于大规模PTM(如ViT),调优成本可能相对较高。因此,一些参数高效的调优技术可以减轻调优成本。
视觉提示调优(VPT)
这是适应ViT的一种轻量级调优技术,它在输入图像的编码特征前面添加一些可学习的提示P ∈ Rp×d ,形成扩展特征[P,xe]。扩展特征然后输入ViT的后续层以计算最终嵌入。VPT有两个变体:VPT-Deep,在每个注意力层添加提示,和VPT-Shallow,仅在第一层添加提示。在优化过程中,它冻结嵌入函数中的预训练权重,并优化这些提示和分类头,即Θ = θP ∪ θW。
缩放和偏移(SSF)
旨在通过缩放和偏移调整特征激活。它在每个
操作层(即MSA和MLP)之后附加一个额外的SSF层,并调整这些操作的输出。给定输入xi ∈ RL×d,输出xo ∈ RL×d 公式化为:
xo = γ ⊗ xi + β
其中γ ∈ Rd和β ∈ Rd分别是缩放和偏移因子。⊗是Hadamard积(元素级乘法)。模型优化SSF层和分类器,即Θ = θSSF ∪ θW ,以跟踪新任务的特征。
适配器
这是一个瓶颈模块,包含一个用于降低特征维度的下投影Wdown ∈ Rd×r,一个非线性激活函数和一个用于投影回原始维度的上投影Wup ∈ Rr×d。我们遵循研究将原始MLP结构中的适配器装备到ViT中。将MLP层的输入记为x`,AdaptMLP的输出格式化为:
MLP(x`) + ReLU(x`Wdown)Wup
在冻结预训练权重的情况下,它优化适配器和分类头,即Θ = θWdown ∪ θWup ∪ θW。
批归一化调优
如果PTM是残差网络,我们可以调整BN参数。由于BN中的运行均值和方差与上游数据分布兼容,它们可能对下游任务不稳定。因此,我们可以在前向传播过程中将BN中的运行统计数据归零并适应当前数据。无需反向传播。
讨论:我们在图3中可视化了ADAM的适应过程。与完全微调相比,参数高效调优将PTM调整到下游任务,并保持其普适性。适应模型可以捕获增量数据中的专门特征,导致更好的适应性。由于L2P和DualPrompt基于预训练的ViT,它们不能与CNN一起部署。相反,ADAM是一个通用框架,能够有效处理不同的结构。具体来说,ADAM可以与ViT的VPT/SSF/适配器和CNN的SSF/BN调优结合。由于ADAM采用基于原型的分类器,线性分类器W在适应后将被丢弃。
5. 实验
在本节中,我们在基准数据集上比较了ADAM和最先进方法的性能,展示其优越性。由于预训练数据集和传统CIL基准之间存在重叠问题,我们还提出了四个新基准用于评估基于PTM的方法。消融实验和可视化验证了ADAM在新类上的有效性。我们还探索了不同PTM在CIL中的性能。更多细节和额外结果见补充材料。
5.1 实现细节
数据集:我们遵循评估CIFAR100、CUB200和ImageNet-R的性能。由于PTM通常在ImageNet21K上训练,使用ImageNet评估PTM方法没有意义。因此,我们提出了四个与ImageNet有大域差距的新数据集,即ImageNet-A、ObjectNet、Omnibenchmark和VTAB。ImageNet-A和ObjectNet包含ImageNet预训练模型无法处理的挑战样本,而Omnibenchmark和VTAB包含来自多个复杂领域的多样类。为了构建CIL任务,我们从ObjectNet和ImageNet-A中采样200个类,从Omnibenchmark中采样300个类。我们从VTAB中采样5个数据集,每个包含10个类,以构建跨领域的CIL设置。更多细节见补充材料。
数据集划分:我们采用两种类型的数据集划分,即从一半类开始训练和从零开始训练。我们统一它们为“B/Base-m, Inc-n”,表示第一个增量数据集包含m个类,每个后续数据集包含n个类。m = 0表示将所有类均分为每个任务。所有类在划分前随机打乱以保证公平比较。测试集与原始数据集相同,以全面评估模型。
比较方法:我们首先与最先进的基于PTM的CIL方法L2P和DualPrompt进行比较。我们还修改了经典的CIL方法LwF、DER、FOSTER、MEMO、FACT,使其利用相同的PTM初始化。除了SimpleCIL,我们还报告了基线,即顺序调优模型,称为Finetune。所有方法均以相同的PTM初始化。
训练细节:我们使用PyTorch在Tesla V100上部署所有模型,采用相同的网络骨干。由于有多种PTM公开可用,我们选择了最具代表性的,即ViT-B/16-IN1K和ViT-B/16-IN21K。两者都在ImageNet21K上预训练,而前者还在ImageNet1K上微调。在适应过程中,我们使用48批大小进行训练,20个epoch,使用带动量的SGD进行优化。学习率从0.01开始,余弦退火。提示长度p为5,适配器的投影维度r为16。源码将在接受后公开。
评估协议:我们将第b阶段后的Top-1准确率表示为Ab。我们使用AB(最后阶段后的性能)和Ā = 1/B ∑Bb=1Ab(增量阶段的平均性能)作为度量标准。
5.2 基准比较
我们在表1中报告了针对最先进方法的增量性能,所有方法基于预训练的ViT-B/16-IN21K。我们还用预训练的ViT-B/16-IN1K训练这些模型,并在图4(a)∼4(f)中显示增量趋势。这些数据划分包括大和小基类设置,以全面评估。
首先,我们可以推断出PTM的嵌入具有普适性,可以直接应用于CIL,超越SOTA。具体来说,基线SimpleCIL在CUB上比DualPrompt高出20%,在ImageNet-A上高出8% 。然而,如果PTM通过ADAM进行适应,强大的PTM可以进一步改进,因为下游任务与预训练数据集之间有很大域差距。具体来说,我们发现ADAM在七个基准数据集中始终优于SimpleCIL。相比之下,顺序微调模型遭受严重遗忘,验证了适应和合并协议的有效性。由于ADAM仅在第一个阶段需要调优PTM,它比L2P和DualPrompt需要更少的训练时间和额外参数,如图1所示。在适应技术的变体中,SSF和适配器比VPT更高效。我们还比较了最先进的传统CIL方法,并将它们的骨干修改为预训练的ViT,以进行公平比较。然而,我们从表2中可以推断出这些方法在没有实例的情况下无法竞争。
除了ViT,ADAM在预训练的CNN中也表现良好。我们采用预训练的ResNet18进行评估,并在图4(g), 4(h)中绘制增量性能。结果表明,ADAM始终提升了预训练的ViT和CNN的性能。
最后,如表1所示,由于典型基准与ImageNet之间的域差距较小,其性能趋于饱和。相反,由于我们新建立的基准与ImageNet之间的域差距较大,仍有改进空间,表明这些新基准的有效性和必要性。
5.3 消融研究
降维特征
由于ADAM的特征与PTM和适应模型聚合,维度是PTM的两倍。我们在CIFAR100 Base50 Inc5上进行了消融研究,以显示这些特征对CIL是否重要。具体来说,我们在第一个增量阶段训练PCA模型,以减少后续阶段的嵌入维度。将目标维度表示为k,我们训练PCA模型PCA([φ∗(x), φ(x)]):Rd → Rk,并将其附加到特征提取器。特征和原型投影到k维度。我们在图5(a)中绘制了k变化的性能。具体来说,即使特征投影到50维,ADAM也能获得与DualPrompt(768维)相当的性能。我们还通过随机采样k个特征进行实验,并在图5(b)中报告结果。结论与前者一致,表明随机采样200维的ADAM可以达到与DualPrompt相同的性能规模。图5(c)显示了准确率-维度曲线。
子模块
由于ADAM与PTM和适应模型连接,我们在ImageNet-A Base100 Inc5上进行消融研究,比较ADAM w/ Finetune及其子模块。具体来说,我们分别构建了基于φ(·)和φ∗(·)的SimpleCIL,称为SimpleCIL-PTM和SimpleCIL-Adapted。前者代表PTM的能力,而后者代表适应模型的
能力。两者都是ADAM的组成模块。此外,我们基于连接的预训练ViT-B/16-IN21K和ViT-B/16-IN1K构建SimpleCIL,称为SimpleCIL-21K+1K。它利用了两个嵌入函数的聚合特征,具有与ADAM相同的维度。如图5(d)所示,SimpleCIL-Adapted优于SimpleCIL-PTM,表明模型适应的重要性。然而,适应模型也会覆盖高层特征,降低模型的普适性。适应模型遭受比简单SimpleCIL更大的性能下降,表明普适性在抵抗遗忘中的作用。最后,ADAM在统一适应性和普适性的帮助下优于任何这些子模块。
不同PTM
观察到ViT-B/16-IN21K和ViT-B/16-IN1K之间的性能差距,我们在ImageNet-R Base0 Inc20上探索了不同类型的PTM。我们选择了公开可用的PTM,即ResNet18/50/152、ViT-B/16-IN1K/21K、ViT-L/16-IN1K、ViT-B/16-DINO、ViT-B/16-SAM、ViT-B/16-MAE、ViT-B/16-CLIP(图像编码器)进行全面评估,并在图6中报告结果。我们可以得出三个主要结论。1)预训练的ViT比ResNet具有更好的普适性。2)较大的ViT比小的更具普适性,使用监督损失训练的ViT表现优于无监督的。3)由于大规模的训练语料库和对比损失,CLIP比ImageNet21K预训练的ViT表现更好。最后,我们发现ADAM w/ Finetune始终提高了任何PTM的SimpleCIL性能,从而验证了其有效性。
5.4 增量阶段的可视化
在本节中,我们在CIFAR100数据集上使用t-SNE可视化了两个增量阶段之间的决策边界,如图7(a), 7(b)所示。我们用彩色点和三角形可视化了第一个和第二个增量任务的类。相应地,用方块表示类原型。从这些图中我们可以推断出,PTM竞争性地工作,能够很好地将实例分类到相应的类中。类原型位于每个类的中心,验证了它们在识别中的代表性。从第一阶段扩展到第二阶段时,我们发现ADAM在新旧类上表现良好。可视化验证了ADAM的普适性和适应性。
我们还基于预训练的ResNet18在OmniBenchmark数据集上可视化了Grad-CAM结果。Grad-CAM用于突出图像中预测相应概念的重要区域。结果如图7(底部)所示,表明ADAM比原始PTM更关注任务特定特征。
6. 结论
增量类学习在现实世界应用中非常重要,需要适应性来更新和普适性来进行知识转移。在本文中,我们系统地重新审视了PTM的CIL,并得出了三个结论。首先,冻结的PTM可以为CIL提供普适嵌入,使基于原型的分类器超过当前最先进的方法。其次,由于预训练和下游数据集之间的分布差距,PTM可以进一步增强其适应性。为此,我们提出了ADAM,可以与任何参数高效的调优方法正交结合,以统一CIL的普适性和适应性。最后,由于数据重叠,传统的基于ImageNet的基准在PTM时代不再适用。因此,我们提出了四个新的基准用于评估基于PTM的CIL方法。大量实验验证了ADAM的最先进性能。未来的工作包括探索任务特定的调优方法和结构。
局限性
可能的局限性包括实例的限制。如果有足够的旧类实例,它将变成基于实例的CIL,其中适应性可以通过实例重放进一步解决。
参考文献
[1] Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig, Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko, et al. Feta: Towards specializing foundation models for expert task applications. arXiv preprint arXiv:2209.03648, 2022. [2] Rahaf Aljundi, Min Lin, Baptiste Goujaud, and Yoshua Bengio. Gradient based sample selection for online continual learning. In NeurIPS, pages 11816–11825, 2019. [3] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016. [4] Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan, and Phillip Isola. Visual prompting: Modifying pixel space to adapt pre-trained models. arXiv preprint arXiv:2203.17274, 2022. [5] Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, and Boris Katz. Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models. NeurIPS, 32, 2019. [6] Eden Belouadah and Adrian Popescu. Il2m: Class incremental learning with dual memory. In ICCV, pages 583–592, 2019. [7] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In ICCV, pages 9650–9660, 2021. [8] Ar