UCL

Universal representation learning from multiple domains for few-shot classification (opens new window)

要翻译这篇文章到中文并符合您的要求，我将逐步翻译以下内容，并按照您的格式需求进行整理，包括标题层级、公式用 LaTeX 表示，以及标题和内容之间的空行。请稍等，我将从摘要部分开始翻译。

0. 摘要

本文探讨了少样本分类问题，其目标是在仅有少量标注样本的情况下，为先前未见过的类别和领域学习分类器。近期的方法通过使用适配网络对新领域的特征进行对齐，或从多个领域特定的特征提取器中选择相关特征。在本文中，我们提出了一种方法，通过使用适配器和中心核对齐技术（Centered Kernel Alignment, CKA）对多个单独训练的网络的特征进行对齐后，将其知识蒸馏到一个统一的深度表示集内，从而实现单一的通用表示学习。我们证明，这些通用表示可以通过一种类似距离学习方法的高效适配步骤进一步优化，以适应先前未见过的领域。在最新的 Meta-Dataset 基准测试中，我们严格评估了该模型，并展示了其显著优于之前的方法，同时具备更高效的性能。代码将开源，地址为：https://github.com/VICO-UoE/URL (opens new window)。

1. 引言

随着深度神经网络在许多标准计算机视觉任务中的显著进展，人们对更具挑战性的目标越来越感兴趣。其中之一是提升标准监督方法的数据效率，这些方法通常依赖于大量昂贵且耗时的人工标注数据。与人类智能能够从少量标注样本中学习概念类似，少样本学习（Few-shot Learning）【24, 33】旨在通过少量类别样本的标注数据，快速适配分类器，以容纳训练中未见的类别。

传统的少样本学习研究主要集中在同质的学习任务中，例如 Omniglot【25】、miniImageNet【53】、tieredImageNet【43】，这些任务的元训练和元测试样本来自单一数据分布（或数据集）。然而，近期的研究兴趣转向了一个更现实且更具挑战性的实验设置：目标是学习少样本模型，不仅能在单一数据分布内泛化，还能推广到先前未见的数据分布。

2. 相关工作

基于元学习的少样本分类

一种直接训练模型以执行少样本分类的方式是元学习。元学习方法可以大致分为两类：基于度量的和基于优化的。前者的关键思想是将原始图像映射到向量表示，并通过学习判别特征空间来使用最近邻分类器，利用不同的距离函数，例如使用孪生网络【21】、加权最近邻分类器【53】、通过支持集中的样本平均来表示每个类别【48】。后者则专注于学习能够从少量支持样本中快速适应新任务的模型。成功的方法包括 MAML【14】、Reptile【35】（通过一阶近似解决 MAML 中昂贵的二阶导数计算）、MAML++【1】（对 MAML 进行了速度和稳定性改进）。

基于迁移学习的少样本分类

也有一些简单且有效的方法【6, 7, 11】首先在所有可用的训练数据上学习神经网络，然后在测试时将其迁移到少样本任务中。Baseline++【6】仅通过余弦距离更新一个参数化的分类器，而 Meta-Baseline【7】则通过最近中心余弦相似度和缩放参数微调整个网络。Dhillon 等【11】探讨了在转导性设置中的微调，其中查询集被假定与支持集同时可用。

跨领域少样本分类

近年来，一些少样本技术【5, 13, 29, 44】专注于使少样本学习能够在测试时泛化到未见过的领域，在最近提出的 Meta-Dataset【52】中得到了测试。CNAPS【44】通过 FiLM 层【39】调整特征编码器和分类器的参数，以适应新类别，并进一步在 Simple CNAPS【2】中扩展，采用基于马氏距离的非参数分类器。而与此不同，SUR【13】通过为每个领域学习独立的特征提取器，存储领域特定的知识，并通过线性组合从多个域的特征中选择最相关的表示。URT【29】则通过 Transformer 层进行元学习，以选择新任务的特征。与 SUR 和 URT 相似，我们的方法也使用多域特征，但我们通过学习一个单一的网络来实现多领域学习，这比 SUR 和 URT 在推理时需要通过多个单领域网络进行前向传播更加高效。与 Simple CNAPS【2】类似，我们的方法在应用最近邻分类器之前将特征映射到任务特定的空间，但我们通过优化一个适配变换来学习映射的参数。

知识蒸馏

我们的工作与知识蒸馏（KD）方法【17, 27, 30, 40, 45, 50】密切相关，这些方法将大规模教师模型的知识蒸馏到一个小型学生神经网络的分类器【17】和中间层【45】。Born-Again 神经网络【15】通过连续地从相同的教师网络将知识蒸馏到学生网络中，进一步应用于少样本学习【51】和多任务学习【10】。最接近我们工作的是 Li 和 Bilen【27】的工作，他们通过引入任务特定的适配器，将学生多任务网络的特征与多个单任务学习网络的特征对齐。虽然我们像【27】一样使用任务特定的适配器对齐多个网络的特征，但我们的工作应用于一个更具挑战性的多领域学习设置，其中不同领域之间存在显著的差异。为了应对这一挑战，我们引入了更加有效的特征匹配损失，灵感来自于中心化核对齐（CKA），以对齐不同领域间的特征。

通用表示

在多个领域中都能良好工作的表示被称为通用表示，这一概念首次由【3】提出。为了在多个领域中学习通用表示，SUR【13】和 URT【29】提出了为每个领域学习一个独立的模型，并学习在新任务中检索或混合适当的模型。另一类方法【3, 41, 42】则提出通过共享大多数参数并通过归一化层【3】、轻量级残差适配器【41, 42】或特征线性调制（FiLM）【39】在多个领域上执行图像分类。我们的工作受到这些方法的启发，因此我们在没有领域特定权重的情况下学习通用表示，并将其应用于少样本学习。

3. 方法

在本节中，我们描述了问题的设置，并介绍了我们的方法，包括多领域特征学习和特征适配两部分。

3.1 少样本任务的公式化

少样本分类的目标是通过少量每个类别的训练样本来学习分类器。该任务包含两组图像：支持集 $S = {(x_{i}, y_{i})}_{i = 1}^{| S |}$ ，包含 $| S |$ 对图像和标签，定义了分类任务，以及查询集 $Q = {(x_{j})}_{j = 1}^{| Q |}$ ，包含 $| Q |$ 个待分类的样本。换句话说，我们希望在支持集上学习一个分类器，该分类器能够准确预测查询集的标签。

与【13, 29】中的方法类似，我们通过两个步骤来解决这个问题：第一，元训练阶段，学习算法接收一个大型数据集 $D_{b}$ 并输出一个通用的特征提取器 $f$ ；第二，元测试阶段，从另一个大型数据集 $D_{t}$ 中采样目标任务 $(S, Q)$ ，构建支持集 $S$ 和查询集 $Q$ 。注意， $D_{b}$ 和 $D_{t}$ 包含互不重叠的类别。

3.2 学习多个领域的表示

我们的重点是学习能够不仅在先前见过的视觉领域内泛化，也能在未见过的领域中泛化的少样本图像分类。由于在未见过的领域中，只有少量样本很难获取领域特定的知识，因此我们受到【3, 41】的启发，假设使用领域无关或通用表示是跨领域泛化成功的关键。为此，我们提出了学习一个多领域网络，该网络能够同时在所有领域特定任务上表现良好，并作为目标任务的特征提取器。

假设 $D_{b}$ 包含来自 $K$ 个不同领域的子数据集。一个可能的解决方案是通过在所有 $K$ 个领域（数据集）的图像上联合优化其参数来训练一个多领域网络：

min_{ϕ, ψ_{τ}} \sum_{τ = 1}^{K} \frac{1}{| D_{τ} |} \sum_{x, y \in D_{τ}} ℓ (h_{ψ_{τ}} \circ f_{ϕ} (x), y),

其中 $ℓ$ 是交叉熵损失， $f$ 是一个多领域特征提取器，它将图像作为输入并输出一个 $d$ 维特征，参数化为一组共享的参数 $ϕ$ ，这些参数在 $K$ 个领域中共享。 $h$ 是一个领域特定的分类器，接收 $f_{ϕ} (x)$ 并输出目标类别的概率向量，参数化为 $ψ_{τ}$ 。虽然最小化公式（1）能够得到一个多领域特征提取器 $f$ ，但许多先前的研究表明，由于不同任务之间的干扰【8, 56】、数据集大小和难度的变化【20, 27】等问题，这种优化可能会导致较差的结果，相比之下，单一领域的网络效果更好。

为了应对这一挑战，我们提出了一种两阶段的程序来学习多领域表示，灵感来自于先前的蒸馏方法【17, 27】。具体而言，我们首先训练领域特定的深度网络，每个网络包括一个特定的特征提取器 $f_{ϕ_{τ}^{*}}$ 和分类器 $h_{ψ_{τ}^{*}}$ ，其中参数 $ϕ_{τ}^{*}$ 和 $ψ_{τ}^{*}$ 是为每个领域专门学习的【13, 29】。然而，与其使用 $K$ 个领域特定的特征提取器并选择最相关的特征，我们提出了一种通过蒸馏 $K$ 个预训练特征提取器的知识，学习一个单一的多领域网络。这样做有两个关键优势：首先，使用一个特征提取器，它的计算能力与每个领域特定的特征提取器相同，在推理时效率更高，因为它只需要执行一次前向传播，而不是多次；其次，学习如何为给定的支持集和查询集找到最相关的特征在【29】中并不简单，且可能由于训练集数据量较少而导致过拟合，而多领域表示自动包含了来自相关领域的所需信息。

3.3 特征适配与元测试

在元测试阶段，给定一个新的学习任务的支持集 $S = {(x_{i}, y_{i})}_{i = 1}^{| S |}$ ，我们使用多领域模型提取特征 ${f_{ϕ} (x_{i})}_{i = 1}^{| S |}$ ，并将其适配到目标任务中。为此，我们应用一个线性变换 $A_{θ} : R^{d} \to R^{d}$ ，其可学习的参数为 $θ$ ，即 ${z_{i}}_{i = 1}^{| S |} = {A_{θ} \circ f_{ϕ} (x_{i})}_{i = 1}^{| S |}$ ，其中 $θ \in R^{d \times d}$ 。然后，我们按照【13, 32, 48】中的类似流程，通过对属于同一类别的嵌入向量取平均，来构建一个类中心分类器：

c_{j} = \frac{1}{| S_{j} |} \sum_{z_{i} \in S_{j}} z_{i}, S_{j} = {z_{k} : y_{k} = j}, j = 1, \dots, C,

其中 $C$ 是支持集中的类别数。接下来，我们通过以下公式估算支持样本 $z$ 的似然度：

p (y = l | z) = \frac{\exp (- d (z, c_{l}))}{\sum_{j = 1}^{C} \exp (- d (z, c_{j}))},

其中 $d (z, c_{l})$ 是负余弦相似度。

然后，我们优化 $θ$ 来最小化以下在支持集 $S$ 上的目标函数：

min_{θ} \frac{1}{| S |} \sum_{x_{i}, y_{i} \in S} [\log (p (y = y_{i} | x_{i}))] .

通过求解公式（6），我们可以获得高内类相似度和低类间相似度的适配空间。我们然后使用 $θ$ 和公式（5）来预测查询样本 $Q$ 的标签，通过选择与类中心 $c_{j}$ 最近的一个来进行分类。我们的元测试流程如图 3 所示。

4. 实验

在本节中，我们首先描述基准数据集、实现细节和对比方法。然后，我们将严格比较我们的方法与最先进的方法，并在消融实验中研究每个提议的组成部分。我们还将对我们的方法进行定性分析。最后，我们将在一个全球检索任务中评估我们学习的特征表示，以进一步验证其在少样本分类任务中的效果。

4.1 实验设置

数据集。Meta-Dataset【52】是一个少样本分类基准，最初由十个数据集组成：ILSVRC 2012【46】（ImageNet）、Omniglot【25】、FGVC-Aircraft【31】（飞机）、CUB-200-2011【54】（鸟类）、Describable Textures【9】（DTD）、QuickDraw【19】、FGVCx Fungi【4】（真菌）、VGG Flower【36】（花卉）、交通标志【18】和 MSCOCO【28】，后来扩展了 MNIST【26】、CIFAR-10【23】和 CIFAR-100【23】。我们遵循标准程序，使用前八个数据集进行元训练，每个数据集进一步划分为训练集、验证集和测试集，并确保类别不重叠。对这些数据集的评估用于衡量在已见领域中的泛化能力。其余五个数据集作为未见领域用于元测试，测量跨领域泛化能力。

4.2 结果

如 Meta-Dataset【52】中所述，我们在不同的方式和样本数下进行任务采样，并在表 1 中报告结果。我们的方法在八个已见数据集中的七个以及五个未见数据集中的四个上都超越了最先进的方法。我们还根据【52】中的推荐计算了平均排名，我们的方法的平均排名为 1.3，而最先进的方法 SUR 和 URT 分别排名为 5.0 和 4.4。具体而言，我们在 Aircraft（+2.8）、Birds（+2.1）、Textures（+4.2）和 VGG Flower（+1.5）等已见领域中获得了显著更好的结果，在 Traffic Sign（+6.1）和 MSCOCO（+3.8）等领域中也有所领先。这些结果表明，联合学习一个统一的表示比将来自多个单领域特征提取器的表示融合要更有利，因为它能够提供更好的泛化能力。值得注意的是，我们的方法在推理时只需要使用一个统一的网络提取特征，而 SUR 和 URT 需要将查询集输入到多个单领域网络中，因此我们的推理计算量显著较小。

我们还看到，我们的方法在所有数据集上都优于两个强基准：最佳单领域模型（Best SDL）和多领域学习基准（MDL），除了 Quick-Draw 数据集外。这表明：i）通用表示在新任务中，尤其是在已见和未见领域中，能够显著优于单领域表示，且在参数量上大大减少（相比 8 个神经网络只需要 1 个）；ii）我们的蒸馏策略对于获得良好的性能至关重要。

尽管 MDL 在某些领域通过跨领域的表示转移超过了最佳单领域模型，但在其他领域其表现不如 SDL，这可能是由于在领域间存在较大的负迁移。然而，MDL 在平均排名上获得了第三名，表明多领域表示的优势。

4.3 进一步的结果

五样本设置中的变化。在报告了在广泛的不同样本数（例如在一些极端情况下最多 100 个样本）下的结果之后，我们进一步分析了在 5 样本设置下，采用不同类别数量的情况。为此，我们遵循【12】中的设置，并与最先进的三种方法（包括 Simple CNAPS、SUR 和 URT）进行了比较。在此设置中，我们以 Meta-Dataset 中的标准设置为基础，随机选择每个数据集的样本并为其构建平衡的支持集和查询集，如表 2 所示。所有方法在大多数数据集上的性能相较于表 1 中的标准设置有所下降，说明这是一个更具挑战性的设置，因为 5 样本设置下支持集的样本数量远少于标准设置。在该设置下，排名变化略微发生了变化。前两名方法保持不变，而 Simple CNAPS 和 SUR 在平均排名上都为 3.0。SUR 在 MNIST 上表现最佳，Simple CNAPS 在 CIFAR-100 上表现最佳，而 URT 在 Quick Draw 上表现最好。我们的方法在其余的 10 个数据集上仍然取得了显著的更好结果。

五类一样本设置中的结果。接下来，我们在 Meta-Dataset 上测试了一个极具挑战性的五类一样本设置。在该设置中，每个任务仅看到每个类别的一个图像作为支持集。这个设置通常用于评估单一领域中的不同方法【25, 43, 53】，而我们将其用于多个领域。如表 2 所示，我们的方法在此设置下依然显著优于其他方法，这进一步验证了在元测试中样本有限时通用表示的重要性。令人有趣的是，Simple CNAPS 在该设置下的排名优于 SUR，这与在前两个设置中的表现正好相反。

4.4 分析

在本节中，我们通过改变蒸馏损失函数和元测试中分类器的类型，进行了一次消融实验，分析我们框架中的不同组件。

不同的蒸馏损失函数。我们首先研究了不同的蒸馏损失函数，包括 L2 损失、余弦距离、KL 散度和 CKA，用于学习多领域网络，并报告了它们的性能，如表 3 所示。我们在【17】中采用 KL 散度损失来匹配单领域和多领域网络的预测，而其他损失函数用于匹配这些模型之间的内部表示（即送入分类器的特征）。在所有单独的损失函数中，使用 CKA 或 KL 散度损失的模型表现最好，其中 CKA 在大多数领域中表现优于 KL 散度。尽管特征通过适配器先进行对齐，L2 和余弦损失函数不足以匹配来自不同领域的特征，因此进一步用 CKA 对齐特征非常关键。需要注意的是，这里的 L2 基线对应于【27】中的方法。最后，结合 CKA 和 KL 散度损失的组合在所有使用单独损失函数训练的多领域模型中表现最好。

元测试中的不同分类器。接下来，我们评估了在元测试阶段使用最近邻分类器（NCC）的自适应映射策略【3.3 节】与其他参数化分类器（如支持向量机 SVM 和逻辑回归 LR）的表现【51】，并将其与非参数分类器（如不使用适配映射的 NCC 以及带有马氏距离的 NCC+MD【2】）进行比较，结果如表 4 所示。对于非参数分类器，NCC 在未见领域中与马氏距离结合使用时表现最好。

我们的框架结合了参数化和非参数分类器的优点，整体上，在已见领域中超越了 SVM、LR 和 NCC+MD，而在某些未见领域（如 Traffic Sign 和 MNIST）中的表现稍微逊色。

定性结果。我们定性地分析了我们的方法，并与 URT【29】在图 4 中进行了对比，展示了在四个不同数据集上给定查询图像时，最近邻的结果（更多示例见附录）。从结果可以看出，我们的方法比 URT 提供了更多正确的邻居。URT 检索到的图像更多地具有相似的颜色、形状和背景，而我们的方法能够检索到语义上更相似的图像。这再次表明，我们的方法能够学习到更有用和更通用的表示。

4.5 全局检索

在这一部分，我们超越了少样本分类实验，并在检索任务中评估了我们从多领域网络中学习到的表示的泛化能力，这一任务灵感来自于度量学习文献【37, 55】。为此，我们对每个测试图像，在整个测试集中找到最接近的图像，并检查它们是否属于同一类别。我们使用 Recall@k 作为评估指标，考虑到在 k 个最近邻中，任何一个与查询样本属于相同类别的邻居都被视为正例。如表 5 所示，我们将我们的方法与 Simple CNAPS 在 Recall@1 和 Recall@2 中进行了比较（更多结果见附录）。由于 URT 和 SUR 需要在检索任务中进行适配，而没有这种适配的情况下，我们用两种基线方法（连接或求和多个领域特定网络的特征）来代替它们。我们的模型在十个数据集中的表现超越了其他方法，尤其是在 Aircraft、Birds、Textures 和 Fungi 数据集上取得了显著的提升。这强烈表明，我们的多领域表示是我们方法成功的关键，尤其是在之前的少样本分类任务中。

5. 结论

在本文中，我们展示了学习一个统一的通用表示并通过特征优化步骤进一步改进，可以在最近的 Meta-Dataset 基准中实现最先进的性能。为此，我们提出了一种方法，通过使用适配器和一个受 CKA 启发的损失函数，将深度神经网络的参数同时优化在多个领域中，并通过对多个单领域网络的特征对齐来实现知识蒸馏。我们表明，通用特征可以通过学习一个变换进一步从少量样本中优化，以适应未见任务，这一过程类似于距离学习。我们的模型在提高泛化能力的同时，所需的参数更少，计算效率更高，相比其他多领域方法更具优势。

A. 实现细节

在所有实验中，我们使用 ResNet-18【16】作为特征提取器的骨干网络，既用于单领域网络，也用于多领域网络。

A.1 单领域模型的训练细节

我们为每个训练数据集训练一个 ResNet-18 模型。优化时，我们遵循【13】中的训练协议。具体来说，我们使用 SGD 优化器，并为所有实验设置 0.9 的动量和 $7 \times 10^{- 4}$ 的权重衰减，学习率、批量大小、退火频率和最大迭代次数如表 6 所示。为了正则化训练，我们还使用与【13】中完全相同的数据增强方法，例如随机裁剪和随机颜色增强。

数据集	学习率	批量大小	退火频率	最大迭代次数
ImageNet	$3 \times 10^{- 2}$	64	48,000	480,000
Omniglot	$3 \times 10^{- 2}$	16	3,000	50,000
Aircraft	$3 \times 10^{- 2}$	8	3,000	50,000
Birds	$3 \times 10^{- 2}$	16	3,000	50,000
Textures	$3 \times 10^{- 2}$	32	1,500	50,000
Quick Draw	$1 \times 10^{- 2}$	64	48,000	480,000
Fungi	$3 \times 10^{- 2}$	32	15,000	480,000
VGG Flower	$3 \times 10^{- 2}$	8	1,500	50,000

表 6. 单领域学习的训练超参数。

A.2 我们方法的训练细节

在多领域网络中，我们在各个领域共享所有层（除了最后一个分类器）。为了训练多领域网络，我们使用与单领域学习模型相同的优化器和调度器，学习 240,000 次迭代，学习率为 0.03，退火频率为 48,000。与【52】中的设置类似，训练批次有 50% 的数据来自 ImageNet 数据集，另一半数据来自其余的 7 个数据集。具体而言，ImageNet 的批量大小为 64×7，其他 7 个数据集的批量大小为 64。

我们将 $λ_{f}$ 和 $λ_{p}$ 设置为 ImageNet 数据集为 4，其他数据集为 1。我们对 $λ$ 进行线性退火，退火过程为 $λ \leftarrow λ \times (1 - t / T)$ ，其中 $t$ 为当前迭代次数， $T$ 为总迭代次数。我们设置 $T = k \times 退火频率$ ，其中退火频率为 48,000。我们根据 8 个训练数据集的交叉验证搜索 $k = {1, 2, 3, 4, 5}$ ，对于 ImageNet，设置 $k = 5$ （即 $T = 240, 000$ ），对于 Omniglot、Quick Draw、Fungi 设置 $k = 2$ ，对于其他数据集设置 $k = 1$ 。

对于所有实验，我们在 8 个训练数据集的验证集上执行早停。

A.3 元测试阶段特征适配的优化

在元测试阶段，优化特征适配时，我们将 $θ$ 初始化为单位矩阵，这样 NCC 可以使用多领域网络产生的原始特征，并从一个较好的起点优化适配器 $θ$ 。与【13】中的优化类似，我们优化 $θ$ 40 次，使用 Adadelta【57】作为优化器，学习率为 0.1（对于前八个数据集）或 1（对于最后五个数据集）。

B. 更多结果

在本节中，我们首先评估了每个单领域模型在每个测试数据集上的少样本分类性能。然后，我们评估了适配器在知识蒸馏中的作用。接下来，我们展示了五样本设置和五类一样本设置的完整结果。最后，我们报告了更多的定性结果和全局检索结果。

B.1 单领域学习的完整结果

为了研究从多个数据集中学习通用表示，我们为每个训练数据集训练一个网络，并使用每个单领域网络作为特征提取器，测试它在每个数据集上的少样本分类性能。这包括在 13 个测试数据集上评估 8 个单领域网络，使用最近邻分类器（NCC）。表 7 显示了单领域学习模型的结果，其中每列显示一个单领域网络在 13 个测试数据集上的平均准确率和 95% 置信区间。每个数据集的最佳结果用粗体字标出。

如表 7 所示，ImageNet 模型的特征在多个数据集上泛化良好，在四个已见数据集（如 ImageNet、Birds、Texture 和 VGG Flower）以及五个未见数据集（如 Traffic Sign、MSCOCO、CIFAR-10 和 CIFAR-100）上取得了最佳结果。Omniglot、Aircraft、Quick Draw 和 Fungi 上训练的模型在相应数据集上表现最好，而 Omniglot 模型在 MNIST 上也具有较好的泛化能力，因为这两个数据集的图像风格类似。我们随后选择性能最好的模型，形成最佳单领域模型（Best SDL），这为通用表示学习提供了一个非常有竞争力的基准。

B.2 适配器在知识蒸馏中的作用

在这一部分，我们评估了我们的方法是否使用适配器来对齐特征（使用 CKA 进行知识蒸馏）。从表 9 可以看出，使用适配器确实有助于提高性能，尤其是在 Birds（+1.7）、VGG Flower（+3.6）、MSCOCO（+1.3）等数据集上。这表明，适配器 $A_{θ}$ 在对齐来自多领域和单领域学习网络的特征时起到了重要作用，这些网络是从不同的领域中学习到的。

到此为止，已经完成了《Universal Representation Learning from Multiple Domains for Few-shot Classification》论文的中文翻译。如果有其他问题或需要调整的地方，随时告诉我！

上次更新: 2025/06/25, 11:25:50

← 小样本学习论文阅读迁移学习→