PViT
PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection (opens new window)
0. 摘要
视觉 Transformer(ViTs)在各种视觉任务中取得了显著的成功,然而它们在数据分布变化和固有归纳偏差方面的鲁棒性仍然未被充分探索。为了增强 ViT 模型在图像分布外(OOD)检测中的鲁棒性,我们提出了一种新颖且通用的框架,称为先验增强视觉 Transformer(PViT)。PViT 以来自预训练模型的先验类别 logits 作为输入,训练 PViT 以预测类别 logits。在推理过程中,PViT 通过量化预测的类别 logits 与从预训练模型获得的先验 logits 之间的差异来识别 OOD 样本。与现有的最先进(SOTA)OOD 检测方法不同,PViT 通过利用提出的先验引导置信度来塑造 ID 和 OOD 之间的决策边界,而不需要额外的数据建模、生成方法或结构修改。在大规模 IMAGENET 基准上进行的广泛实验,针对七个 OOD 数据集的评估表明,PViT 在 FPR95 和 AUROC 方面显著优于现有的 SOTA OOD 检测方法。代码库公开在 https://github.com/RanchoGoose/PViT。
关键词:图像分类,视觉 Transformer,分布外检测,深度学习,计算机视觉
1. 引言
近年来,Transformer 凭借其创新的注意力机制在各个领域取得了显著的成功,将其成功从自然语言处理扩展到各种视觉任务。视觉 Transformer(ViT)的出现标志着 Transformer 架构在视觉应用中的关键转折点,为后续模型奠定了舞台,这些模型通过增加深度和规模展示了显著的性能提升,尽管以计算需求的增加为代价。然而,与基于卷积神经网络(CNNs)的模型相比,这些架构在增强 OOD 检测方面的探索滞后了。
OOD 检测是一种关键的机器学习技术,旨在识别与训练数据分布不同的测试样本。该技术对于区分属于训练分布的输入和不属于训练分布的输入至关重要。在安全关键的实际部署中,遇到新类别是不可避免的,因此熟练的 OOD 检测的重要性不言而喻。解决 ViTs 的泛化和 OOD 检测能力变得至关重要。
我们探索了在视觉模型中战略性地融入先验知识以增强其安全相关能力。假设与人类一样,AI 模型可以从上下文线索中受益,提高其准确识别和分类数据的能力。这表明先验知识可能在帮助模型辨别细微的数据分布方面起到关键作用,从而引出了我们的核心研究问题:
如果提供先验知识,模型是否会增强 OOD 检测的性能?
在这项工作中,我们的目标是利用 ViTs 的优势设计一个可扩展的解决方案,以提高其在 OOD 检测中的鲁棒性和性能。与传统的 CNNs 相比,ViTs 直接操作于图像块的序列,通过注意力机制产生结果。ViTs 在捕捉图像块之间的长程依赖关系方面非常有效,但往往忽略了局部特征提取,因为 2D 图像块通过简单的线性层投影为向量。最近的一些研究开始关注增强局部信息的建模能力。使 ViTs 能够融入额外的上下文数据,扩展了其分析范围,超越了直接的视觉输入,创造了一个战略机会,将来自高性能预训练视觉模型的先验知识融入学习过程。
基于将先验知识融入 ViT 的想法,我们提出了新颖的先验增强视觉 Transformer(Prior-augmented Vision Transformer, PViT)用于 OOD 检测。如图 1 所示,PViT 旨在生成与先验 logits 紧密对齐的预测,同时对 OOD 数据表现出显著差异。先验知识来自在 ID 数据集上预训练的模型,本文中称为先验模型。PViT 使用先验模型生成的先验预测进行训练。在推理过程中,PViT 采用提出的先验引导能量(PGE)评分,通过量化先验 logits 与预测 logits 之间的差异来有效区分 OOD 实例。

我们证明了我们提出的框架 PViT 在 OOD 检测中非常有效,特别是在像 IMAGENET 这样的大规模数据集上。与现有的 SOTA OOD 检测方法相比,PViT 实现了显著的性能提升,与最佳基线相比,FPR95 降低了高达 20%,AUROC 提高了高达 7%。此外,PViT 无需生成合成的异常数据,同时在 ID 数据集上保持高准确性。
本文的主要贡献总结如下:
- 我们提出了 PViT,一个新颖且通用的框架,将先验知识融入 ViT,从而增强模型的鲁棒性和 OOD 检测能力。
- 我们提出了先验引导能量作为一种有效的 OOD 检测评分方法,通过测量先验类别 logits 与预测类别之间的相似性。
- 我们在各种基准上进行了全面的实验,提供了 PViT 的定性分析,并就将先验知识融入 ViT 模型的影响进行了深入的讨论。
本文的其余部分结构如下:第 2 节回顾了相关工作,并为我们研究提供了必要的背景。第 3 节详细描述了我们提出的 PViT 框架,包括其架构和新的先验引导 OOD 评分机制。在第 4 节中,我们通过在大规模 OOD 基准(包括 CIFAR 和 IMAGENET-1K)上的广泛实验评估了 PViT 的性能。第 4.2 节提供了全面的消融研究,包括定量和定性分析。第 5 节讨论了我们方法的影响,强调了其当前的局限性,并概述了未来研究的潜在方向。最后,第 6 节总结了主要结果和贡献。附录提供了有关本文使用的数据集和模型的更多细节,以确保可重复性。
2. 相关工作
2.1. 分布外(OOD)检测
深度学习模型在分类来自不同语义分布的样本时通常过于自信,导致在图像分类和文本分类等任务中出现不适当的预测。这一问题促使了 OOD 检测领域的出现,该领域要求模型拒绝与训练分布语义不同的输入,这些输入不应由模型预测。OOD 检测是一个关键的研究领域,旨在确保 AI 系统的安全部署。多年来,各种 OOD 检测方法层出不穷,大致分为专注于网络修改的技术和基于评分的方法,以在嵌入或潜在特征空间中区分 ID 和 OOD 样本。
修改网络行为的方法通常采用截断等技术。例如,ODIN 使用梯度向量扰动输入以放大检测评分,而 ReAct 应用阈值来剪裁隐藏层激活。这些方法增强了网络分离 ID 和 OOD 样本的能力。
基于评分的方法涉及开发标量指标以量化样本为 OOD 的可能性。基于分类器的方法,通常称为置信度评分,利用神经网络的分类层。该领域的开创性工作是最大软最大概率(MSP)方法,它是 OOD 检测的基线。随后的进展包括能量函数,它提供了类别条件概率的无偏估计,以及最大 logit 技术,它结合了类别似然和特征幅度以提高性能。此外,Kullback–Leibler(KL)散度已被用于比较预测与均匀分布,增强了类别依赖信息。
基于距离的方法形成了另一类关键的 OOD 检测,基于样本在特征空间中与 ID 数据的空间关系来识别样本。Mahalanobis 检测器计算到类别均值的距离,具有共享的特征协方差,而 SSD 假设 ID 样本为单一高斯分布。非参数方法如 k 近邻(k-NN)提供了精确的边界划分,并通过 NNGuide 增强了在遥远数据集中的区分能力。
其他流行的 OOD 检测方法包括通过创建异常值来增强模型鲁棒性,也称为异常值暴露方法。这些方法对 OOD 训练数据的可用性提出了强烈的假设,这在实践中可能不可行。当没有 OOD 样本可用时,一些方法尝试合成 OOD 样本以实现 ID/OOD 可分离性。现有工作利用 GAN 生成 OOD 训练样本,并强制模型预测为均匀分布,生成低密度区域的边界样本,或生成高置信度的 OOD 样本。然而,在高维像素空间中合成图像可能难以优化。最近的工作 VOS 提出了从特征空间中的低似然区域合成虚拟异常值,这在较低维度下更易于处理。在目标检测中,有研究提出从野外视频中合成未知对象,使用时空未知蒸馏。最近的进展集中在复杂视觉环境(如城市驾驶场景)中定位 OOD 区域。这些异常值暴露方法通常需要额外的训练和生成合成数据,这降低了可扩展性和适应性。与现有的 SOTA 方法相比,我们提出的 PViT 通过不依赖合成数据或外部异常值进行训练,从而增强了其跨不同框架的可扩展性和适应性。
2.2. 视觉 Transformer
最初为机器翻译提出的 Transformer 在许多自然语言处理(NLP)任务中已跻身于最先进技术。vanilla ViT 代表了首个纯基于 Transformer 的图像分类模型,展示了与 SOTA CNN 相媲美的性能。与它们的 NLP 对应物一样,ViTs 缺乏 CNNs 的局部感受野和权重共享特性。相反,它们使用位置编码和自注意力来捕捉位置关系。这种灵活性允许 ViTs 学习任何数据关系,但它们可能需要更多的数据来学习 CNNs 由于其空间层次和局部偏差而自然捕获的模式。
随着 ViT 在显著性能上展示出优异结果,一系列 ViT 变体被提出,以提高在图像分类、图像分割和目标检测等各种视觉任务上的性能。DeiT,也称为数据高效图像 Transformer,后来被提出,通过在 ImageNet 数据库上训练作为一种有竞争力的无卷积 Transformer。Swin Transformers 在窗口内执行局部注意力,并引入了一种移位窗口分区方法以实现跨窗口连接。
除了纯视觉任务外,Transformer 还被用于贝叶斯推理。最近的一项研究探索了使用 Transformer 进行贝叶斯推理,拓宽了其适用性。这项研究表明,当在先验样本上训练时,Transformer 能够有效地近似后验预测分布(PPD),即使在涉及小型表格数据集的情况下。相比之下,我们的方法设计用于大规模图像数据,展示了利用先验信息处理不同数据规模和类型的多功能性。
虽然 ViTs 中专用 token 的引入是一个相对未探索的领域,但我们的工作开创了将先验 token 用于 OOD 检测的先河。先验 token 的概念并非我们首次引入,如在图像抠图中的应用 MatteFormer 中,通过先验注意力 Swin Transformer 块集成 trimap 信息。然而,我们的方法显著不同,因为它重新利用了这一概念来增强 ViTs 中的 OOD 检测。
3. 方法论
本节为我们方法奠定了基础,从问题设置(第 3.1 节)开始,以建立必要的背景。然后,我们提供了我们提出的 PViT 的全面概述(第 3.2 节),详细描述了其架构和功能,并附有图 2。最后,我们探讨了我们的 OOD 评分机制,特别强调了 PGE 评分在区分 OOD 实例中的作用(第 3.3 节)。
3.1. 预备知识
在图像分类的背景下,令
为了测试未见过的数据,目标是训练一个能够区分 OOD 输入
其中阈值
3.2. 先验增强视觉 Transformer(PViT)
先验增强视觉 Transformer(PViT)的架构如图 2 所示。PViT 的实现遵循 vanilla Vision Transformer(ViT)的基础结构。在传统的 ViT 中,输入图像

与 vanilla ViT 类似,可学习的嵌入
先验 token 的集成。给定一个参数化为
为了创建先验 token,首先使用 softmax 函数对预训练分类器的 logits 向量
其中
然后,先验 token 通过因子
其中
连接后的序列
其中
在图像分类的背景下,PViT 的主要训练目标是最小化模型的预测分布与真实标签分布之间的差异。整体训练目标通过最小化交叉熵损失函数
其中
3.3. 先验引导能量用于 OOD 检测
给定一个基础置信度评分函数
其中
能量作为基础置信度评分。基础置信度评分
其中
- 推拉动态:在使用负对数似然(NLL)损失进行训练时,正确标签的能量被最小化,而错误标签的能量被增加,从而在 ID 和 OOD 样本之间创建了一个尖锐的置信度边界。
- 自由能解释:能量评分隐含地融入了系统的自由能(对数配分函数),使其能够建模所有类别预测的整体不确定性。
- 非概率效率:该评分通过 logsumexp 操作符高效计算,相比于概率密度估计在计算上更具优势。
对于 ID 数据,logits
先验引导项。虽然能量评分是一个强大的独立置信度度量,但它可以通过额外的先验信息进一步增强其判别能力。为此,我们引入了引导项
其中
整体 PGE 评分。通过结合基础置信度评分和先验引导项,PGE 评分定义为:
引导项放大了基础置信度评分,从而对 ID 数据产生了更高的整体 PGE 评分。相反,OOD 数据的特点是 PGE 评分较低。通过设置适当的阈值
下一节将详细介绍数据集、评估指标以及所提出的 OOD 检测方法的整体评估。
4. 实验
数据集。为了评估模型性能,我们使用小规模的 CIFAR 和大规模的 IMAGENET-1K 数据集作为 ID 训练数据集。CIFAR-10 和 CIFAR-100 因其相似但不同的特性被交替用作 ID 和 OOD 数据集。我们使用标准的训练/验证/测试集进行训练和测试。在表 1 和表 2 中报告的主要结果中,IMAGENET-1K 被用作 ID 数据,我们采用了一系列自然图像数据集作为 OOD 基准,包括 INATURALIST、SUN、TEXTURES、PLACES、NINCO、OPENIMAGE-O 和 SSB-HARD。在表 3 中,CIFAR-100 被用作 ID 数据集,以下 OOD 测试数据集用于测试 PViT 的 OOD 性能:CIFAR-10、TEXTURES、PLACES、LSUN、ISUN 和 SVHN。
训练细节。PViT 的配置包括隐藏维度为 384,深度为 12 层,6 个 MSA 头,MLP 维度为 768。使用 Adam 优化器,超参数
评估指标。为了评估我们提出的模型在 OOD 检测中的性能,我们采用了两个评估指标:(1) FPR95,表示当 ID 样本的真实阳性率为 95% 时,OOD 样本的假阳性率;(2) AUROC,计算接收者操作特征曲线下的面积。
4.1. OOD 检测评估
我们评估了 PViT 在 OOD 检测中的性能,与包括 MSP、MaxLogit 评分、Mahalanobis 评分、能量评分、SSD、ViM、KNN 和 NNGuide 在内的竞争基线进行比较。为了确保公平比较,我们没有包括任何基于合成的 OOD 方法,如 VOS 或 Dream-OOD,因为我们的 PViT 也可以通过包含合成数据训练进一步增强。对于表 1 和表 2 中的所有 PViT 实例,先验 token 的缩放因子
4.2. 消融研究
OOD 先验引导的消融研究。虽然我们在公式 (11) 中引入了使用 CE 作为引导项来检测 OOD 实例,但我们也考虑了其他度量来测量先验与预测 logits 之间的差异:(1) 欧氏距离(Euclidean Distance, ED)。欧氏距离是一种几何度量,计算预测 logits 和先验概率向量之间的“直线”距离,公式为


先验效果的消融研究。为了证明我们集成的先验 token 在引导 PViT 有效区分 ID 和 OOD 数据方面的功效,我们进行了一项消融研究,将我们的方法与 vanilla ViT 模型进行了比较。具体来说,我们通过直接计算 vanilla ViT 模型(由 Google 提供,详细信息见附录)与先验模型之间的差异来评估 OOD 检测性能。结果如表 4 所示。 如表 4 所示,vanilla ViT 的性能在所有三种先验引导下均显著较差。在没有集成先验 token 的情况下,使用 CE 作为先验引导的 OOD 检测在七个 OOD 数据集的平均值上达到了近 100% 的 FPR95。同样,使用 KL 和 ED 作为先验引导的结果也不理想,FPR95 和 AUROC 指标与表 1 和表 2 中的结果相比表现较差。这些发现表明,vanilla 形式的 ViT 架构缺乏有效区分 OOD 和 ID 数据的内在能力。这表明,集成先验 token 对于 PViT 实现强大的 OOD 检测至关重要。
先验缩放的消融研究。图 5 展示了缩放先验权重

5. 讨论与未来工作
5.1. 贝叶斯视角的讨论
贝叶斯神经网络(BNNs)已在多项研究中被探索用于 OOD 检测。BNNs 将贝叶斯方法融入神经网络,利用模型参数上的概率分布来表示预测中的不确定性。在 OOD 检测的背景下,BNNs 可以通过比较模型在给定输入和已知 ID 数据上的不确定性来使用。然而,BNNs 在 OOD 检测中的适用性在最近的工作中引起了争议。 从贝叶斯角度来看,我们的方法可以解释为利用 ID 数据集中的先验知识在贝叶斯框架内建立预测后验分布(PPD)。这与 Transformer 促进贝叶斯推理的概念一致。在我们的模型中,先验可以视为从贝叶斯模型中采样的先验的均值,使 PViT 能够近似后验分布
然而,[46] 提出的方法专门设计用于单序列数据,旨在在单次前向传递中提供超快速的贝叶斯推理。这种方法虽然不直接适用于图像数据(由于 ViTs 的处理限制),但为我们 PViT 在 OOD 检测中的有效性提供了启示。通过捕捉贝叶斯推理中的不确定性,它为 PViT 在识别 OOD 样本中的强大性能提供了令人信服的解释。
5.2. 归纳偏差的讨论
一般而言,ViTs 和 CNNs 被认为具有根本不同的归纳偏差。ViTs 通过将图像块类比为 token,本质上关注全局图像模式。这种全局视角与 CNNs 的局部特征强调形成鲜明对比,CNNs 固有地编码了局部空间层次和邻近性的偏差。虽然这使得 ViTs 在需要整体图像理解的任务中表现出色,但其缺乏内置的局部偏差可能会限制其在需要详细局部特征分析的任务中的有效性。
ViTs 可以通过数据增强或混合架构采用归纳偏差,改善其局部特征处理能力,这传统上是 CNNs 的优势。我们的研究通过将额外的先验信息嵌入 ViTs 中,增强了其鲁棒性,并作为一种引入归纳偏差的方法。这一策略为将手动设计的归纳偏差嵌入 ViTs 开辟了一条新途径,可能会提高其鲁棒性和可解释性。通过引入额外的先验信息,我们希望我们的 PViT 能够弥补 ViTs 中较弱的传统归纳偏差,特别是在归纳偏差起关键作用的具有挑战性的场景中。
5.3. 讨论与未来工作
所提出方法的准确性与先验模型的准确性和结构密切相关,特别是在 ID 先验准确性上。PViT 在使用 ViT 架构作为先验时表现出更好的 OOD 检测性能,这可能是由于结构上的相似性。此外,PViT 需要在 ID 数据上进行训练,尽管受益于先验知识并实现了快速收敛,但这也带来了额外的复杂性。在推理过程中,需要对先验模型和 PViT 进行推理,这也增加了计算成本。
此外,我们的探索表明,PViT 为大型视觉模型引入了一种有益的归纳偏差,这些模型日益普及并不断发展。与大型语言模型(LLMs)的进步类似,计算机视觉领域也见证了大型视觉模型的显著增长。这些大型模型面临着“规划”的挑战——这是指导这些模型能力以实现特定、受控结果的关键方面。展望未来,扩展 PViT 以融入不同级别的先验知识,可以将大型视觉模型引导向特定目标,类似于为不同场景定制 OOD 检测。这是一个有前景的研究方向,可能对不同视觉 Transformer 架构产生广泛影响。
6. 结论
在本工作中,我们提出了先验增强视觉 Transformer(PViT),一个新颖且通用的 OOD 检测框架。PViT 独特地将先验知识作为先验 token 融入,训练其近似真实标签,通过检查模型预测与先验 logits 之间的相对距离来有效区分 OOD 数据。我们的实证结果表明,PViT 在 OOD 检测基准中表现出色。此外,PViT 创新性地融入先验知识,不仅增强了 OOD 检测能力,还为针对特定实际应用的大型视觉模型的战略规划和控制提供了一种多功能方法。
致谢
我们感谢英国 EPSRC 通过项目 NSF-EPSRC: ShiRAS. Towards Safe and Reliable Autonomy in Sensor Driven Systems(资助号 EP/T013265/1)以及美国国家科学基金会(资助号 NSF ECCS 1903466)的支持。本工作还得到了英国 RI 可信自主系统节点(REASON)项目 EP/V026747/1 的支持。