MoE-Fusion
Multi-Modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion (opens new window)
Kimi全文翻译 ⬇️
0. 摘要
红外和可见光图像融合旨在整合多个源的综合信息,以实现在各种实际任务(如检测)中超越单一模态的性能。然而,大多数现有方法直接结合了不同模态的纹理细节和对象对比度,忽略了现实中的动态变化,这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(称为 MoE-Fusion),以动态地从各自的模态中提取有效和全面的信息。我们的模型由局部专家的混合(MoLE)和全局专家的混合(MoGE)组成,由多模态门控引导。MoLE 执行多模态局部特征的专门学习,促使融合图像以样本自适应的方式保留局部信息,而 MoGE 关注补充融合图像整体纹理细节和对比度的全局信息。广泛的实验表明,我们的 MoE-Fusion 在保留多模态图像纹理和对比度方面超越了最先进的方法,并通过局部到全局的动态学习范式实现了优越的性能。我们的代码可在以下链接获取:https://github.com/SunYM2020/MoE-Fusion。
1. 引言
红外和可见光图像融合专注于生成具有吸引力和信息量的融合图像,使其在实际下游任务中的性能超越单独使用单一模态 [24, 45, 41, 21]。近年来,红外 - 可见光图像融合已被广泛应用于许多应用中,如自动驾驶车辆 [9] 和无人机 [34]。根据热红外成像机制,红外图像可以适应各种照明条件,但缺点是纹理细节较少 [25, 50, 19]。相比之下,可见光图像包含丰富的纹理细节信息,但在低光条件下无法提供清晰的信息。因此,如何设计先进的融合方法,使融合图像保留足够的纹理细节和宝贵的热信息,已经吸引了大量的研究关注。
现有的红外 - 可见光融合方法 [46, 38, 33, 42] 主要可以分为传统方法(图像分解 [15]、稀疏表示 [47] 等)和基于深度学习的方法(基于自编码器的方法 [16, 49, 17]、基于生成对抗网络的方法 [18, 26]、基于变换器的方法 [40, 36] 等)。然而,这些方法大多直接结合了不同模态的纹理细节和对象对比度,忽略了现实中的动态变化,导致融合结果不佳,甚至比单一模态的下游任务性能更弱。如图 1 所示,红外图像应该在昏暗的光线下自适应地增强汽车,同时避免破坏在明亮光线下卡车的纹理细节。然而,由于缺乏多模态局部和全局信息的动态学习,这些最先进的融合方法中的对象纹理受到红外热信息的显著干扰,导致对象检测性能糟糕。在复杂场景中,不同模态具有不同的特征:在良好的照明条件下,对象的纹理不应受到热红外信息的干扰;在低照明条件下,对象的对比度也不应被可见图像的黑暗所抑制。大多数现有方法在固定的相关性范式下执行图像融合,忽略了现实中动态变化的主要模态,并经常陷入域偏差。为了打破传统的固定融合范式,我们首次提出样本自适应的局部到全局专家,以动态增强图像融合中的主要模态。图 1 显示,所提出的方法不仅消除了域偏差,而且还实现了样本自适应的动态融合,获得了最佳的检测结果。具体来说,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(称为 MoE-Fusion),包括局部专家的混合(MoLE)和全局专家的混合(MoGE),由多模态门控引导。在 MoLE 中,我们引入了辅助网络生成的注意力图来构建多模态局部先验,并在多模态门控的指导下执行多模态局部特征的动态学习,实现了样本自适应的多模态局部特征融合。此外,MoGE 执行多模态全局特征的动态学习,以实现融合图像中全局纹理细节和对比度的平衡。通过从局部到全局的动态融合范式,我们的模型能够可靠地融合不同的模态图像。我们总结我们的主要贡献如下:
- 我们提出了一个动态图像融合模型,为可靠的红外和可见光图像融合提供了一种新的多模态门控局部到全局专家的混合(从各自的模态动态整合有效信息)。
- 提出的模型是一个有效且鲁棒的框架,用于从局部到全局的样本自适应红外 - 可见光融合。此外,它促使融合图像动态平衡纹理细节和对比度。
- 我们在多个红外 - 可见光数据集上进行了广泛的实验,这些实验清楚地验证了我们的优越性,无论是定量还是定性。此外,我们还展示了我们在目标检测中的有效性。
2. 相关工作
2.1. 红外和可见光图像融合
红外和可见光图像融合任务专注于通过学习多模态特征生成包含足够信息的融合图像 [24, 45, 20, 22, 12, 8]。Ma 等人 [23] 定义了图像融合的目标,即保留红外图像中的更多强度信息以及可见图像中的梯度信息。Li 等人 [16] 使用自编码器提取多模态整体特征,并通过设计的融合规则进行融合,这启发了一系列后续的工作 [14, 17]。Zhao 等人 [49, 50] 提出了基于深度学习的图像分解方法,这些方法通过高频和低频信息分别将图像分解为背景和细节图像,然后通过设计的融合规则进行融合。最近,一些基于 GAN 的方法 [26, 25, 18] 和基于变换器的方法 [40, 36] 也引起了广泛关注。这些工作尽管采用了不同的方法,都集中在学习整体多模态特征的表示上。然而,它们忽略了现实中的动态变化,这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。我们提出了一个动态图像融合框架,实现了从局部到全局的样本自适应融合。这种方法促使融合图像动态平衡纹理细节和对比度,由专门的专家动态处理。
2.2. 专家混合
专家混合(MoE)[10, 30, 27] 可以根据不同的输入动态调整其结构。Shazeer 等人 [32] 构建了一个稀疏门控的 MoE 层,该层使用门控网络选择多个专家,并为每个选定的专家分配权重。MoE 的最终结果是由不同专家的输出加权求和。这项工作也为后续研究奠定了基础。最近,一些研究者 [13, 27] 专注于探索 MoE 中的学习机制,试图解决 MoE 在训练期间面临的专家负载不平衡和激活专家数量的问题。其他研究者 [6, 52, 3, 39] 关注 MoE 和变换器的结合。他们希望利用 MoE 构建稀疏模型。Zhu 等人 [52] 将条件 MoE 引入通用模型,并提出了不同的路由策略以减轻任务和模态之间的干扰。现有的 MoE 相关方法侧重于利用 MoE 的动态性和稀疏性来建模通用知识,导致每个专家不知道自己应该专长什么。相比之下,我们首次将 MoE 的思想扩展到图像融合任务中,构建了一个多模态门控的从局部到全局专家的混合,为每个专家分配特定任务,并实现样本自适应的专门学习,从而获得优越的性能。
3. 方法
3.1. 总体架构
在本文中,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合,称为 MoE-Fusion。在图 2 中,MoE-Fusion 包含两个编码器、局部专家的混合(MoLE)、全局专家的混合(MoGE)和辅助网络。在图 2(b)中,我们将一对红外图像
3.2. 局部专家的混合
在红外 - 可见光图像融合任务中,以样本自适应的方式专门学习多模态局部信息有助于克服复杂场景中多模态融合失败的挑战。为了实现这一愿景,我们需要解决两个问题:(1)如何在多模态图像中找到局部区域;(2)如何由于不同样本的差异而动态学习局部特征。如图 2(a)所示,我们提出了局部专家的混合(MoLE)来动态学习多模态局部特征。我们使用带有空间注意力模块的辅助检测网络来学习注意力图。然后,我们可以根据学习到的注意力图的指导在多模态图像中找到局部区域。具体来说,我们在两个辅助检测网络中引入注意力模块,分别提取可见光注意力图和红外注意力图。模态特定的注意力图
其中
其中
3.3. 全局专家的混合
传统的图像融合算法使用相同的网络结构和参数来学习不同样本的融合特征。相比之下,我们提出了 MoGE 来动态集成多模态全局特征,它可以在处理不同样本时自适应地调整自己的结构和参数,因此在模型表达和自适应性方面显示出优越的优势。MoGE 的主要组成部分包括一个全局多模态门控网络
其中
3.4. 损失函数
在 MoE-Fusion 中,我们使用融合损失
其中像素损失
4. 实验
4.1. 实验设置
数据集和划分协议。我们在三个公开可用的数据集上进行实验:(M3FD[18]、LLVIP[11] 和 FLIR[37])。M3FD:它包含 4,200 对由车载摄像机拍摄的红外 - 可见光图像对。我们使用 3,900 对图像进行训练,剩余的 300 对用于评估。FLIR:我们在这项工作中使用了 FLIR 的“对齐”版本 [44]。它包含 5,142 对由车载摄像机拍摄的红外 - 可见光图像对。我们使用 4,129 对图像进行训练,1,013 对用于评估。LLVIP:LLVIP 数据集包含 15,488 对对齐的红外 - 可见光图像对,这些图像是在不同的街道场景中由监控摄像机拍摄的。我们用 12,025 对图像训练模型,并在 3,463 对图像上进行评估。比较方法。我们在三个公开可用的数据集(M3FD[18]、LLVIP[11] 和 FLIR[37])上比较了 9 种最先进的方法。在这些比较方法中,DenseFuse[16] 和 RFN-Nest[17] 是基于自编码器的方法,PIAFusion[35] 和 IFCNN[48] 是基于 CNN 的方法,TarDAL[18] 是基于 GAN 的方法。DIDFuse[49] 和 AUIF[50] 是基于深度学习的图像分解方法。SwinFuse[40] 和 YDTR[36] 是基于变换器的方法。实现细节。我们在配备两个 NVIDIA GeForce RTX 3090 GPU 的计算平台上进行实验。我们使用 Adam 优化器更新整个网络参数,学习率为
4.2. 在 M3FD 数据集上的评估
定量比较。表 1 展示了在 M3FD 数据集上的定量评估结果,我们的方法在 7 个指标上取得最佳,在剩余的指标上分别取得了第二和第三的最佳性能。特别是,它在 VIF、MI 和 Qabf 上显示出压倒性的优势,这表明我们的融合结果包含了更多有价值的信息,对人眼的视觉感知效果更有利。最高的 SF、SD 和 AG 也表明我们的融合结果保留了足够的纹理细节和对比度。这种优越的性能归功于所提出的从局部到全局的动态学习框架,通过样本自适应的方法实现了最先进的融合性能。
定性比较。为了更好地展示我们模型的优越性,我们通过 RGB 和 YCbCr 之间的颜色空间转换,将 3 通道可见光图像的颜色信息分配给单通道融合图像。我们将背景区域用绿色矩形框标记,前景区域用红色矩形框标记。如图 3 所示,我们的融合结果在局部和全局区域都取得了最佳效果。与 PIAFusion、YDTR、AUIF、IFCNN 和 DIDFuse 相比,我们的融合结果显示出更好的对比度,与 TarDAL 和 SwinFuse 相比,我们的融合结果显示出更好的纹理细节。在白天场景中,我们的模型自适应地学习了足够的纹理细节和显著的对比度,例如集装箱和人物。特别是对于人物,我们的方法显著避免了烟雾的影响,并保留了红外的对比度信息。在局部区域,我们成功地保留了集装箱丰富的纹理信息,超越了其他方法。在全局区域,如山脉、草地和天空,我们的融合结果也有效地保留了纹理信息,表明我们的方法由于动态学习不同模态的局部和全局信息,具有更好的视觉效果。
4.3. 在 FLIR 数据集上的评估
定量比较。表 1 报告了不同方法在 FLIR 数据集上 8 个指标的性能。我们的方法在 5 个指标上取得了最佳结果。其中,最高的 EN 和 MI 表明我们的方法能够很好地保留多模态图像的丰富信息。我们的方法在 SCD 和 Qabf 上的最佳性能也表明,我们的融合结果可以更好地学习多模态互补信息和边缘信息,使我们的融合结果具有更好的前景 - 背景对比度和更丰富的纹理细节。此外,最高的 VIF 也证明了我们的方法可以生成视觉效果更好的融合图像,有益于人的观察。此外,SF、SD 和 AG 的第三好结果也表明我们的方法具有很强的竞争力。FLIR 数据集上的定量结果也验证了我们方法在动态融合多模态互补信息从局部到全局的优越性。
定性比较。我们将背景区域用绿色矩形框标记,前景区域用红色矩形框标记。我们还展示了它们的放大效果,以便更容易比较。如图 4 所示,我们的融合结果在局部和全局区域都取得了最佳效果。在夜间场景中,我们的融合结果自适应地学习了足够的纹理细节和对比度,例如建筑物、树木、山脉和交通灯。特别是对于交通灯,我们的方法有效地避免了眩光的影响,并最好地保留了交通灯的整个轮廓。在局部区域,我们的融合结果保留了行人和车辆的最显著的对比度信息和丰富的细节信息。这些比较表明,我们的方法由于有效地动态学习不同模态的局部信息,具有更好的视觉效果。所提出的 MoE-Fusion 的优越性也揭示了融合网络中多模态局部和全局的专门知识可以有效提高融合性能。
4.4. 在 LLVIP 数据集上的评估
定量比较。表 1 报告了不同方法在 LLVIP 数据集上的定量结果。我们的方法在 6 个指标上超越了所有比较的方法,并在剩余的 2 个指标上分别取得了第二和第三的最佳结果。特别是,我们取得最高的 SF 和 AG 表明所提出的方法在多模态图像中保留了更丰富的纹理细节。同样,最高的 SD 也表明我们的融合结果可以包含最丰富的前景和背景之间的对比度信息。SCD 和 Qabf 分别表示从多模态图像转移到融合图像的互补信息和边缘信息,我们在这两个指标上的最高结果表明我们的方法可以从多模态图像中学习到更有价值的信息。此外,最高的 VIF 也意味着我们的方法可以生成最适合人眼观察的最吸引人的融合图像。这些定量结果表明,所提出的 MoE-Fusion 可以有效学习多模态知识,并生成信息丰富和吸引人的融合结果。
定性比较。我们将背景区域用绿色矩形框标记,前景区域用红色矩形框标记。我们还展示了它们的放大效果,以便更容易比较。如图 5 所示,我们可以发现,与最先进的方法相比,所提出的方法最好地保留了多模态图像的局部和全局的纹理细节,同时动态突出了局部的对比度信息。具体来说,对于背景区域,我们的融合结果在斑马线的边缘纹理上显示出最清晰的效果。对于前景区域,我们的融合结果保留了行人和骑自行车者最显著的对比度和最丰富的纹理细节。定性比较表明,MoE-Fusion 可以通过动态专家平衡纹理细节和对比度。
4.5. 消融研究
我们在 M3FD、LLVIP 和 FLIR 数据集上进行了消融研究,并在表 2 中报告了结果。MoLE。为了验证 MoLE 的有效性,我们从 MoE-Fusion 中移除了 MoLE,然后仅通过两个编码器提取多模态特征,并将它们连接后发送到 MoGE。如表 2 所示,所有指标在移除 MoLE 后都显著下降,表明 MoLE 在学习多模态纹理细节和对比度信息方面非常有效。其中,SCD 的下降也表明没有 MoLE,很难充分学习多模态局部互补信息,这强烈支持我们设计 MoLE 的动机。MoLE 的局部动态专家根据不同模态的辅助检测器自适应地增强主导局部(前景和背景)信息,专门用于局部区域。MoGE。我们用与 MoGE 中的单个专家具有相同结构的公共解码器替换了 MoGE。如表 2 所示,所有指标都显著下降,这强烈验证了 MoGE 可以帮助融合图像保留更多的对比度和纹理细节信息。此外,这些结果还表明 MoGE 可以有效地激励图像融合网络动态适应不同的样本,学习更好的特征表示,从而实现更好的融合性能。MoGE 的全局动态专家从全局视角进一步增强主导模态,同时细化可能发生在局部融合中的潜在错误。基于注意力的局部特征。我们想探索当不为局部特征执行动态学习,而只使用由注意力图构建的局部特征先验作为局部特征时,融合性能如何变化。我们设计了一个基于注意力的局部特征学习模块(Att-Local),为了保持输出通道的一致性,我们在 Att-Local 模块后面加上了一个 1×1 的卷积层。在表 2 中,所有指标都不能超过使用 Att-Local 的 MoE-Fusion 的结果,但大多数都高于没有 MoLE 的结果,这表明一方面我们提出的 MoLE 确实有效,另一方面从各自的模态动态整合有效信息有利于提高多模态图像融合的性能。
4.6. 分析和讨论
MoLE 的可视化。在 MoLE 中,我们可以根据注意力图 Att 获得局部特征先验,我们定义为前景局部特征(FG),我们还使用 1-Att 获得背景局部特征(BG)。我们可视化了 MoLE 中每个专家学到的内容。如图 6 所示,我们可以看到四个前景局部专家可以清晰地学习前景信息,而四个背景局部专家也可以学习丰富的背景特征。这些结果表明 MoLE 可以成功地让每个专家知道它应该专长于什么。
检测评估。好的融合图像在下游任务中应该有更好的性能。对于不同的图像融合方法,我们对目标检测任务进行了评估,并使用平均精度均值(mAP)[5] 作为指标。按照 [51],我们首先使用红外图像和可见光图像训练目标检测模型,然后将不同图像融合方法生成的融合图像输入目标检测模型进行推理,并评估它们的检测性能。在本文中,我们使用 Faster R-CNN[29] 作为目标检测算法,并将评估的 IoU(Intersection over Union)阈值设置为 0.5。根据表 3,我们的 MoE-Fusion 超越了所有比较的方法,并实现了最高的 mAP。值得注意的是,我们的方法在所有类别上都有压倒性的优势,这表明所提出的动态图像融合方法对下游任务更有利。其他数据集上的检测评估提供在补充材料中。
专家数量。在图 7 中,我们在 FLIR 数据集上进行了 4 组实验,E2k2、E4K2、E6K2 和 E8K2,以探索专家数量对融合结果的影响。例如,E4K2 意味着 MoE 包含 4 个专家,并稀疏选择顶部 2 个专家进行集成。我们发现 E4K2 在 7 个指标上高于 E2K2,在 6 个指标上高于 E6K2,在 5 个指标上高于 E8K2,表明更多的专家可能并不更好。此外,我们还设置了 3 组实验,E4K1、E4K3 和 E4K4,以验证 MoE 中专家的稀疏选择对融合结果的影响。在图 7 中,我们发现 E4K2 可以在 7 个指标上超越 E4K1 和 E4K3,在所有指标上超越 E4K4。因此,在这项工作中,我们为每个 MoE 设置 4 个专家,并稀疏选择 2 个专家进行集成。
超参数。如图 8 所示,我们为调整参数
5. 结论
在本文中,我们提出了一个新颖的动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(MoE-Fusion),可以产生可靠的红外 - 可见光图像融合结果。我们的框架专注于通过执行样本自适应的红外 - 可见光融合从局部到全局来动态整合来自不同源模态的有效信息。MoE-Fusion 模型通过专门的局部专家和全局专家动态平衡纹理细节和对比度。三个挑战性数据集上的实验结果表明,所提出的 MoE-Fusion 在视觉效果和定量指标方面超越了最先进的方法。此外,我们还验证了我们的 MoE-Fusion 在目标检测任务中的优越性。在未来的工作中,我们将探索利用不同图像的不确定性来指导融合,并研究开发用于动态图像融合的不确定性门控 MoE 范式。
致谢
本工作部分得到了中国国家重点研发计划 2022ZD0116500 的支持,部分得到了中国国家自然科学基金 62222608、62106171 和 61925602 的资助,部分得到了海河实验室 ITAI 22HHHXCJC00002 的资助,部分得到了天津市自然科学基金 21JCYBJC00580 的资助。