MoE-Fusion

Kimi全文翻译 ⬇️

0. 摘要

红外和可见光图像融合旨在整合多个源的综合信息，以实现在各种实际任务（如检测）中超越单一模态的性能。然而，大多数现有方法直接结合了不同模态的纹理细节和对象对比度，忽略了现实中的动态变化，这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白，我们提出了一个动态图像融合框架，该框架具有多模态门控的从局部到全局专家的混合（称为 MoE-Fusion），以动态地从各自的模态中提取有效和全面的信息。我们的模型由局部专家的混合（MoLE）和全局专家的混合（MoGE）组成，由多模态门控引导。MoLE 执行多模态局部特征的专门学习，促使融合图像以样本自适应的方式保留局部信息，而 MoGE 关注补充融合图像整体纹理细节和对比度的全局信息。广泛的实验表明，我们的 MoE-Fusion 在保留多模态图像纹理和对比度方面超越了最先进的方法，并通过局部到全局的动态学习范式实现了优越的性能。我们的代码可在以下链接获取：https://github.com/SunYM2020/MoE-Fusion。

1. 引言

红外和可见光图像融合专注于生成具有吸引力和信息量的融合图像，使其在实际下游任务中的性能超越单独使用单一模态 [24, 45, 41, 21]。近年来，红外 - 可见光图像融合已被广泛应用于许多应用中，如自动驾驶车辆 [9] 和无人机 [34]。根据热红外成像机制，红外图像可以适应各种照明条件，但缺点是纹理细节较少 [25, 50, 19]。相比之下，可见光图像包含丰富的纹理细节信息，但在低光条件下无法提供清晰的信息。因此，如何设计先进的融合方法，使融合图像保留足够的纹理细节和宝贵的热信息，已经吸引了大量的研究关注。

现有的红外 - 可见光融合方法 [46, 38, 33, 42] 主要可以分为传统方法（图像分解 [15]、稀疏表示 [47] 等）和基于深度学习的方法（基于自编码器的方法 [16, 49, 17]、基于生成对抗网络的方法 [18, 26]、基于变换器的方法 [40, 36] 等）。然而，这些方法大多直接结合了不同模态的纹理细节和对象对比度，忽略了现实中的动态变化，导致融合结果不佳，甚至比单一模态的下游任务性能更弱。如图 1 所示，红外图像应该在昏暗的光线下自适应地增强汽车，同时避免破坏在明亮光线下卡车的纹理细节。然而，由于缺乏多模态局部和全局信息的动态学习，这些最先进的融合方法中的对象纹理受到红外热信息的显著干扰，导致对象检测性能糟糕。在复杂场景中，不同模态具有不同的特征：在良好的照明条件下，对象的纹理不应受到热红外信息的干扰；在低照明条件下，对象的对比度也不应被可见图像的黑暗所抑制。大多数现有方法在固定的相关性范式下执行图像融合，忽略了现实中动态变化的主要模态，并经常陷入域偏差。为了打破传统的固定融合范式，我们首次提出样本自适应的局部到全局专家，以动态增强图像融合中的主要模态。图 1 显示，所提出的方法不仅消除了域偏差，而且还实现了样本自适应的动态融合，获得了最佳的检测结果。具体来说，我们提出了一个动态图像融合框架，该框架具有多模态门控的从局部到全局专家的混合（称为 MoE-Fusion），包括局部专家的混合（MoLE）和全局专家的混合（MoGE），由多模态门控引导。在 MoLE 中，我们引入了辅助网络生成的注意力图来构建多模态局部先验，并在多模态门控的指导下执行多模态局部特征的动态学习，实现了样本自适应的多模态局部特征融合。此外，MoGE 执行多模态全局特征的动态学习，以实现融合图像中全局纹理细节和对比度的平衡。通过从局部到全局的动态融合范式，我们的模型能够可靠地融合不同的模态图像。我们总结我们的主要贡献如下：

我们提出了一个动态图像融合模型，为可靠的红外和可见光图像融合提供了一种新的多模态门控局部到全局专家的混合（从各自的模态动态整合有效信息）。
提出的模型是一个有效且鲁棒的框架，用于从局部到全局的样本自适应红外 - 可见光融合。此外，它促使融合图像动态平衡纹理细节和对比度。
我们在多个红外 - 可见光数据集上进行了广泛的实验，这些实验清楚地验证了我们的优越性，无论是定量还是定性。此外，我们还展示了我们在目标检测中的有效性。

2. 相关工作

2.1. 红外和可见光图像融合

红外和可见光图像融合任务专注于通过学习多模态特征生成包含足够信息的融合图像 [24, 45, 20, 22, 12, 8]。Ma 等人 [23] 定义了图像融合的目标，即保留红外图像中的更多强度信息以及可见图像中的梯度信息。Li 等人 [16] 使用自编码器提取多模态整体特征，并通过设计的融合规则进行融合，这启发了一系列后续的工作 [14, 17]。Zhao 等人 [49, 50] 提出了基于深度学习的图像分解方法，这些方法通过高频和低频信息分别将图像分解为背景和细节图像，然后通过设计的融合规则进行融合。最近，一些基于 GAN 的方法 [26, 25, 18] 和基于变换器的方法 [40, 36] 也引起了广泛关注。这些工作尽管采用了不同的方法，都集中在学习整体多模态特征的表示上。然而，它们忽略了现实中的动态变化，这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。我们提出了一个动态图像融合框架，实现了从局部到全局的样本自适应融合。这种方法促使融合图像动态平衡纹理细节和对比度，由专门的专家动态处理。

2.2. 专家混合

专家混合（MoE）[10, 30, 27] 可以根据不同的输入动态调整其结构。Shazeer 等人 [32] 构建了一个稀疏门控的 MoE 层，该层使用门控网络选择多个专家，并为每个选定的专家分配权重。MoE 的最终结果是由不同专家的输出加权求和。这项工作也为后续研究奠定了基础。最近，一些研究者 [13, 27] 专注于探索 MoE 中的学习机制，试图解决 MoE 在训练期间面临的专家负载不平衡和激活专家数量的问题。其他研究者 [6, 52, 3, 39] 关注 MoE 和变换器的结合。他们希望利用 MoE 构建稀疏模型。Zhu 等人 [52] 将条件 MoE 引入通用模型，并提出了不同的路由策略以减轻任务和模态之间的干扰。现有的 MoE 相关方法侧重于利用 MoE 的动态性和稀疏性来建模通用知识，导致每个专家不知道自己应该专长什么。相比之下，我们首次将 MoE 的思想扩展到图像融合任务中，构建了一个多模态门控的从局部到全局专家的混合，为每个专家分配特定任务，并实现样本自适应的专门学习，从而获得优越的性能。

3. 方法

3.1. 总体架构

在本文中，我们提出了一个动态图像融合框架，该框架具有多模态门控的从局部到全局专家的混合，称为 MoE-Fusion。在图 2 中，MoE-Fusion 包含两个编码器、局部专家的混合（MoLE）、全局专家的混合（MoGE）和辅助网络。在图 2（b）中，我们将一对红外图像 $I_{I} \in R^{H \times W \times 1}$ 和可见光图像 $I_{V} \in R^{H \times W \times 3}$ 输入到红外和可见光编码器（EncI 和 EncV）中分别提取特征。编码器的结构遵循 [16]。编码器的输出有两个部分：最后一层的特征图（ $x_{I_{e n c}}$ 和 $x_{V_{e n c}}$ ）和密集特征图（ $x_{I_{d e n s e}}$ 和 $x_{V_{d e n s e}}$ ）。结构的更多细节提供在补充材料中。我们将 $x_{I_{e n c}}$ 和 $x_{V_{e n c}}$ 输入到 MoLE，以及从辅助网络学习到的注意力图。在本文中，我们使用 Faster-RCNN[29] 作为辅助网络。在 MoLE 中，我们将可见光和红外特征分别发送到特定的局部专家，以在多模态门控的指导下实现局部特征的动态集成。我们将 MoLE 的输出与密集特征图进行连接，作为输入到 MoGE。MoGE 中的每个专家都有解码全局特征的能力，多模态门控网络用于动态选择哪些专家被激活以解码多模态融合特征。最终融合图像 $I_{F} \in R^{H \times W \times 1}$ 是通过不同全局专家的输出的加权求和机制生成的。MoE-Fusion 主要通过计算融合图像 $I_{F}$ 和两个源图像（ $I_{I}$ 和 $I_{V}$ ）之间的像素损失和梯度损失来优化的。此外，我们还引入了负载损失，以激励每个专家接收大致相等数量的训练图像。辅助检测网络独立于检测损失进行优化。

3.2. 局部专家的混合

在红外 - 可见光图像融合任务中，以样本自适应的方式专门学习多模态局部信息有助于克服复杂场景中多模态融合失败的挑战。为了实现这一愿景，我们需要解决两个问题：（1）如何在多模态图像中找到局部区域；（2）如何由于不同样本的差异而动态学习局部特征。如图 2（a）所示，我们提出了局部专家的混合（MoLE）来动态学习多模态局部特征。我们使用带有空间注意力模块的辅助检测网络来学习注意力图。然后，我们可以根据学习到的注意力图的指导在多模态图像中找到局部区域。具体来说，我们在两个辅助检测网络中引入注意力模块，分别提取可见光注意力图和红外注意力图。模态特定的注意力图 $A t t_{V} / A t t_{I}$ 是由检测网络中的特征提取器和检测头之间的注意力模块生成的，包括一个 $C o n v (1 \times 1) B N - R e L U$ 层和一个 $C o n v (1 \times 1) - B N - S i g m o i d$ 层。 $A t t_{V}$ 和 $A t t_{I}$ 被连接并输入到 2 个卷积层中，其中最大输出是 $A t t$ 。在 MoLE 中，我们将 $x_{V_{e n c}}$ 和 $x_{I_{e n c}}$ 与 $A t t$ 相乘，分别得到 $x_{V_{l o c a l}}$ 和 $x_{I_{l o c a l}}$ 。然后我们将 $x_{V_{l o c a l}}$ 和 $x_{I_{l o c a l}}$ 连接起来得到 $x_{l o c a l}$ ，这是多模态门控网络的输入。MoLE 由多模态门控网络 $G_{l o c a l}$ 和一组 $N$ 个专家网络 ${E_{l o c a l 1}, . . ., E_{l o c a l N}}$ 组成。每个专家网络的结构是 2 个卷积层和 1 个 ReLU 层。在 MoLE 中，我们将输入 $x_{l o c a l} \in R^{H \times W \times C}$ 展平为 $s_{l o c a l} \in R^{D}$ 。门控网络 $G_{l o c a l}$ 以向量 $s_{l o c a l}$ 为输入，并产生与 $N$ 个专家相关的概率。门控网络的形式化如下，

G_{l o c a l} (s_{l o c a l}) = softmax (topK (s_{l o c a l} \cdot W_{l o c a l}))

其中 $W_{l o c a l} \in R^{D \times N}$ 是一个可学习的权重矩阵，通过 softmax 函数规范化的顶部 $K$ 输出。为了实现不同模态的专门学习，我们将可见光局部特征 $x_{V_{l o c a l}}$ 输入到一组专家网络 ${E_{l o c a l 1}, . . ., E_{l o c a l N / 2}}$ 中，将红外局部特征 $x_{I_{l o c a l}}$ 输入到另一组不重叠的专家网络 ${E_{l o c a l (N / 2) + 1}, . . ., E_{l o c a l N}}$ 中。每个专家网络产生自己的输出 $E_{l o c a l i} (x_{j_{l o c a l}})$ 。MoLE 的最终输出 $y_{l o c a l}$ 计算如下，

y_{l o c a l} = \sum_{i = 1}^{N} G_{l o c a l} (s_{l o c a l})_{i} E_{l o c a l i} (x_{j_{l o c a l}}),

其中 $j$ 代表 $I$ 或 $V$ 。然后我们将 $y_{l o c a l}$ 、 $x_{I_{d e n s e}}$ 和 $x_{V_{d e n s e}}$ 连接起来得到全局多模态融合特征 $x_{f}$ 。

3.3. 全局专家的混合

传统的图像融合算法使用相同的网络结构和参数来学习不同样本的融合特征。相比之下，我们提出了 MoGE 来动态集成多模态全局特征，它可以在处理不同样本时自适应地调整自己的结构和参数，因此在模型表达和自适应性方面显示出优越的优势。MoGE 的主要组成部分包括一个全局多模态门控网络 $G_{g l o b a l}$ 和一组 $N$ 个专家网络 ${E_{g l o b a l 1}, . . ., E_{g l o b a l N}}$ 。在 MoGE 中，我们将 $x_{f}$ 展平得到 $s_{f}$ 并输入到 $G_{g l o b a l}$ 。相应的 $N$ 个专家网络的门控权重计算如下，

G_{g l o b a l} (s_{f}) = softmax (topK (s_{f} \cdot W_{g l o b a l})),

其中 $W_{g l o b a l}$ 是一个可学习的权重矩阵，通过 softmax 分布规范化的顶部 $K$ 输出。每个专家网络的结构由 4 个卷积层组成。每个专家将全局多模态融合特征 $x_{f}$ 作为输入，产生自己的输出 $E_{g l o b a l i} (x_{f})$ 。MoGE 的最终输出 $I_{F}$ 是每个专家输出与相应门控权重的线性加权组合。形式化如下，

I_{F} = \sum_{i = 1}^{N} G_{g l o b a l} (s_{f})_{i} E_{g l o b a l i} (x_{f}) .

3.4. 损失函数

在 MoE-Fusion 中，我们使用融合损失 $L_{f u s i o n}$ 来指导图像融合网络的优化，辅助检测网络由各自的检测损失 [29]（ $L_{V_{d e t}}$ 或 $L_{I_{d e t}}$ ）进行优化。我们通过这三个损失函数端到端地训练整个框架。具体来说，融合损失的公式如下，

L_{f u s i o n} = L_{p i x e l} + α L_{g r a d} + L_{l o a d},

其中像素损失 $L_{p i x e l}$ 约束融合图像保留来自目标图像的更多显著像素强度，而梯度损失 $L_{g r a d}$ 迫使融合图像包含来自不同模态的更多纹理细节。 $L_{l o a d}$ 代表负载损失，它鼓励专家接收大致相等数量的训练样本 [32]。关于像素损失、梯度损失和负载损失的更多细节提供在补充材料中。 $α$ 用于平衡不同的损失函数。

4. 实验

4.1. 实验设置

数据集和划分协议。我们在三个公开可用的数据集上进行实验：（M3FD[18]、LLVIP[11] 和 FLIR[37]）。M3FD：它包含 4,200 对由车载摄像机拍摄的红外 - 可见光图像对。我们使用 3,900 对图像进行训练，剩余的 300 对用于评估。FLIR：我们在这项工作中使用了 FLIR 的“对齐”版本 [44]。它包含 5,142 对由车载摄像机拍摄的红外 - 可见光图像对。我们使用 4,129 对图像进行训练，1,013 对用于评估。LLVIP：LLVIP 数据集包含 15,488 对对齐的红外 - 可见光图像对，这些图像是在不同的街道场景中由监控摄像机拍摄的。我们用 12,025 对图像训练模型，并在 3,463 对图像上进行评估。比较方法。我们在三个公开可用的数据集（M3FD[18]、LLVIP[11] 和 FLIR[37]）上比较了 9 种最先进的方法。在这些比较方法中，DenseFuse[16] 和 RFN-Nest[17] 是基于自编码器的方法，PIAFusion[35] 和 IFCNN[48] 是基于 CNN 的方法，TarDAL[18] 是基于 GAN 的方法。DIDFuse[49] 和 AUIF[50] 是基于深度学习的图像分解方法。SwinFuse[40] 和 YDTR[36] 是基于变换器的方法。实现细节。我们在配备两个 NVIDIA GeForce RTX 3090 GPU 的计算平台上进行实验。我们使用 Adam 优化器更新整个网络参数，学习率为 $1.0 \times 10^{- 4}$ 。辅助网络 Faster R-CNN[29] 也随着图像融合流程一起训练。训练周期设置为 24，批量大小为 4。调整参数 $α$ 设置为 10。对于 MoLE 和 MoGE，我们将专家数量设置为 4，并稀疏激活顶部 2 个专家。评估指标。我们基于定性和定量结果评估所提出方法的性能。定性评估主要基于融合图像的视觉效果。一个好的融合图像需要具有多模态图像的补充信息。定量评估主要使用质量评估指标来衡量图像融合的性能。我们选择了 8 个流行指标，包括熵（EN）[31]、空间频率（SF）[4]、标准差（SD）、互信息（MI）[28]、视觉信息保真度（VIF）[7]、平均梯度（AG）[2]、差异相关性的总和（SCD）[1] 和基于梯度的相似性度量（Qabf）[43]。我们还评估了不同方法在典型下游任务——红外 - 可见光目标检测上的性能。

4.2. 在 M3FD 数据集上的评估

定量比较。表 1 展示了在 M3FD 数据集上的定量评估结果，我们的方法在 7 个指标上取得最佳，在剩余的指标上分别取得了第二和第三的最佳性能。特别是，它在 VIF、MI 和 Qabf 上显示出压倒性的优势，这表明我们的融合结果包含了更多有价值的信息，对人眼的视觉感知效果更有利。最高的 SF、SD 和 AG 也表明我们的融合结果保留了足够的纹理细节和对比度。这种优越的性能归功于所提出的从局部到全局的动态学习框架，通过样本自适应的方法实现了最先进的融合性能。

定性比较。为了更好地展示我们模型的优越性，我们通过 RGB 和 YCbCr 之间的颜色空间转换，将 3 通道可见光图像的颜色信息分配给单通道融合图像。我们将背景区域用绿色矩形框标记，前景区域用红色矩形框标记。如图 3 所示，我们的融合结果在局部和全局区域都取得了最佳效果。与 PIAFusion、YDTR、AUIF、IFCNN 和 DIDFuse 相比，我们的融合结果显示出更好的对比度，与 TarDAL 和 SwinFuse 相比，我们的融合结果显示出更好的纹理细节。在白天场景中，我们的模型自适应地学习了足够的纹理细节和显著的对比度，例如集装箱和人物。特别是对于人物，我们的方法显著避免了烟雾的影响，并保留了红外的对比度信息。在局部区域，我们成功地保留了集装箱丰富的纹理信息，超越了其他方法。在全局区域，如山脉、草地和天空，我们的融合结果也有效地保留了纹理信息，表明我们的方法由于动态学习不同模态的局部和全局信息，具有更好的视觉效果。

4.3. 在 FLIR 数据集上的评估

定量比较。表 1 报告了不同方法在 FLIR 数据集上 8 个指标的性能。我们的方法在 5 个指标上取得了最佳结果。其中，最高的 EN 和 MI 表明我们的方法能够很好地保留多模态图像的丰富信息。我们的方法在 SCD 和 Qabf 上的最佳性能也表明，我们的融合结果可以更好地学习多模态互补信息和边缘信息，使我们的融合结果具有更好的前景 - 背景对比度和更丰富的纹理细节。此外，最高的 VIF 也证明了我们的方法可以生成视觉效果更好的融合图像，有益于人的观察。此外，SF、SD 和 AG 的第三好结果也表明我们的方法具有很强的竞争力。FLIR 数据集上的定量结果也验证了我们方法在动态融合多模态互补信息从局部到全局的优越性。

定性比较。我们将背景区域用绿色矩形框标记，前景区域用红色矩形框标记。我们还展示了它们的放大效果，以便更容易比较。如图 4 所示，我们的融合结果在局部和全局区域都取得了最佳效果。在夜间场景中，我们的融合结果自适应地学习了足够的纹理细节和对比度，例如建筑物、树木、山脉和交通灯。特别是对于交通灯，我们的方法有效地避免了眩光的影响，并最好地保留了交通灯的整个轮廓。在局部区域，我们的融合结果保留了行人和车辆的最显著的对比度信息和丰富的细节信息。这些比较表明，我们的方法由于有效地动态学习不同模态的局部信息，具有更好的视觉效果。所提出的 MoE-Fusion 的优越性也揭示了融合网络中多模态局部和全局的专门知识可以有效提高融合性能。

4.4. 在 LLVIP 数据集上的评估

定量比较。表 1 报告了不同方法在 LLVIP 数据集上的定量结果。我们的方法在 6 个指标上超越了所有比较的方法，并在剩余的 2 个指标上分别取得了第二和第三的最佳结果。特别是，我们取得最高的 SF 和 AG 表明所提出的方法在多模态图像中保留了更丰富的纹理细节。同样，最高的 SD 也表明我们的融合结果可以包含最丰富的前景和背景之间的对比度信息。SCD 和 Qabf 分别表示从多模态图像转移到融合图像的互补信息和边缘信息，我们在这两个指标上的最高结果表明我们的方法可以从多模态图像中学习到更有价值的信息。此外，最高的 VIF 也意味着我们的方法可以生成最适合人眼观察的最吸引人的融合图像。这些定量结果表明，所提出的 MoE-Fusion 可以有效学习多模态知识，并生成信息丰富和吸引人的融合结果。

定性比较。我们将背景区域用绿色矩形框标记，前景区域用红色矩形框标记。我们还展示了它们的放大效果，以便更容易比较。如图 5 所示，我们可以发现，与最先进的方法相比，所提出的方法最好地保留了多模态图像的局部和全局的纹理细节，同时动态突出了局部的对比度信息。具体来说，对于背景区域，我们的融合结果在斑马线的边缘纹理上显示出最清晰的效果。对于前景区域，我们的融合结果保留了行人和骑自行车者最显著的对比度和最丰富的纹理细节。定性比较表明，MoE-Fusion 可以通过动态专家平衡纹理细节和对比度。

4.5. 消融研究

我们在 M3FD、LLVIP 和 FLIR 数据集上进行了消融研究，并在表 2 中报告了结果。MoLE。为了验证 MoLE 的有效性，我们从 MoE-Fusion 中移除了 MoLE，然后仅通过两个编码器提取多模态特征，并将它们连接后发送到 MoGE。如表 2 所示，所有指标在移除 MoLE 后都显著下降，表明 MoLE 在学习多模态纹理细节和对比度信息方面非常有效。其中，SCD 的下降也表明没有 MoLE，很难充分学习多模态局部互补信息，这强烈支持我们设计 MoLE 的动机。MoLE 的局部动态专家根据不同模态的辅助检测器自适应地增强主导局部（前景和背景）信息，专门用于局部区域。MoGE。我们用与 MoGE 中的单个专家具有相同结构的公共解码器替换了 MoGE。如表 2 所示，所有指标都显著下降，这强烈验证了 MoGE 可以帮助融合图像保留更多的对比度和纹理细节信息。此外，这些结果还表明 MoGE 可以有效地激励图像融合网络动态适应不同的样本，学习更好的特征表示，从而实现更好的融合性能。MoGE 的全局动态专家从全局视角进一步增强主导模态，同时细化可能发生在局部融合中的潜在错误。基于注意力的局部特征。我们想探索当不为局部特征执行动态学习，而只使用由注意力图构建的局部特征先验作为局部特征时，融合性能如何变化。我们设计了一个基于注意力的局部特征学习模块（Att-Local），为了保持输出通道的一致性，我们在 Att-Local 模块后面加上了一个 1×1 的卷积层。在表 2 中，所有指标都不能超过使用 Att-Local 的 MoE-Fusion 的结果，但大多数都高于没有 MoLE 的结果，这表明一方面我们提出的 MoLE 确实有效，另一方面从各自的模态动态整合有效信息有利于提高多模态图像融合的性能。

4.6. 分析和讨论

MoLE 的可视化。在 MoLE 中，我们可以根据注意力图 Att 获得局部特征先验，我们定义为前景局部特征（FG），我们还使用 1-Att 获得背景局部特征（BG）。我们可视化了 MoLE 中每个专家学到的内容。如图 6 所示，我们可以看到四个前景局部专家可以清晰地学习前景信息，而四个背景局部专家也可以学习丰富的背景特征。这些结果表明 MoLE 可以成功地让每个专家知道它应该专长于什么。

检测评估。好的融合图像在下游任务中应该有更好的性能。对于不同的图像融合方法，我们对目标检测任务进行了评估，并使用平均精度均值（mAP）[5] 作为指标。按照 [51]，我们首先使用红外图像和可见光图像训练目标检测模型，然后将不同图像融合方法生成的融合图像输入目标检测模型进行推理，并评估它们的检测性能。在本文中，我们使用 Faster R-CNN[29] 作为目标检测算法，并将评估的 IoU（Intersection over Union）阈值设置为 0.5。根据表 3，我们的 MoE-Fusion 超越了所有比较的方法，并实现了最高的 mAP。值得注意的是，我们的方法在所有类别上都有压倒性的优势，这表明所提出的动态图像融合方法对下游任务更有利。其他数据集上的检测评估提供在补充材料中。

专家数量。在图 7 中，我们在 FLIR 数据集上进行了 4 组实验，E2k2、E4K2、E6K2 和 E8K2，以探索专家数量对融合结果的影响。例如，E4K2 意味着 MoE 包含 4 个专家，并稀疏选择顶部 2 个专家进行集成。我们发现 E4K2 在 7 个指标上高于 E2K2，在 6 个指标上高于 E6K2，在 5 个指标上高于 E8K2，表明更多的专家可能并不更好。此外，我们还设置了 3 组实验，E4K1、E4K3 和 E4K4，以验证 MoE 中专家的稀疏选择对融合结果的影响。在图 7 中，我们发现 E4K2 可以在 7 个指标上超越 E4K1 和 E4K3，在所有指标上超越 E4K4。因此，在这项工作中，我们为每个 MoE 设置 4 个专家，并稀疏选择 2 个专家进行集成。

超参数。如图 8 所示，我们为调整参数 $α$ 选择了五个值（1, 5, 10, 20 和 40），并轮流实验它们。当 $α$ 小于 10 时，融合结果无法在所有指标上超越 $α$ 等于 10 时的性能。当 $α$ 大于 10 时，只有 2 个指标（SF 和 AG）与 $α$ 等于 10 相比有所提高，但其他 6 个指标都有所下降。因此，在这项工作中，我们将 $α$ 设置为 10 以获得更好的结果。

5. 结论

在本文中，我们提出了一个新颖的动态图像融合框架，该框架具有多模态门控的从局部到全局专家的混合（MoE-Fusion），可以产生可靠的红外 - 可见光图像融合结果。我们的框架专注于通过执行样本自适应的红外 - 可见光融合从局部到全局来动态整合来自不同源模态的有效信息。MoE-Fusion 模型通过专门的局部专家和全局专家动态平衡纹理细节和对比度。三个挑战性数据集上的实验结果表明，所提出的 MoE-Fusion 在视觉效果和定量指标方面超越了最先进的方法。此外，我们还验证了我们的 MoE-Fusion 在目标检测任务中的优越性。在未来的工作中，我们将探索利用不同图像的不确定性来指导融合，并研究开发用于动态图像融合的不确定性门控 MoE 范式。

致谢

本工作部分得到了中国国家重点研发计划 2022ZD0116500 的支持，部分得到了中国国家自然科学基金 62222608、62106171 和 61925602 的资助，部分得到了海河实验室 ITAI 22HHHXCJC00002 的资助，部分得到了天津市自然科学基金 21JCYBJC00580 的资助。

#MoE

上次更新: 2025/06/25, 11:25:50

← MoE 知识蒸馏 Switch Transformers→