低秩近似之路三CR

低秩近似之路（三）：CR

Author: [苏剑林]

Link: [https://zhuanlan.zhihu.com/p/3977810830]

最佳排版请看原博客：

低秩近似之路（三）：CR - 科学空间|Scientific Spaces (opens new window)在https://kexue.fm/archives/10407 (opens new window)中，我们证明了SVD可以给出任意矩阵的最优低秩近似。那里的最优近似是无约束的，也就是说SVD给出的结果只管误差上的最小，不在乎矩阵的具体结构，而在很多应用场景中，出于可解释性或者非线性处理等需求，我们往往希望得到具有某些特殊结构的近似分解。

因此，从这篇文章开始，我们将探究一些具有特定结构的低秩近似，而本文将聚焦于其中的CR近似（Column-Row Approximation），它提供了加速矩阵乘法运算的一种简单方案。

问题背景

矩阵的最优 $r$ 近似的一般提法是

${argmin}_{rank (\tilde{M}) \leq r} ‖ \tilde{M} - M ‖_{F}^{2}$ 其中 $M, \tilde{M} \in R^{n \times m}, r < min (n, m)$ 。在前两篇文章中，我们已经讨论了两种情况：

1、如果 $\tilde{M}$ 再有其他约束，那么 $\tilde{M}$ 最优解就是 $U_{[:, : r]} Σ_{[: r, : r]} V_{[:, : r]}^{⊤}$ ，其中 $M = U Σ V^{⊤}$ $M$ 奇异值分解（SVD）；

2、如果约定 $\tilde{M} = A B$ （ $A \in R^{n \times r}, B \in R^{r \times m}$ ），且 $A$ （或 $B$ ）已经给定，那么 $\tilde{M}$ 最优解是 $A A^{†} M$ （或 $M B^{†} B$ ），这里的 $^{†}$ “https://kexue.fm/archives/10366 (opens new window)”。

这两个结果都有很广泛的应用，但它们都没有显式地引入 $\tilde{M}$ $M$ 构上的关联，这就导致了很难直观地看到 $\tilde{M}$ $M$ 关联，换言之 $\tilde{M}$ 可解释性不强。此外，如果目标中包含非线性运算如 $ϕ (X W)$ ，通常也不允许我们使用任意实投影矩阵来降维，而是要求使用“选择矩阵（Selective Matrix）”，比如 $ϕ (X W) S = ϕ (X W S)$ 于任意矩阵 $S$ 是恒成立的，但对于选择矩阵 $S$ 恒成立的。所以，接下来我们关注选择矩阵约束下的低秩近似。具体来说，我们有 $X \in R^{n \times l}, Y \in R^{l \times m}$ ，然后选定 $M = X Y$ ，我们的任务是从 $X$ 选出 $r$ 、从 $Y$ 选出相应的 $r$ 来构建 $\tilde{M}$ ，即 ${argmin}_{S} ‖ \underset{C}{\underset{⏟}{X_{[:, S]}}} \underset{R}{\underset{⏟}{Y_{[S, :]}}} - X Y ‖_{F}^{2} s.t. S \subset {0, 1, \dots, l - 1}, | S | = r$

这里的 $S$ 以理解为slice，即按照Python的切片规则来理解，我们称 $X_{[:, S]} Y_{[S, :]}$ $X Y$ “CR近似”。注意这种切片结果也可以用选择矩阵来等价描述，假设 $X_{[:, S]}$ 第 $1, 2, \dots, r$ 分别为 $X$ 第 $s_{1}, s_{2}, \dots, s_{r}$ ，那么可以定义选择矩阵 $S \in {0, 1}^{l \times r}$ ：

$S_{i, j} = {\begin{aligned} 1, & i = s_{j} \\ 0, & i \neq s_{j} \end{aligned}$

即 $S$ 第 $j$ 的第 $s_{j}$ 元素为1，其余都为0，这样一来就有 $X_{[:, S]} = X S$ 及 $Y_{[S, :]} = S^{⊤} Y$ 。

初步近似

如果我们将 $X, Y$ 别表示成

$X = (x_{1}, x_{2}, \dots, x_{l}), Y = (\begin{matrix} y_{1}^{⊤} \\ y_{2}^{⊤} \\ ⋮ \\ y_{l}^{⊤} \end{matrix})$

其中 $x_{i} \in R^{n \times 1}, y_{i} \in R^{m \times 1}$ 是列向量，那么 $X Y$ 以写成

$X Y = \sum_{i = 1}^{l} x_{i} y_{i}^{⊤}$

而找 $X Y$ 最优CR近似则可以等价地写成

${argmin}_{λ_{1}, λ_{2}, \dots, λ_{l} \in {0, 1}} {‖ \sum_{i = 1}^{l} λ_{i} x_{i} y_{i}^{⊤} - \sum_{i = 1}^{l} x_{i} y_{i}^{⊤} ‖}_{F}^{2} s.t. \sum_{i = 1}^{l} λ_{i} = r$

我们知道，矩阵的 $F$ 数实际上就是将矩阵展平成向量来算模长，所以这个优化问题本质上就相当于给定 $l$ 向量 $v_{1}, v_{2}, \dots, v_{l} \in R^{d}$ ，求

${argmin}_{λ_{1}, λ_{2}, \dots, λ_{l} \in {0, 1}} {‖ \sum_{i = 1}^{l} λ_{i} v_{i} - \sum_{i = 1}^{l} v_{i} ‖}^{2} s.t. \sum_{i = 1}^{l} λ_{i} = r$

其中 $v_{i} = vec (x_{i} y_{i}^{⊤})$ ， $d = n m$ 。记 $γ_{i} = 1 - λ_{i}$ ，那么可以进一步简化成

${argmin}_{γ_{1}, γ_{2}, \dots, γ_{l} \in {0, 1}} {‖ \sum_{i = 1}^{l} γ_{i} v_{i} ‖}^{2} s.t. \sum_{i = 1}^{l} γ_{i} = l - r$

如果笔者没有理解错，这个优化问题的精确求解是NP-Hard的，所以一般情况下只能寻求近似算法。一个可精确求解的简单例子是 $v_{1}, v_{2}, \dots, v_{l}$ 两垂直，此时

${‖ \sum_{i = 1}^{l} γ_{i} v_{i} ‖}^{2} = \sum_{i = 1}^{l} γ_{i}^{2} ‖ v_{i} ‖^{2}$

所以它的最小值就是最小的 $l - r$ $‖ v_{i} ‖^{2}$ 和，即让模长最小的 $l - r$ $v_{i}$ $γ_{i}$ 于1，剩下的 $γ_{i}$ 等于0。当两两正交的条件不严格成立时，我们依然可以将选择模长最小的 $l - r$ $v_{i}$ 为一个近似解。回到原始的CR近似问题上，我们有 $‖ x_{i} y_{i}^{⊤} ‖_{F} = ‖ x_{i} ‖ ‖ y_{i} ‖$ ，所以 $X Y$ 最优CR近似的一个baseline，就是保留 $X$ 列向量与 $Y$ 应的行向量模长乘积最大的 $r$ 列/行向量。

采样视角

有一些场景允许我们将式 $(???)$ 宽为

${argmin}_{λ_{1}, λ_{2}, \dots, λ_{l} \in R} {‖ \sum_{i = 1}^{l} λ_{i} x_{i} y_{i}^{⊤} - \sum_{i = 1}^{l} x_{i} y_{i}^{⊤} ‖}_{F}^{2} s.t. \sum_{i = 1}^{l} # [λ_{i} \neq 0] = r$

其中 $# [λ_{i} \neq 0]$ 示 $λ_{i} \neq 0$ 输出1，否则输出0。这个宽松版本其实就是将CR近似的形式从 $C R$ 展成 $C Λ R$ ，其中 $Λ \in R^{r \times r}$ 对角阵，即允许我们调整对角阵 $Λ \in R^{r \times r}$ 达到更高的精度。相应地，式 $(???)$ 为

${argmin}_{λ_{1}, λ_{2}, \dots, λ_{l} \in R} {‖ \sum_{i = 1}^{l} λ_{i} v_{i} - \sum_{i = 1}^{l} v_{i} ‖}^{2} s.t. \sum_{i = 1}^{l} # [λ_{i} \neq 0] = r$

这样放宽之后，我们可以从采样视角来看待这个问题。首先我们引入任意 $l$ 分布 $p = (p_{1}, p_{2}, \dots, p_{l})$ ，然后我们就可以写出

$\sum_{i = 1}^{l} v_{i} = \sum_{i = 1}^{l} p_{i} \times \frac{v_{i}}{p_{i}} = E_{i \sim p} [\frac{v_{i}}{p_{i}}]$

也就是说， $v_{i} / p_{i}$ 数学期望正好是我们要逼近的目标，所以我们可以通过从 $p$ 布独立重复采样来构建近似：

$\sum_{i = 1}^{l} v_{i} = E_{i \sim p} [\frac{v_{i}}{p_{i}}] \approx \frac{1}{r} \sum_{j = 1}^{r} \frac{v_{s_{j}}}{p_{s_{j}}}, s_{1}, s_{2}, \dots, s_{r} \sim p$

这意味着当 $i$ $s_{1}, s_{2}, \dots, s_{r}$ 一时有 $λ_{i} = (r p_{i})^{- 1}$ ，否则 $λ_{i} = 0$ 。可能有读者疑问为什么要独立重复采样，而不是更符合逼近需求的不放回采样呢？无他，纯粹是因为独立重复采样使得后面的分析更简单。

到目前为止，我们的理论结果跟分布 $p$ 选择无关，也就是说对于任意 $p$ 是成立的，这给我们提供了选择最优 $p$ 可能性。那如何衡量 $p$ 优劣呢？很显然我们希望每次采样估计的误差越小越好，因此可以用采样估计的误差

$E_{i \sim p} [{‖ \frac{v_{i}}{p_{i}} - \sum_{i = 1}^{l} v_{i} ‖}^{2}] = (\sum_{i = 1}^{l} \frac{‖ v_{i} ‖^{2}}{p_{i}}) - {‖ \sum_{i = 1}^{l} v_{i} ‖}^{2}$

来比较不同的 $p$ 间的优劣。接着利用均值不等式有

$\sum_{i = 1}^{l} \frac{‖ v_{i} ‖^{2}}{p_{i}} = (\sum_{i = 1}^{l} \frac{‖ v_{i} ‖^{2}}{p_{i}} + p_{i} Z^{2}) - Z^{2} \geq (\sum_{i = 1}^{l} 2 ‖ v_{i} ‖ Z) - Z^{2}$

等号在 $‖ v_{i} ‖^{2} / p_{i} = p_{i} Z^{2}$ 取到，由此可得最优的 $p$

$p_{i}^{*} = \frac{‖ v_{i} ‖}{Z}, Z = \sum_{i = 1}^{l} ‖ v_{i} ‖$

对应的误差为

$E_{i \sim p} [{‖ \frac{v_{i}}{p_{i}} - \sum_{i = 1}^{l} v_{i} ‖}^{2}] = {(\sum_{i = 1}^{l} ‖ v_{i} ‖)}^{2} - {‖ \sum_{i = 1}^{l} v_{i} ‖}^{2}$

最优的 $p_{i}$ 好正比于 $‖ v_{i} ‖$ ，所以概率最大的 $r$ $v_{i}$ 正是模长最大的 $r$ $v_{i}$ ，这就跟上一节的近似联系起来了。该结果出自2006年的论文https://www.stat.berkeley.edu/~mmahoney/pubs/matrix1_SICOMP.pdf (opens new window)，初衷是加速矩阵乘法，它表明只要按照 $p_{i} \propto ‖ x_{i} y_{i}^{⊤} ‖_{F} = ‖ x_{i} ‖ ‖ y_{i} ‖$ 采样 $X, Y$ 应的列/行，并乘以 $(r p_{i})^{- 1 / 2}$ ，就可以得到 $X Y$ 一个CR近似，从而将乘法复杂度从 $O (l m n)$ 低到 $O (r m n)$ 。

延伸讨论

不管是按模长排序还是按 $p_{i} \propto ‖ v_{i} ‖$ 机采样，它们都允许我们在线性复杂度【即 $O (l)$ 】内构建一个CR近似，这对于实时计算来说当然是很理想的，但由于排序或采样都只依赖于 $‖ v_{i} ‖$ ，所以精度只能说一般。如果我们可以接受更高的复杂度，那么如何提高CR近似的精度呢？

我们可以尝试将排序的单位改为 $k$ 组。简单起见，假设 $k \leq l - r$ $l - r$ 一个因数， $l$ 向量 $v_{1}, v_{2}, \dots, v_{l}$ $k$ 的组合数为 $C_{l}^{k}$ ，对于每个组合 ${s_{1}, s_{2}, \dots, s_{k}}$ 们都可以算出向量和的模长 $‖ v_{s_{1}} + v_{s_{2}} + \dots + v_{s_{k}} ‖$ 。有了这些数据，我们就可以贪婪地构建 $(???)$ 近似解：

初始化 $Ω = {1, 2, \dots, l}, Θ = {}$

对于 $t = 1, 2, \dots, (l - r) / k$ ，执行：

$Θ = Θ \cup \underset{{s_{1}, s_{2}, \dots, s_{k}} \subset Ω}{argmin} ‖ v_{s_{1}} + v_{s_{2}} + \dots + v_{s_{k}} ‖$ ；

$Ω = Ω ∖ Θ$ ；

返回 $Θ$ 。

说白了，就是每次都从剩下的向量中挑选和模长最小的 $k$ 向量，重复挑选 $(l - r) / k$ 即得到 $l - r$ 向量，它是按照单个向量模长来排序的自然推广，其复杂度为 $O (C_{l}^{k})$ ，当 $k > 1$ $l$ 较大时可能难以承受，这也侧面体现了原问题精确求解的复杂性。

另一个值得思考的问题是如果允许CR近似放宽为 $C Λ R$ ，那么 $Λ$ 最优解是什么呢？如果不限定 $Λ$ 结构，那么答案可以由伪逆给出

$Λ^{*} = {argmin}_{Λ} ‖ C Λ R - X Y ‖_{F}^{2} = C^{†} X Y R^{†}$

如果 $Λ$ 须是对角阵呢？那可以先将问题重述为给定 ${u_{1}, u_{2}, \dots, u_{r}} \subset {v_{1}, v_{2}, \dots, v_{l}}$ ，求

${argmin}_{λ_{1}, λ_{2}, \dots, λ_{r}} {‖ \sum_{i = 1}^{r} λ_{i} u_{i} - \sum_{i = 1}^{l} v_{i} ‖}^{2}$

我们记 $U = (u_{1}, u_{2}, \dots, u_{r}), V = (v_{1}, v_{2}, \dots, v_{l}), λ = (λ_{1}, λ_{2}, \dots, λ_{r})^{⊤}$ ，那么优化目标可以写成

${argmin}_{λ} {‖ U λ - V 1_{l \times 1} ‖}^{2}$

这同样可以通过伪逆写出最优解

$λ^{*} = U^{†} V 1_{l \times 1} = (U^{⊤} U)^{- 1} U^{⊤} V 1_{l \times 1}$

最后一个等号假设了 $U^{⊤} U$ 逆，这通常能满足，如果不满足的话 $(U^{⊤} U)^{- 1}$ $(U^{⊤} U)^{†}$ 行。

现在的问题是直接套用上式的话对原始问题来说计算量太大，因为 $v_{i} = vec (x_{i} y_{i}^{⊤})$ ，即 $v_{i}$ $m n$ 向量，所以 $V$ 小为 $m n \times l$ 、 $U$ 小为 $m n \times r$ ，这在 $m, n$ 大时比较难受。利用 $v_{i} = vec (x_{i} y_{i}^{⊤})$ 帮我们进一步化简上式。不妨设 $u_{i} = vec (c_{i} r_{i}^{⊤})$ ，那么

$\begin{aligned} (U^{⊤} V)_{i, j} = & ⟨ c_{i} r_{i}^{⊤}, x_{j} y_{j}^{⊤} ⟩_{F} = Tr (r_{i} c_{i}^{⊤} x_{j} y_{j}^{⊤}) = (c_{i}^{⊤} x_{j}) (r_{i}^{⊤} y_{j}) \\ = & [(C^{⊤} X) \otimes (R Y^{⊤})]_{i, j} \end{aligned}$

即 $U^{⊤} V = (C^{⊤} X) \otimes (R Y^{⊤}), U^{⊤} U = (C^{⊤} C) \otimes (R R^{⊤})$ ，这里的 $\otimes$ https://en.wikipedia.org/wiki/Hadamard_product_(matrices) (opens new window)，这样恒等变换之后 $U^{⊤} V$ $U^{⊤} U$ 计算量就降低了。

文章小结

本文介绍了矩阵乘法的CR近似，这是一种具有特定行列结构的低秩近似，相比由SVD给出的最优低秩近似，CR近似具有更直观的物理意义以及更好的可解释性。

#矩阵

上次更新: 2025/06/25, 11:25:50

← 低秩近似之路二SVD 低秩近似之路四ID→