低秩近似之路一伪逆
低秩近似之路(一):伪逆
Author: [苏剑林]
Link: [https://zhuanlan.zhihu.com/p/790279779]
最佳排版请看原博客:
低秩近似之路(一):伪逆 - 科学空间|Scientific Spaces (opens new window)可能很多读者跟笔者一样,对矩阵的低秩近似有种熟悉而又陌生的感觉。熟悉是因为,低秩近似的概念和意义都不难理解,加之目前诸如LoRA等基于低秩近似的微调技术遍地开花,让低秩近似的概念在耳濡目染间就已经深入人心;然而,低秩近似所覆盖的内容非常广,在低秩近似相关的论文中时常能看到一些不熟悉但又让我们叹为观止的新技巧,这就导致了一种似懂非懂的陌生感。
因此,在这个系列文章中,笔者将试图系统梳理一下矩阵低秩近似相关的理论内容,以补全对低秩近似的了解。而在第一篇文章中,我们主要介绍低秩近似系列中相对简单的一个概念——伪逆。
优化视角
伪逆(Pseudo Inverse),也称“广义逆(Generalized Inverse)”,顾名思义就是“广义的逆矩阵”,它实际上是“逆矩阵”的概念对于不可逆矩阵的推广。
我们知道,对于矩阵方程
其中
说白了,就是从求精确的逆矩阵改为最小化
当
它的作用类似于
范数相关
在进一步推导之前,我们先补充一下
而
矩阵的范数稍微复杂一些,它至少有两种不同但都常用的范数,其中一种就是上一节已经提到的
其他矩阵范数我们遇到时再作介绍。由于矩阵范数的多样性,所以
这称为矩阵
这可以直接由矩阵乘法和迹的定义来证明(请读者尝试一下)。当
矩阵求导
言归正传,对于一个优化目标,最理想的结果自然是能够通过求导来求出解析解,而
要求
根据定义
类似地,只有当
如果我们约定,标量对矩阵的梯度形状跟矩阵本身一致,那么可以写出
虽然推导过程破费周折,但好在结果还是很直观的:直觉上
基本结果
现在我们已经分别求出了
如果
1、
,即伪逆的伪逆等于自身,这意味着伪逆在作为近似逆矩阵的同时,保全了自身的信息;
2、,即 然没法成为单位阵 ,但对 说它们起到了单位阵的作用。
顺便说一下,矩阵的伪逆实际上是一个很宽泛的概念,它有很多种不同的形式,这里我们介绍的实际上是最常见的“https://en.wikipedia.org/wiki/Moore–Penrose_inverse (opens new window)”,除此之外还有“Drazin逆”、“Bott–Duffin逆”等,但这些笔者也不了解,所以就不作展开,读者可以自行参考维基百科的“https://en.wikipedia.org/wiki/Generalized_inverse (opens new window)”条目。
一般形式
不过,事情还没完。式
我们以
如果
由于已经假设了
一个可能的思路是补充
这里
当
式
数值计算
当然,目前的式
其中
对于
如果
换句话说,如果
其中
可能有读者疑问,既然“0乘任何数都得0”,那么为什么等于零的
文章小结
在这篇文章中,我们从低秩近似的角度介绍了伪逆,这是逆矩阵概念对于非方阵或不可逆方阵的扩展,使我们可以更有效地分析和求解一般的矩阵方程。