最优传输之梯度流
梯度流
欧式空间
如果我们想要求解
其中
则(3.2)式称为梯度流。将(3.2)写成逆向Euler形式(ODE前向和逆向是相等的),有: $$\begin{array}{c} x_{t+1}=x_t-\alpha\nabla_{x_{t+1}} f(x_{t+1})\ \end{array}\tag{3.3}$$
那么 $$\nabla_{x} \left(\frac{|x-x_t|^2}{2\alpha}+ f(x)\right)\bigg|{x=x{t+1}} =0\tag{3.4}$$
而(3.4)式可以解释为
的最优值。即: $$x_{t+1}=\operatorname*{argmin}_{x}\left{\frac{|x-x_t|^2}{2\alpha}+f(x)\right}\tag{3.6}$$
这告诉我们,梯度下降法每一步的优化,相当于在给定以之前参数
其中,
概率空间
更一般的,我们还可以推广到概率空间中在某个概率度量下对泛函优化的梯度流,即把
求解右边的泛函的极值,需要用到变分导数和Euler-Lagrange方程的概念,这里简单介绍一下:
假设
在 和 处为定点,考虑如下形式的泛函: $$I=\int_a^bf(y,y')dx\tag{3.9}$$
我们的目的是找到某个使得这个积分最大,假设 有微小的改变 ,将 叫做 的变分,那么 的变分为: $$\delta f=\frac{\partial f}{\partial y}\delta y + \frac{\partial f}{\partial y'}\delta y' \tag{3.10}$$
严格的证明(3.10)需要用到变分关于测试函数的定义和线性的性质,但它与微分的运算性质相近,很容易推广和理解,所以为了简便就不详细展开了。那么的变分为: $$\delta I=\int_a^b \left(\frac{\partial f}{\partial y}\delta y + \frac{\partial f}{\partial y'}\delta y'\right)dx \tag{3.11}$$
对于积分里第二项: $$\begin{align} \int_a^b \frac{\partial f}{\partial y'}\delta y' dx&=\int_a^b \frac{\partial f}{\partial y'}\delta \left(\frac{dy}{dx}\right) dx\ &=\int_a^b \frac{\partial f}{\partial y'} \frac{d(\delta y)}{dx} dx & \text{变分与微分互换顺序}\ &=\frac{\partial f}{\partial y'}\delta y\bigg|_a^b-\int_a^b \frac{d}{dx}\left(\frac{\partial f}{\partial y'} \right)\delta y & \text{分部积分}\ &=-\int_a^b \frac{d}{dx}\left(\frac{\partial f}{\partial y'} \right)\delta y & \text{端点为定点} \end{align}\tag{3.12}$$
带入(3.11)有: $$\delta I=\int_a^b \left[\frac{\partial f}{\partial y} -\frac{d}{dx}\left(\frac{\partial f}{\partial y'} \right)\right]\delta ydx \tag{3.13}$$
因此,如果有极值,那么 ,则: $$\frac{\partial f}{\partial y} -\frac{d}{dx}\left(\frac{\partial f}{\partial y'} \right)=0\tag{3.14}$$
(3.14)就叫做Euler-Lagrange方程,是变分法里面最重要的方程之一。并且因为(3.14)的解与的极值能对应上,所以从某种程度上可以把 的变分导数看做是(3.14)的左边,记作: $$\frac{\delta I}{\delta y} = \frac{\partial f}{\partial y} -\frac{d}{dx}\left(\frac{\partial f}{\partial y'} \right)\tag{3.15}$$
可以发现,对变分的导数只需要对积分里面的函数做运算即可,不用考虑积分号。
为了求解(3.8)这样的泛函,我们同样可以对其求导应用Euler-Lagrange方程: $$\frac{1}{2\alpha}\frac{\delta W_2^2(p,p_t)}{\delta p}+\frac{\delta \mathcal{F}(p)}{\delta p}=0\tag{3.16}$$
根据之前提到的W距离的对偶形式,有: $$\begin{align} W_2^2(p,p_t)&=\max_{f} \left{\int [p(x)f(x) -p_t(x)f(x)] dx \mid f(x) - f(y) \leq |x-y|^2\right}\ &= \int [p(x)f^(x) -p_t(x)f^(x)] dx \end{align} \tag{3.17}$$
假设
为了继续化简,需要引入Monge和Kantorovich问题的概念。事实上,之前介绍的推土机距离问题(1.8)为Kantorovich问题,而如果要求从
在OT的研究中,这样的操作也称为c-transform。对于新解
关于对最优化求导,主要应用了信封定理(Envelope Theorem),这里简单介绍一下:如果我们需要优化
,假设最优值为 ,那么 ,由于 是最优值,那么关于它的偏导应该为0(假设 是连续的),那么 。也就是说对于优化问题 ,只需要考虑 的偏导即可。
(3.21)式揭示了Monge和Kantorovich问题最优解之间的联系,其中更一般的第二个等号:
回到(3.18)式,两边同时对
应用(3.21)进行代换并整理: $$\frac{T^(x)-x}{\alpha}=\nabla_x\frac{\delta \mathcal{F}(p)}{\delta p}\tag{3.23}$$
类似(3.1),当
那么(3.24)的FP方程为: $$\frac{\partial}{\partial t}p_t=\nabla_x\cdot\left[p_t\nabla_x\frac{\delta \mathcal{F}(p_t)}{\delta p_t}\right]\tag{3.25}$$
(3.25)就为(3.8)式的解,也叫作概率空间中在W-2度量下对泛函
举个例子,如果要求KL散度在W-2度量下的梯度流,则令
(3.27)刚好就是: $$dx=\nabla_x\log q(x)dt+\sqrt{2}dw\tag{3.28}$$
对应的FP方程,也就是说如果能知道