对角化和$A$的幂

对角化矩阵

上一讲我们提到关键方程 $A x = λ x$ ，通过 $det (A - λ I) = 0$ 得到特征向量 $λ$ ，再带回关键方程算出特征向量 $x$ 。

在得到特征值与特征向量后，该如何使用它们？我们可以利用特征向量来对角化给定矩阵。

有矩阵 $A$ ，它的特征向量为 $x_{1}, x_{2}, \dots, x_{n}$ ，使用特征向量作为列向量组成一个矩阵 $S = [x_{1} x_{2} \dots x_{n}]$ ，即特征向量矩阵，再使用公式$$S^{-1}AS=\Lambda\tag{1}$$将 $A$ 对角化。注意到公式中有 $S^{- 1}$ ，也就是说特征向量矩阵 $S$ 必须是可逆的，于是我们需要 $n$ 个线性无关的特征向量。

现在，假设 $A$ 有 $n$ 个线性无关的特征向量，将它们按列组成特征向量矩阵 $S$ ，则 $A S = A [x_{1} x_{2} \dots x_{n}]$ ，当我们分开做矩阵与每一列相乘的运算时，易看出 $A x_{1}$ 就是矩阵与自己的特征向量相乘，其结果应该等于 $λ_{1} x_{1}$ 。那么 $A S = [(λ_{1} x_{1}) (λ_{2} x_{2}) \dots (λ_{n} x_{n})]$ 。可以进一步化简原式，使用右乘向量按列操作矩阵的方法，将特征值从矩阵中提出来，得到 $[x_{1} x_{2} \dots x_{n}] [\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{n} \end{matrix}] = S Λ$ 。

于是我们看到，从 $A S$ 出发，得到了 $S Λ$ ，特征向量矩阵又一次出现了，后面接着的是一个对角矩阵，即特征值矩阵。这样，再继续左乘 $S^{- 1}$ 就得到了公式 $(1)$ 。当然，所以运算的前提条件是特征向量矩阵 $S$ 可逆，即矩阵 $A$ 有 $n$ 个线性无关的特征向量。这个式子还要另一种写法， $A = S Λ S^{- 1}$ 。

我们来看如何应用这个公式，比如说要计算 $A^{2}$ 。

先从 $A x = λ x$ 开始，如果两边同乘以 $A$ ，有 $A^{2} x = λ A x = λ^{2} x$ ，于是得出结论，对于矩阵 $A^{2}$ ，其特征值也会取平方，而特征向量不变。
再从 $A = S Λ S^{- 1}$ 开始推导，则有 $A^{2} = S Λ S^{- 1} S Λ S^{- 1} = S Λ^{2} S^{- 1}$ 。同样得到特征值取平方，特征向量不变。

两种方法描述的是同一个现象，即对于矩阵幂运算 $A^{2}$ ，其特征向量不变，而特征值做同样的幂运算。对角矩阵 $Λ^{2} = [\begin{matrix} λ_{1}^{2} & 0 & \dots & 0 \\ 0 & λ_{2}^{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{n}^{2} \end{matrix}]$ 。

特征值和特征向量给我们了一个深入理解矩阵幂运算的方法， $A^{k} = S Λ^{k} S^{- 1}$ 。

再来看一个矩阵幂运算的应用：如果 $k \to \infty$ ，则 $A^{k} \to 0$ （趋于稳定）的条件是什么？从 $S Λ^{k} S^{- 1}$ 易得， $| λ_{i} | < 1$ 。再次强调，所有运算的前提是矩阵 $A$ 存在 $n$ 个线性无关的特征向量。如果没有 $n$ 个线性无关的特征向量，则矩阵就不能对角化。

关于矩阵可对角化的条件：

如果一个矩阵有 $n$ 个互不相同的特征值（即没有重复的特征值），则该矩阵具有 $n$ 个线性无关的特征向量，因此该矩阵可对角化。
如果一个矩阵的特征值存在重复值，则该矩阵可能具有 $n$ 个线性无关的特征向量。比如取 $10$ 阶单位矩阵， $I_{10}$ 具有 $10$ 个相同的特征值 $1$ ，但是单位矩阵的特征向量并不短缺，每个向量都可以作为单位矩阵的特征向量，我们很容易得到 $10$ 个线性无关的特征向量。当然这里例子中的 $I_{10}$ 的本来就是对角矩阵，它的特征值直接写在矩阵中，即对角线元素。

同样的，如果是三角矩阵，特征值也写在对角线上，但是这种情况我们可能会遇到麻烦。矩阵 $A = [\begin{matrix} 2 & 1 \\ 0 & 2 \end{matrix}]$ ，计算行列式值 $det (A - λ I) = | \begin{matrix} 2 - λ & 1 \\ 0 & 2 - λ \end{matrix} | = (2 - λ)^{2} = 0$ ，所以特征值为 $λ_{1} = λ_{2} = 2$ ，带回 $A x = λ x$ 得到计算 $[\begin{matrix} 0 & 1 \\ 0 & 0 \end{matrix}]$ 的零空间，我们发现 $x_{1} = x_{2} = [\begin{matrix} 1 \\ 0 \end{matrix}]$ ，代数重度（algebraic multiplicity，计算特征值重复次数时，就用代数重度，就是它作为多项式根的次数，这里的多项式就是 $(2 - λ)^{2}$ ）为 $2$ ，这个矩阵无法对角化。这就是上一讲的退化矩阵。

我们不打算深入研究有重复特征值的情形。

求 $u_{k + 1} = A u_{k}$

从 $u_{1} = A u_{0}$ 开始， $u_{2} = A^{2} u_{0}$ ，所有 $u_{k} = A^{k} u_{0}$ 。下一讲涉及微分方程（differential equation），会有求导的内容，本讲先引入简单的差分方程（difference equation）。本例是一个一阶差分方程组（first order system）。

要解此方程，需要将 $u_{0}$ 展开为矩阵 $A$ 特征向量的线性组合，即 $u_{0} = c_{1} x_{1} + c_{2} x_{2} + \dots + c_{n} x_{n} = [x_{1} x_{2} \dots x_{n}] [\begin{matrix} c_{1} \\ c_{2} \\ ⋮ \\ c_{n} \end{matrix}] = S c$ 。于是 $A u_{0} = c_{1} A x_{1} + c_{2} A x_{2} + \dots + c_{n} A x_{n} = c_{1} λ_{1} x_{1} + c_{2} λ_{2} x_{2} + \dots + c_{n} λ_{n} x_{n}$ 。继续化简原式， $A u_{0} = [x_{1} x_{2} \dots x_{n}] [\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{n} \end{matrix}] [\begin{matrix} c_{1} \\ c_{2} \\ ⋮ \\ c_{n} \end{matrix}] = S Λ c$ 。用矩阵的方式同样可以得到该式： $A u_{0} = S Λ S^{- 1} u_{0} = S Λ S^{- 1} S c = S Λ c$ 。

那么如果我们要求 $A^{100} u_{0}$ ，则只需要将 $λ$ 变为 $λ^{100}$ ，而系数 $c$ 与特征向量 $x$ 均不变。

当我们真的要计算 $A^{100} u_{0}$ 时，就可以使用 $S Λ^{100} c = c_{1} λ_{1}^{100} x_{1} + c_{2} λ_{2}^{100} x_{2} + \dots + c_{n} λ_{n}^{100} x_{n}$ 。

接下来看一个斐波那契数列（Fibonacci sequence）的例子：

$0, 1, 1, 2, 3, 5, 8, 13, \dots, F_{100} = ?$ ，我们要求第一百项的公式，并观察这个数列是如何增长的。可以想象这个数列并不是稳定数列，因此无论如何该矩阵的特征值并不都小于一，这样才能保持增长。而他的增长速度，则有特征值来决定。

已知 $F_{k + 2} = F_{k_{1}} + F_{k}$ ，但这不是 $u_{k + 1} = A u_{k}$ 的形式，而且我们只要一个方程，而不是方程组，同时这是一个二阶差分方程（就像含有二阶导数的微分方程，希望能够化简为一阶倒数，也就是一阶差分）。

使用一个小技巧，令 $u_{k} = [\begin{matrix} F_{k + 1} \\ F_{k} \end{matrix}]$ ，再追加一个方程组成方程组： ${\begin{cases} F_{k + 2} & = F_{k + 1} + F_{k} \\ F_{k + 1} & = F_{k + 1} \end{cases}$ ，再把方程组用矩阵表达得到 $[\begin{matrix} F_{k + 2} \\ F_{k + 1} \end{matrix}] = [\begin{matrix} 1 & 1 \\ 1 & 0 \end{matrix}] [\begin{matrix} F_{k + 1} \\ F_{k} \end{matrix}]$ ，于是我们得到了 $u_{k + 1} = A u_{k}, A = [\begin{matrix} 1 & 1 \\ 1 & 0 \end{matrix}]$ 。我们把二阶标量方程（second-order scalar problem）转化为一阶向量方程组（first-order system）。

我们的矩阵 $A = [\begin{matrix} 1 & 1 \\ 1 & 0 \end{matrix}]$ 是一个对称矩阵，所以它的特征值将会是实数，且他的特征向量将会互相正交。因为是二阶，我们可以直接利用迹与行列式解方程组 ${\begin{cases} λ_{1} + λ_{2} & = 1 \\ λ_{1} \cdot λ_{2} & = - 1 \end{cases}$ 。在求解之前，我们先写出一般解法并观察 $| A - λ I | = | \begin{matrix} 1 - λ & 1 \\ 1 & - λ \end{matrix} | = λ^{2} - λ - 1 = 0$ ，与前面斐波那契数列的递归式 $F_{k + 2} = F_{k + 1} + F_{k} \to F_{k + 2} - F_{k + 1} - F_{k} = 0$ 比较，我们发现这两个式子在项数与幂次上非常相近。

用求根公式解特征值得 ${\begin{cases} λ_{1} = \frac{1}{2} (1 + \sqrt{5}) \approx 1.618 \\ λ_{2} = \frac{1}{2} (1 - \sqrt{5}) \approx - 0.618 \end{cases}$ ，得到两个不同的特征值，一定会有两个线性无关的特征向量，则该矩阵可以被对角化。

我们先来观察这个数列是如何增长的，数列增长由什么来控制？——特征值。哪一个特征值起决定性作用？——较大的一个。

$F_{100} = c_{1} {(\frac{1 + \sqrt{5}}{2})}^{100} + c_{2} {(\frac{1 - \sqrt{5}}{2})}^{100} \approx c_{1} {(\frac{1 + \sqrt{5}}{2})}^{100}$ ，由于 $- 0.618$ 在幂增长中趋近于 $0$ ，所以近似的忽略该项，剩下较大的项，我们可以说数量增长的速度大约是 $1.618$ 。可以看出，这种问题与求解 $A x = b$ 不同，这是一个动态的问题， $A$ 的幂在不停的增长，而问题的关键就是这些特征值。

继续求解特征向量， $A - λ I = [\begin{matrix} 1 - λ & 1 \\ 1 & 1 - λ \end{matrix}]$ ，因为有根式且矩阵只有二阶，我们直接观察 $[\begin{matrix} 1 - λ & 1 \\ 1 & 1 - λ \end{matrix}] [\begin{matrix} ? \\ ? \end{matrix}] = 0$ ，由于 $λ^{2} - λ - 1 = 0$ ，则其特征向量为 $[\begin{matrix} λ \\ 1 \end{matrix}]$ ，即 $x_{1} = [\begin{matrix} λ_{1} \\ 1 \end{matrix}], x_{2} = [\begin{matrix} λ_{2} \\ 1 \end{matrix}]$ 。

最后，计算初始项 $u_{0} = [\begin{matrix} F_{1} \\ F_{0} \end{matrix}] = [\begin{matrix} 1 \\ 0 \end{matrix}]$ ，现在将初始项用特征向量表示出来 $[\begin{matrix} 1 \\ 0 \end{matrix}] = c_{1} x_{1} + c_{2} x_{2}$ ，计算系数得 $c_{1} = \frac{\sqrt{5}}{5}, c_{2} = - \frac{\sqrt{5}}{5}$ 。

来回顾整个问题，对于动态增长的一阶方程组，初始向量是 $u_{0}$ ，关键在于确定 $A$ 的特征值及特征向量。特征值将决定增长的趋势，发散至无穷还是收敛于某个值。接下来需要找到一个展开式，把 $u_{0}$ 展开成特征向量的线性组合。

再下来就是套用公式，即 $A$ 的 $k$ 次方表达式 $A^{k} = S Λ^{k} S^{- 1}$ ，则有 $u_{99} = A u_{98} = \dots = A^{99} u_{0} = S Λ^{99} S^{- 1} S c = S Λ^{99} c$ ，代入特征值、特征向量得 $u_{99} = [\begin{matrix} F_{100} \\ F_{99} \end{matrix}] = [\begin{matrix} \frac{1 + \sqrt{5}}{2} & \frac{1 - \sqrt{5}}{2} \\ 1 & 1 \end{matrix}] [\begin{matrix} {(\frac{1 + \sqrt{5}}{2})}^{99} & 0 \\ 0 & {(\frac{1 - \sqrt{5}}{2})}^{99} \end{matrix}] [\begin{matrix} \frac{\sqrt{5}}{5} \\ - \frac{\sqrt{5}}{5} \end{matrix}] = [\begin{matrix} c_{1} λ_{1}^{100} + c_{2} λ_{2}^{100} \\ c_{1} λ_{1}^{99} + c_{2} λ_{2}^{99} \end{matrix}]$ ，最终结果为 $F_{100} = c_{1} λ_{1}^{100} + c_{2} λ_{2}^{100}$ 。
原式的通解为 $u_{k} = c_{1} λ^{k} x_{1} + c_{2} λ^{k} x_{2}$ 。

上次更新: 2025/06/25, 11:25:50

← 特征值和特征向量微分方程→

对角化和$A$的幂

对角化矩阵

求uk+1=Auk

求 $u_{k + 1} = A u_{k}$