若尔当标准形

正是良好的几何直觉使我们大多数人推测，对于线性变换而言，可逆与在某种意义上为零是完全相反的概念。当我们发现值域和零空间不一定不相交时，我们的失望与这一推测有关。通过放宽我们对“为零”的理解，这种情况可以得到理顺；在大多数实际应用中，某个幂为零的线性变换（即幂零变换）已经尽可能地接近于零了。虽然我们不能说一个线性变换要么是可逆的，要么是“零”（即使在推广的零的意义上），但我们可以说明任何变换是如何由这两种极端类型组成的。

定理 1. 有限维向量空间 $𝒱$ 上的每个线性变换 $A$ 都是一个幂零变换和一个可逆变换的直和。

证明. 我们考虑 $A$ 的 $k$ 次幂的零空间；这是一个子空间 $𝒩_{k} = 𝒩 (A^{k})$ 。显然有 $𝒩_{1} \subset 𝒩_{2} \subset \dots$ 。我们首先断言，如果一旦有 $𝒩_{k} = 𝒩_{k + 1}$ ，那么对于所有正整数 $j$ ，都有 $𝒩_{k} = 𝒩_{k + j}$ 。事实上，如果 $A^{k + j} x = 0$ ，那么 $A^{k + 1} A^{j - 1} x = 0$ ，由此（根据 $𝒩_{k} = 𝒩_{k + 1}$ 这一事实）可以推出 $A^{k} A^{j - 1} x = 0$ ，从而有 $A^{k + j - 1} x = 0$ 。换句话说， $𝒩_{k + j}$ 包含在（因而等于） $𝒩_{k + j - 1}$ 中；对 $j$ 进行归纳即可确立我们的断言。

由于 $𝒱$ 是有限维的，子空间 $𝒩_{k}$ 不能无限地继续增加；设 $q$ 是使 $𝒩_{q} = 𝒩_{q + 1}$ 成立的最小正整数。显然， $𝒩_{q}$ 在 $A$ 下是不变的（事实上每个 $𝒩_{k}$ 都是如此）。我们用 $ℛ_{k} = ℛ (A^{k})$ 表示 $A^{k}$ 的值域（因此，同样显然的是， $ℛ_{q}$ 在 $A$ 下是不变的）；我们将证明 $𝒱 = 𝒩_{q} \oplus ℛ_{q}$ ，并且 $A$ 在 $𝒩_{q}$ 上是幂零的，而在 $ℛ_{q}$ 上是可逆的。如果 $x$ 是 $𝒩_{q}$ 和 $ℛ_{q}$ 的公共向量，那么对于某个 $y$ ，有 $A^{q} x = 0$ 且 $x = A^{q} y$ 。由此可得 $A^{2 q} y = 0$ ，从而根据 $q$ 的定义，有 $x = A^{q} y = 0$ 。我们由此证明了 $A^{q}$ 的值域和零空间是不相交的；维数论证（参见章节：秩与零度，定理 1）表明它们张成 $𝒱$ ，因此 $𝒱$ 是它们的直和。由 $q$ 和 $𝒩_{q}$ 的定义可知， $A$ 在 $𝒩_{q}$ 上是指数为 $q$ 的幂零变换。最后，如果 $x$ 在 $ℛ_{q}$ 中（即对于某个 $y$ ，有 $x = A^{q} y$ ），且如果 $A x = 0$ ，那么 $A^{q + 1} y = 0$ ，从而有 $x = A^{q} y = 0$ ；这表明 $A$ 在 $ℛ_{q}$ 上是可逆的。定理 1 的证明至此完成。 ◻

$A$ 分解为幂零部分和可逆部分是唯一的。事实上，假设 $𝒱 = ℋ \oplus 𝒦$ ，使得 $A$ 在 $ℋ$ 上是幂零的，而 $A$ 在 $𝒦$ 上是可逆的。由于对于某个 $k$ ，有 $ℋ \subset 𝒩 (A^{k})$ ，因此可以推出 $ℋ \subset 𝒩_{q}$ ，并且由于对于所有 $k$ ，有 $𝒦 \subset ℛ (A^{k})$ ，因此可以推出 $𝒦 \subset ℛ_{q}$ ；这些事实共同意味着 $ℋ = 𝒩_{q}$ 且 $𝒦 = ℛ_{q}$ 。

我们现在可以利用关于幂零变换的结果来研究任意变换的结构。从任意变换中提取出幂零变换的方法可能看起来像是一个魔术，但这是一个很有用的技巧，经常被使用。至关重要的一点是保证特征值的存在；因此，我们继续假设标量域是代数封闭的（参见章节：重数）。

定理 2. 如果 $A$ 是有限维向量空间 $𝒱$ 上的线性变换，且如果 $λ_{1}, \dots, λ_{p}$ 是 $A$ 的互不相同的特征值，其代数重数分别为 $m_{1}, \dots, m_{p}$ ，那么 $𝒱$ 是 $p$ 个子空间 $ℳ_{1}, \dots, ℳ_{p}$ 的直和，这些子空间的维数分别为 $m_{1}, \dots, m_{p}$ ，使得每个 $ℳ_{j}$ 在 $A$ 下是不变的，并且 $A - λ_{j}$ 在 $ℳ_{j}$ 上是幂零的。

证明. 任取固定的 $j = 1, \dots, p$ ，并考虑线性变换 $A_{j} = A - λ_{j}$ 。对 $A_{j}$ 我们可以应用定理 1 的分解来得到子空间 $ℳ_{j}$ 和 $𝒩_{j}$ ，使得 $A_{j}$ 在 $ℳ_{j}$ 上是幂零的，在 $𝒩_{j}$ 上是可逆的。由于 $ℳ_{j}$ 在 $A_{j}$ 下是不变的，它在 $A_{j} + λ_{j} = A$ 下也是不变的。因此，对于每个 $λ$ ， $A - λ$ 的行列式是当我们分别在 $ℳ_{j}$ 和 $𝒩_{j}$ 上考虑 $A$ 时，这两个线性变换所对应的两个行列式的乘积。由于 $A$ 在 $ℳ_{j}$ 上的唯一特征值是 $λ_{j}$ ，且由于 $A$ 在 $𝒩_{j}$ 上没有特征值 $λ_{j}$ （即 $A - λ_{j}$ 在 $𝒩_{j}$ 上是可逆的），因此可以推出 $ℳ_{j}$ 的维数恰好是 $m_{j}$ ，并且每个子空间 $ℳ_{j}$ 都与其余所有子空间的张成空间不相交。维数论证证明了 $ℳ_{1} \oplus \dots \oplus ℳ_{p} = 𝒱$ ，从而完成了定理的证明。 ◻

我们接下来用矩阵语言来描述本节和前一节的主要结果。如果 $A$ 是有限维向量空间 $𝒱$ 上的线性变换，那么相对于 $𝒱$ 的某个合适基， $A$ 的矩阵具有以下形式。不在主对角线上或紧下方的主对角线元素全部为零。在主对角线上出现的是 $A$ 的互不相同的特征值，每个特征值出现的次数等于其代数重数。在任何特定特征值的下方只出现 $1$ 和 $0$ ，且以如下方式出现：存在由若干个 $1$ 组成的链，其后紧跟一个单独的 $0$ ，并且从上往下看，这些链的长度递减。这个矩阵是 $A$ 的若尔当标准形或经典标准形；我们有 $B = T A T^{- 1}$ 当且仅当 $A$ 和 $B$ 的经典标准形除了特征值的顺序之外完全相同。（因此，特别地，线性变换 $A$ 是可对角化的，当且仅当它的经典标准形已经是对角矩阵，也就是说，如果每个由 $1$ 组成的链的长度都为零。）

让我们引入一些符号。设 $A$ 有 $p$ 个互不相同的特征值 $λ_{1}, \dots, λ_{p}$ ，其代数重数如前所述分别为 $m_{1}, \dots, m_{p}$ ；设在 $λ_{j}$ 下由 $1$ 组成的链的个数为 $r_{j}$ ，并设这些链的长度分别为 $q_{j, 1} - 1, q_{j, 2} - 1, \dots, q_{j, r_{j}} - 1$ 。由 $e_{j i} (λ) = (λ - λ_{j})^{q_{j, i}}$ 定义的多项式 $e_{j i}$ 被称为属于特征值 $λ_{j}$ 的重数为 $q_{j, i}$ 的 $A$ 的初等因子。如果初等因子的重数为 $1$ （从而相应的链长度为 $0$ ），则称其为简单的；我们看到，线性变换是可对角化的当且仅当它的初等因子是简单的。

为了说明定理 2 的威力，我们做一个应用。我们可以通过说 $ℳ_{j}$ 上的变换 $A$ 被多项式 $e_{j 1}$ 零化，来表达 $ℳ_{j}$ 上的变换 $A - λ_{j}$ 是指数为 $q_{j, 1}$ 的幂零变换这一事实。由此可以推出， $𝒱$ 上的 $A$ 被这些多项式的乘积（即最高重数的初等因子的乘积）零化；这个乘积被称为 $A$ 的极小多项式。

很容易看出（因为 $A - λ_{j}$ 在 $ℳ_{j}$ 上的幂零指数恰好是 $q_{j, 1}$ ），该多项式作为零化 $A$ 的次数最低的多项式是唯一确定的（在相差一个常数因子的意义下）。由于 $A$ 的特征多项式是所有初等因子的乘积，因而也是极小多项式的倍数，我们得到了哈密顿-凯莱方程：每个线性变换都由其特征多项式零化。

习题

练习 1. 求 $[\begin{matrix} 1 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & - 1 \end{matrix}]$ 的若尔当标准形。

练习 2. 在三维向量空间上，两两不相似且每个都以 $(λ - 1)^{3}$ 为特征多项式的线性变换的最大数量是多少？

练习 3. 每个可逆线性变换都有平方根吗？（当然，说 $A$ 是 $B$ 的平方根意味着 $A^{2} = B$ 。）

练习 4.

证明如果 $ω$ 是 $1$ 的立方根（ $ω \neq 1$ ），那么矩阵 $[\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{matrix}] 和 [\begin{matrix} 1 & 0 & 0 \\ 0 & ω & 0 \\ 0 & 0 & ω^{2} \end{matrix}]$ 是相似的。
发现并证明 (a) 向更高维度的推广。

练习 5.

证明矩阵 $[\begin{matrix} 0 & 1 & α \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{matrix}] 和 [\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{matrix}]$ 是相似的。
发现并证明 (a) 向更高维度的推广。

练习 6.

证明矩阵 $[\begin{matrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{matrix}] 和 [\begin{matrix} 3 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}]$ 是相似的（例如，在复数域上）。
发现并证明 (a) 向更高维度的推广。

练习 7. 如果两个实矩阵在 $ℂ$ 上相似，那么它们在 $ℝ$ 上相似。

练习 8. 证明每个矩阵都与其转置矩阵相似。

练习 9. 如果 $A$ 和 $B$ 是 $n$ 乘 $n$ 矩阵，使得 $2 n$ 乘 $2 n$ 矩阵 $[\begin{matrix} A & 0 \\ 0 & A \end{matrix}] 和 [\begin{matrix} B & 0 \\ 0 & B \end{matrix}]$ 相似，那么 $A$ 和 $B$ 相似。

练习 10. 下列哪些矩阵是可对角化的（在复数域上）？

$[\begin{matrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{matrix}]$ ,
$[\begin{matrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}]$ ,
$[\begin{matrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ - 1 & 0 & 0 \end{matrix}]$ ,
$[\begin{matrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 1 & 0 & 0 \end{matrix}]$ ,
$[\begin{matrix} 1 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \end{matrix}]$ .

在实数域上又如何呢？

练习 11. 证明矩阵 $[\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{matrix}]$ 在复数域上是可对角化的，但在实数域上不是。

练习 12. 设 $π$ 是整数集合 ${1, \dots, n}$ 的一个置换；如果 $x = (ξ_{1}, \dots, ξ_{n})$ 是 $ℂ^{n}$ 中的一个向量，记 $A x = (ξ_{π (1)}, \dots, ξ_{π (n)})$ 。证明 $A$ 是可对角化的，并求一个基，使得 $A$ 关于该基的矩阵是对角矩阵。

练习 13。假设 $A$ 是一个线性变换，且 $ℳ$ 是 $A$ 下的一个不变子空间。证明如果 $A$ 可对角化，那么 $A$ 在 $ℳ$ 上的限制也是可对角化的。

练习 14。复数 $α_{1}, \dots, α_{n}$ 满足什么条件时，矩阵 $[\begin{matrix} 0 & \dots & 0 & α_{1} \\ 0 & \dots & α_{2} & 0 \\ ⋮ & ⋰ & ⋮ & ⋮ \\ α_{n} & \dots & 0 & 0 \end{matrix}]$ （在复数域上）是可对角化的？

练习 15。以下断言是真还是假？

行列式为负的实二阶矩阵相似于对角矩阵。
如果 $A$ 是复向量空间上的线性变换，且对于某个正整数 $k$ 有 $A^{k} = 1$ ，那么 $A$ 是可对角化的。
如果 $A$ 是有限维向量空间上的幂零线性变换，那么 $A$ 是可对角化的。

练习 16。如果 $A$ 是代数闭域上有限维向量空间上的线性变换，且 $A$ 的每个特征值的代数重数均为 $1$ ，那么 $A$ 是可对角化的。

练习 17。如果 $n$ 维向量空间上的线性变换 $A$ 的极小多项式的次数为 $n$ ，那么 $A$ 是可对角化的。

练习 18。求所有投影和所有对合的极小多项式。

练习 19。矩阵 $[\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{n} \end{matrix}] ?$ 的极小多项式是什么？

练习 20。

$𝒫_{n}$ 上的微分算子的极小多项式是什么？
由 $(A x) (t) = x (t + 1)$ 定义的 $𝒫_{n}$ 上的变换 $A$ 的极小多项式是什么？

练习 21。如果 $A$ 是一个极小多项式为 $p$ 的线性变换，且 $q$ 是一个满足 $q (A) = 0$ 的多项式，那么 $q$ 能被 $p$ 整除。

练习 22。

如果 $A$ 和 $B$ 是线性变换，如果 $p$ 是一个满足 $p (A B) = 0$ 的多项式，且 $q (t) = t p (t)$ ，那么 $q (B A) = 0$ 。
从 (a) 中可以推导出关于 $A B$ 和 $B A$ 的极小多项式之间的什么关系？

练习 23。一个线性变换是可逆的当且仅当其极小多项式的常数项不为零。