线性代数读书笔记:为什么可逆矩阵必须是方阵?

最近终于忙完了申请季的文书、面试笔试辅导,也有闲暇功夫来灌灌水了。能水的素材倒是不少,最近在回炉的一本 Linear Algebra (David Lay),新开的生物物理学(Philip Nelson),都想整一点读书笔记,顺手准备开一个『那些年我大约没太整明白的问题』系列,看看能坚持多少期。当然也有跟教学工作更相关的内容,比如今年为了牛剑模拟面试设(piao2)计(qie4)的一些有意思的新问题,和更新的 A-Level 刷题集,慢慢地整理,也应该会陆陆续续地发一些出来。

临近年底冲一波业绩,就拿只需要码字的数学问题开涮吧。

记忆中曾经读过的很多线性代数教材在引入逆矩阵(inverse matrix)的概念时,都是直接默认只有方阵(square matrix)才能定义逆矩阵。例如维基百科就是这么定义逆矩阵的:

给定一个 $n$ 阶方阵 $A$,若存在一个 $n$ 阶方阵 $B$ 使得 $AB = BA = I_n$,其中 $I_n$ 为 $n$ 阶单位矩阵,则称 $A$ 是可逆的,且 $B$ 是 $A$ 的逆矩阵,记作 $A^{-1}$。

并且在此段定义后立刻强调了

只有方阵($n \times n$ 的矩阵)才可能有逆矩阵。

脑洞略略开一点的就很自然地会问:凭什么不是方阵的矩阵就不配拥有逆矩阵了呢?

对于一个 $m \times n$ 的矩阵 $A$,原则上也可以有 $n \times m$ 的矩阵 $C$ 使得 $CA = I_n$. 例如我们取

\[A = \begin{bmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{bmatrix}\]

我们可以找到如下的矩阵 $C$

\[C = \begin{bmatrix} -\frac{5}{3} & \frac{4}{3} & 0 \\ \frac{1}{3} & \frac{1}{3} & -\frac{1}{3} \end{bmatrix}\]

不难验证

\[CA = \begin{bmatrix} -\frac{5}{3} & \frac{4}{3} & 0 \\ \frac{1}{3} & \frac{1}{3} & -\frac{1}{3} \end{bmatrix} \begin{bmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I_{2}\]

而事实上,使得 $CA = I_2$ 成立的矩阵 $C$ 有无穷多个。上面举的例子中,2阶单位矩阵仅含有4个矩阵元,而我们需要寻找的矩阵 $C$ 含有6个未知的矩阵元参数,这里有足够的自由度可以让我们可以把其中2个参数作为可以随意取值的自由参数,然后再根据限制条件去敲定剩下的4个参数。因此,以上给出的 $C$ 只是无数种可能中的其中一种。有兴趣的读者不妨去试着找找其他符合条件的矩阵 $C$。

类似地,对于一个 $m \times n$ 的矩阵 $A$,也可以有 $n \times m$ 的矩阵 $D$ 使得 $AD = I_m$. 比如我们这次取

\[A = \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix}\]

我们也可以找到矩阵 $D$

\[D = \begin{bmatrix} 1 & \frac{3}{2} \\ -5 & -\frac{1}{2} \\ 3 & 0 \end{bmatrix}\]

同样不难验证

\[AD = \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} \begin{bmatrix} 1 & \frac{3}{2} \\ -5 & -\frac{1}{2} \\ 3 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I_{2}\]

同样,这里给出的矩阵 $D$ 也是不唯一的,符合 $AD = I_2$ 的矩阵 $D$ 也是有无限多种可能。

通过上面的讨论,我们可以看到,似乎未必一定是要方矩阵才可以定义逆矩阵。所以到底是哪里卡 bug 了呢?

这里面妙不可言的一个关键点在于定义方阵 $A$ 的逆矩阵 $B = A^{-1}$ 时,同时要求 $AB = I_n$ 以及 $BA = I_n$。如果不限定 $A$ 是方阵,即对于任意形状的 $m \times n$ 的矩阵 $A$,我们接下来会看到,如果存在矩阵 $C$ 和矩阵 $D$ 使得 $CA = I_n$ 以及 $AD = I_m$ 同时成立,这个可交换的性质不仅会对 $A$ 的形状作出明确的限定,而且 $C$ 和 $D$ 还必然是同一个矩阵。


让我们回到更具一般性的设定,即 $A$ 是一个 $m \times n$ 的矩阵。

假定存在 $n \times m$ 的矩阵 $C$ 使得 $CA = I_n$,我们来看看会有怎样的推论。考虑矩阵方程 $A\mathbf{x} = \mathbf{0}$,如果方程存在非平凡解 $\mathbf{x} \neq \mathbf{0}$,则 $CA\mathbf{x} = I_{n} \mathbf{x} = \mathbf{x} \neq 0$。但另一方面,$CA \mathbf{x} = C \mathbf{0} = \mathbf{0}$,由此导致矛盾,因此矩阵方程 $A\mathbf{x} = \mathbf{0}$ 只能有唯一解 $\mathbf{x} = \mathbf{0}$,这说明矩阵 $A$ 由一堆线性无关(linearly independent)的列向量(column vector)构成的。这是一堆 $m$ 维的列向量,总共有 $n$ 个,彼此线性无关必然有 $m \geq n$.

另一方面,假定存在 $n \times m$ 的矩阵 $D$ 使得 $AD = I_m$,我们也来试着瞧瞧看会得到怎样的结论。对于任意 $\mathbf{b} \in \mathbb{R}^m$,考虑矩阵方程 $A\mathbf{x} = \mathbf{b}$. 由于 $AD\mathbf{b} = I_{m}\mathbf{b} = \mathbf{b}$,因此 $\mathbf{x}=D\mathbf{b}$ 一定是方程 $A\mathbf{x} = \mathbf{b}$ 的一个解。注意到我们设定的 $\mathbf{b}$ 是 $\mathbb{R}^m$ 空间中的任意向量,这说明矩阵 $A$ 的所有列向量的线性组合(linear combinations)可以生成(span)整个 $\mathbb{R}^m$ 空间。要做到这一点,必须要有足够多的向量才行。矩阵 $A$ 由 $n$ 个 $m$ 维的列向量构成,因此必然有 $n \geq m$.

那如果对于给定的 $m \times n$ 的矩阵 $A$,既存在矩阵 $C$ 使得 $CA = I_n$,也存在矩阵 $D$ 使得 $AD = I_m$,那就必须有 $m\geq n$ 和 $n\geq m$ 同时成立。铛铛!此处应有掌声!我们只可能有 $m=n$,即 $A$ 必须是一个方阵

我们再考虑 $CAD$ 这三个矩阵的乘积。一方面 $CAD = (CA)D = I_n D = D$,另一方面 $CAD = C(AD) = CI_{m} = C$. 铛铛!此处又该有掌声!这说明 $C=D$,即矩阵的左逆和右逆本质上没有区别,由此我们也论证了逆矩阵的唯一性