Chapter. 4 🐳 矩阵的特征值和特征向量⚓︎

约 1991 个字预计阅读时间 7 分钟总阅读量次

2024.06.12 备注：这部分笔记是“中国教材特供版”。主要是基于NJU的LA教材做的一些纯公式和概念的整理。强烈建议与MIT课程内容区分开来对比着看。

矩阵的特征值和特征向量可以用来计算在\(P^{-1}AP\)意义下的最简矩阵，而\(A\)与\(P^{-1}AP\)表示在不同坐标系下的同一个线性变换。

4.1 相似矩阵⚓︎

Def. 4.1.1 相似矩阵：对于同阶方阵\(A\)和\(B\)，如果存在可逆矩阵\(P\)，使得 \(B= P^{-1}AP\)，就称\(A\)相似于\(B\)，记作 \(A \sim B\)。称 \(B\)为\(A\)的相似矩阵，称\(P\)为\(A\)到\(B\)的相似变换矩阵。
三个性质：
- 自反性：对任意矩阵，都成立\(A \sim A\)；
- 对称性：若 \(A \sim B\)，那么 \(B \sim A\) ;
- 传递性：如果\(A \sim B， B \sim C\)，那么 \(A \sim C\);
其他性质：
- 如果 \(A \sim B\) ，那么\(|A| = |B|\)，从而\(A\)和\(B\)的可逆性相同；
- 若 \(A \sim B\)，且 \(A\) 或者 \(B\)可逆，则 \(A^{-1} \sim B^{-1}\)
- 若 \(A \sim B\)，那么 \(A^{n} \sim B^{n}，kA \sim kB\)，其中\(n\)为自然数，\(k\)为任意实数；
- 若 \(A \sim B\)，则 \(f(A) \sim f(B)\)，其中\(f(x) = a_n x^{n} +,..., + a_1 x + a_0\) 为任意多项式。

4.2 特征值和特征向量⚓︎

对于一个 \(n\) 阶方阵A，如果有 \(P = (\xi_1, \xi_2, ..., \xi_m), \Lambda = diag(\lambda_1,...,\lambda_n)\)，使得\(A = P \Lambda P^{-1}\)，则\(AP = P\Lambda\)，所以有 \(A\xi_i = \lambda_i \xi_i, i = 1,2,...,n\)
Def. 4.2.1 (特征值、特征向量) 设\(A\)是实数域\(R\)或者复数域\(C\)上的一个方阵， \(\lambda \in C\)，若存在非零向量 \(\xi\) 使得 \(A \xi =\lambda \xi\)，则称 \(\lambda\) 为矩阵\(A\)的特征值，\(\xi\) 称为\(A\)的属于特征值\(\lambda\) 的特征向量。
特征值的重根：
定理 4.2.1 设方程A有特征值 \(\lambda, \xi_1, \xi_2\)为属于 \(\lambda\) 的特征向量，则他们的任意不等于零向量的线性组合 \(\eta = k_1 \xi_1 + k_2 \xi_2 (k_1, k_2 \in R)\)仍是属于 \(\lambda\) 的特征向量。
如何求出A的全部特征值和全部特征向量，因为方程 \(A \xi = \lambda \xi\)等价于齐次线性方程组\((\lambda E - A)\xi = \theta\)，故求特征值、特征向量也就是求 \((\lambda E - A)x = \theta\) 非零解的问题。由于齐次线性方程组有非零解的充要条件是系数行列式为0，也就是 \(|\lambda E - A| = 0\)，由此可以求得特征值 \(\lambda\)，进一步可以求得\((\lambda E - A)x = \theta\) 的非零解，这就是属于特征值的特征向量。
Def. 4.2.2 特征多项式/特征方程/特征矩阵 ：\(|\lambda E - A|\)称为\(A\)的特征多项式，方程\(|\lambda E - A| = 0\)称为\(A\)的特征方程，方程 \(|\lambda E - A| = 0\)的解就称为\(A\)的特征根，而 \(\lambda E - A\)称为\(A\)的特征矩阵。

【计算步骤：略】

定理 4.2.2 若\(f(x)\)为\(x\)的多项式，矩阵\(A\)有特征值\(\lambda\)，则\(f(A)\) 有特征值\(f(\lambda)\)；
- 也就是说特征值的运算关系对应着矩阵的运算关系；\((B = 5A)\)
定理 4.2.3 相似矩阵具有相同的特征多项式，从而它们具有相同的特征值，其行列式的值也是相同的。
Def. 4.2.3 迹定义 \(tr(A) = \sum \limits^{n}_{i = 1}{a_ii}\) 为矩阵 \(A = (a_{ij})_{n \times n}\)的迹。
定理 4.2.4 若 \(n\) 阶矩阵\(A\)的特征值 \(\lambda_1, ... , \lambda_n\)，则有 \(tr(A) = \sum \limits^{n}_{i=1}{\lambda_i}\), \(|A| = \prod \limits^{n}_{i = 1}{\lambda_i}\)
推论 4.2.5 相似矩阵有相同的迹和相同的行列式
定理 4.2.6 设\(A\)是一个块对角矩阵【矩阵】，则A的特征多项式是 \(A_1, A_2, ... , A_m\)的特征多项式的乘积，于是\(A_1, A_2, ..., A_m\)的所有特征值就是A的所有特征值。

4.3 矩阵可对角化的条件⚓︎

定义 4.3.1 可对角化：若方阵\(A\) 相似于一个对角矩阵，则称\(A\)可对角化。
定理 4.3.1 \(n\) 阶矩阵可对角化的充要条件是有\(n\)个线性无关的特征向量；
- 对角矩阵的主对角线由特征值构成，相似变换矩阵由属于相应特征值的特征向量构成。
定理 4.3.2 属于不同特征值的特征向量线性无关
推论 4.3.3 若\(n\)阶矩阵有\(n\)个互不相同的特征值，那么矩阵可对角化
定理 4.3.4 若 \(\lambda_1, \lambda_2, ..., \lambda_m\) 是矩阵\(A\)的不同特征值，而\(A\)的属于 \(\lambda_i\)的线性无关的特征向量为 \(\alpha_{i1},\alpha_{i2},...,\alpha_{is_i}, ( i = 1,2,...,m)\)，则向量组 \(\alpha_{11}, ...,\alpha_{1s_1}, \alpha_{21},...,\alpha_{2s_2},...,\alpha_{m1},...,\alpha_{ms_m}\)线性无关。
定理 4.3.5 设 \(\lambda_0\) 是\(n\)阶方阵\(A\)的\(k\)重特征值，则A的属于特征值\(\lambda_0\)的线性无关的特征向量个数不超过\(k\)。
🌟🌟定理 4.3.6 \(n\)阶方阵\(A\)可对角化的充要条件是每个 \(k_i\)重特征值 \(\lambda_i\) 对应的特征矩阵 \(\lambda_i E- A\)的秩为 \(n - k_i\)
\(A\)有重特征值的时候\(A\)是否可对角化的判定方法
对每个重特征值 \(\lambda_i\)，求矩阵 \(\lambda_i E- A\)的秩 \(r_i\)，如果对每个重特征值 \(\lambda_i ， n - r_i\) 都等于 \(\lambda_i\)的重数，那么A可以对角化，否则不可；
矩阵相似对角化的方法：
1. 解特征方程，得到特征值（可以有多重的特征值出来）
2. 对每个特征值，解齐次方程组 \((\lambda_i E - A)x = \theta\)，得到一个基础解系，\(\alpha_{i1},... \alpha_{ir_i}\)。如果存在某个 \(i\) 使得 \(r_i < s_i\)，那么不可对角化；
3. 如果所有的\(r_i = s_i\)，那么令 \(P = (\alpha_{11}, ... ,\alpha_{1s_1},...)\)，即可得 \(P^{-1}AP = \Lambda = diag (\lambda_1, ..,\lambda_1, \lambda_2,...\lambda_2, ..., \lambda_m, ..., \lambda_m)\)；
4. 由于齐次线性方程组的基础解系不是唯一的，所以\(P\)的取值也不是唯一的，但是由于\(P^{-1}AP\) 的主对角线的元素是\(A\)的全体特征值，所以除了次序不同外，\(P^{-1}AP\)是唯一确定的。

4.4 正交矩阵和施密特正交化方法⚓︎

向量内积：对应位置乘起来然后相加；
- \((\alpha, \beta) = (\beta, \alpha)\)
- \((k\alpha, \beta) = k(\alpha, \beta)\)
- \((\alpha + \gamma , \beta) = (\alpha, \beta) + (\gamma, \beta)\)
- \((\alpha, \alpha) \geq 0; (\alpha, \alpha) = 0\)，当且仅当 \(\alpha = \theta\)
向量夹角： \(\arccos(\dfrac{(\alpha, \beta)}{\Vert \alpha \Vert \Vert \beta \Vert})\)
向量正交： \((\alpha, \beta) = 0\)，那么 \(\alpha, \beta\) 就是正交的。
正交向量组：如果一个==不含零向量的向量组中向量两两正交==，那么就称这个向量组为正交向量组；如果一个正交向量组中的向量都是单位向量，那么该向量组称为标准正交向量组（法向量组）；
Schmidt正交化（线性无关组正交规范化的方法）：由线性无关向量组 \(\alpha_1, \alpha_2,...,\alpha_n\) 可以构造出与之等价的正交向量组 \(\xi_1, \xi_2,...,\xi_n\) ，并且 \(\xi_i\) 可以表示为 \(\alpha_1,...,\alpha_i\)的线性组合； > 在矩阵操作中，经常需要从一组线性无关的向量构造出一组同等个数等价的两两正交的向量，并且需要使每个向量的模等于1，也就是每个新向量都是单位向量，这种做法叫做线性无关向量组的正交规范化。施密特（Schmidt）正交化方法就是比较常用的正交规范化方法。
\(y_1 = x_1\) 是第一个向量，后面所有的向量都要和它正交\((y_1, y_i) = 0\)；
\(y_2 = x_2 + k_{21} y_1\)，根据正交条件可得 \(k_{21} = - \dfrac{(x_2, y_1)}{(y_1,y_1)}\)
\(y_3 = x_3 + k_{31}y_1 + k_{32}y_2\)，同理计算出 \(k_{32} = - \dfrac{(x_3, y_2)}{(y_2, y_2)}, k_{31} = - \dfrac{(x_3, y_1)}{(y_1, y_1)}\)
....继续推理，得结论：
\(y_n = x_n + k_{n1} x_1 + k_{n2} x_2 + ... + k_{n,n-1} x_{n-1}\)，且 \(k_{nk} = - \dfrac{(x_{n}, y_k)}{(y_k, y_k)}\)
最后\(z_i = \dfrac{y_i}{| y_i |}\)；进行单位化即可；
正交矩阵：如果实方阵\(A\)满足\(A^T A = E\) ,那么称A为正交矩阵；
- 性质【待补充】

4.5 实对称矩阵的对角化⚓︎

如果一个实矩阵（矩阵中所有的元素都是实数），\(A\)具有对称性，也就是\(A^T = A\)，就称它为实对称矩阵；
- 实对称矩阵一定可对角化；
- 特征值一定是实数；
如果\(A\)是实对称矩阵，那么存在同阶的正交矩阵\(P\)使得\(P^TAP\)是实对角矩阵，从而实对称矩阵可对角化；

4.6 Jordan标准型和奇异值分解⚓︎

任意 \(m \times n\)阶实矩阵均可分解成 \(U\Sigma V^T\)的形式，其中\(U，V\)是\(m\)阶和\(n\)阶正交矩阵，\(\Sigma = diag(\sigma_1, \sigma_r,0,..,0)_{ m \times n}\)，\(r\)为矩阵的秩，且可以保证 \(\sigma_1 \geq \sigma_2 \geq \sigma_3 ... \geq \sigma_r > 0\)，这些 \(\sigma\) 就是奇异值。

降维算法中的特征分解，比如做feature reduction的PCA，做数据压缩（以图像压缩为代表）的算法还可以用于推荐系统。以及自然语言处理等领域，如做搜索引擎语义层次检索的LSI（Latent Semantic Indexing）。