Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说
矩阵的条件数是啥_矩阵的条件数cond2,希望能够帮助你!!!。
矩阵论专栏:专栏(文章按照顺序排序)
参考资料:
线性代数基础知识系列:1、2、3、4、5
矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD(下)
矩阵的正定性
矩阵的条件数用于界定一个矩阵是“良态的”还是“病态的”,一般来说,条件数越大,矩阵越接近一个奇异矩阵(不可逆矩阵),矩阵越“病态”。在数值计算中,矩阵的条件数越大,计算的误差越大,精度越低。例如下面解线性方程组的例子:
矩阵A的条件数很大:
如果A受到很小的扰动,变成如下的矩阵B,可以发现方程的解的变化非常大:
如果我们采集的数据有稍微一点点的偏差,就像上面的例子,我们得到的结果就会相差很多,这不是我们希望看到的。所以,衡量一个矩阵的病态程度是很有必要的。
下面先从矩阵范数入手,在此基础上再去了解条件数:
【说明】设 F F F为一数域。本文 F n × 1 F^{n\times 1} Fn×1与 F n F^n Fn不作区分,即默认把 F n F^n Fn中的向量视作列向量。在 F n F^n Fn上定义的 l p l_p lp范数在 F n × 1 F^{n\times 1} Fn×1上也适用。文中 R R R表示实数域, C C C表示复数域。 F r m × n F^{m\times n}_r Frm×n表示数域 F F F上全体秩为 r r r的 m × n m\times n m×n矩阵的集合。
结合定理3和定理4的结论,借此机会总结一下矩阵的特征值和奇异值之间的关系:
设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n, A A A的特征值按照模从小到大排序为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn, A A A的奇异值按照从小到大排序为 σ 1 , σ 2 , . . . , σ n \sigma_1,\sigma_2,...,\sigma_n σ1,σ2,...,σn,则有如下结论
注意,结论3的充分性在前面的博客文章中已经证明,必要性进行简单分析即可:如果 σ i = ∣ λ i ∣ , i = 1 , 2 , . . . , n \sigma_i=|\lambda_i|,i=1,2,...,n σi=∣λi∣,i=1,2,...,n,那么 ∑ i σ i 2 = ∑ i ∣ λ i ∣ 2 \sum_i \sigma_i^2=\sum_i |\lambda_i|^2 ∑iσi2=∑i∣λi∣2,于是根据结论2知 A A A是正规矩阵。
诱导范数(算子范数)
顾名思义,诱导范数不是用代数式直接定义的,而是“诱导”过来的,具体地说,是由向量的 l p l_p lp范数诱导的。回顾一下向量的 l p l_p lp范数:
常用的诱导范数
其它范数
根据定义来看,任意一种矩阵范数都可以用来定义条件数。矩阵的条件数具有如下性质:(以下均设A,B是同阶可逆矩阵)
下面是四种常用的条件数(分别对应上面介绍的四种矩阵范数):
2-条件数可以通过矩阵的奇异值分解计算得到,这是因为有如下计算式:
当A是正规矩阵时,还有如下计算式:
由上面的计算式可以导出2-条件数的如下性质:
F-条件数也可以根据矩阵的奇异值(或 A H A A^HA AHA的谱分解)计算得出,有如下计算式:
条件数可以给出误差估计的界,从而能够用于衡量一个问题是良态的还是病态的。下面以两个常见的问题为例(矩阵求逆和线性方程组求解),说明条件数在误差估计方面的作用。
【注】下面出现的条件数均由矩阵的算子范数定义,即 c o n d ( A ) = ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ cond(A)=||A||||A^{-1}|| cond(A)=∣∣A∣∣∣∣A−1∣∣,其中 ∣ ∣ ∙ ∣ ∣ ||\bullet|| ∣∣∙∣∣是矩阵的任意算子范数(诱导范数)。
定理15:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1,则 A + δ A A+\delta A A+δA可逆,且下式成立: ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽1−∣∣A−1δA∣∣∣∣A−1δA∣∣
证明:
因为 ∣ ∣ − A − 1 δ A ∣ ∣ = ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||-A^{-1}\delta A||=||A^{-1}\delta A||<1 ∣∣−A−1δA∣∣=∣∣A−1δA∣∣<1,故由引理知 I + A − 1 δ A = I − ( − A − 1 δ A ) I+A^{-1}\delta A=I-(-A^{-1}\delta A) I+A−1δA=I−(−A−1δA)可逆,且有 ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 δ A ∣ ∣ ||(I+A^{-1}\delta A)^{-1}||\leqslant\frac{1}{1-||A^{-1}\delta A||} ∣∣(I+A−1δA)−1∣∣⩽1−∣∣A−1δA∣∣1。
因为 A + δ A = A ( I + A − 1 δ A ) A+\delta A=A(I+A^{-1}\delta A) A+δA=A(I+A−1δA),故 A + δ A A+\delta A A+δA也是可逆的,且 A − 1 − ( A + δ A ) − 1 = A − 1 − ( I + A − 1 δ A ) − 1 A − 1 = ( I − ( I + A − 1 δ A ) − 1 ) A − 1 \begin{aligned}A^{-1}-(A+\delta A)^{-1}&=A^{-1}-(I+A^{-1}\delta A)^{-1}A^{-1}\\&=(I-(I+A^{-1}\delta A)^{-1})A^{-1}\end{aligned} A−1−(A+δA)−1=A−1−(I+A−1δA)−1A−1=(I−(I+A−1δA)−1)A−1注意到 ( I + A − 1 δ A ) ( I − ( I + A − 1 δ A ) − 1 ) = A − 1 δ A (I+A^{-1}\delta A)(I-(I+A^{-1}\delta A)^{-1})=A^{-1}\delta A (I+A−1δA)(I−(I+A−1δA)−1)=A−1δA,即 I − ( I + A − 1 δ A ) − 1 = ( I + A − 1 δ A ) − 1 A − 1 δ A I-(I+A^{-1}\delta A)^{-1}=(I+A^{-1}\delta A)^{-1}A^{-1}\delta A I−(I+A−1δA)−1=(I+A−1δA)−1A−1δA,于是 ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ ∣ ∣ I − ( I + A − 1 δ A ) − 1 ∣ ∣ = ∣ ∣ ( I + A − 1 δ A ) − 1 A − 1 δ A ∣ ∣ ⩽ ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ \begin{aligned}\frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}&\leqslant||I-(I+A^{-1}\delta A)^{-1}||\\&=||(I+A^{-1}\delta A)^{-1}A^{-1}\delta A||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}\delta A||\\&\leqslant\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\end{aligned} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽∣∣I−(I+A−1δA)−1∣∣=∣∣(I+A−1δA)−1A−1δA∣∣⩽∣∣(I+A−1δA)−1∣∣∣∣A−1δA∣∣⩽1−∣∣A−1δA∣∣∣∣A−1δA∣∣证毕。
【注】当矩阵 A A A的误差 δ A \delta A δA足够小,即 ∣ ∣ δ A ∣ ∣ ||\delta A|| ∣∣δA∣∣足够小时,能够满足 ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ < 1 ||A^{-1}||||\delta A||\lt 1 ∣∣A−1∣∣∣∣δA∣∣<1,则 ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ < 1 ||A^{-1}\delta A||\leqslant||A^{-1}||||\delta A||<1 ∣∣A−1δA∣∣⩽∣∣A−1∣∣∣∣δA∣∣<1,即定理的条件满足。
定理16:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1,则下式成立: ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣
证明:
只需证明 ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||} 1−∣∣A−1δA∣∣∣∣A−1δA∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣即可。 ∣ ∣ A − 1 δ A ∣ ∣ 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ = ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ = c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \begin{aligned}\frac{||A^{-1}\delta A||}{1-||A^{-1}\delta A||}&\leqslant\frac{||A^{-1}||||\delta A||}{1-||A^{-1}||||\delta A||}\\&=\frac{||A^{-1}||||A||}{1-||A^{-1}||||A||\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\\&=\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}\frac{||\delta A||}{||A||}\end{aligned} 1−∣∣A−1δA∣∣∣∣A−1δA∣∣⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣δA∣∣=1−∣∣A−1∣∣∣∣A∣∣∣∣A∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣∣∣A∣∣∣∣δA∣∣=1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)∣∣A∣∣∣∣δA∣∣得证。
【注】显然,当相对误差项 ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||\delta A||}{||A||} ∣∣A∣∣∣∣δA∣∣固定时,矩阵的条件数 c o n d ( A ) cond(A) cond(A)越大,则矩阵求逆的相对误差 ∣ ∣ A − 1 − ( A + δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ \frac{||A^{-1}-(A+\delta A)^{-1}||}{||A^{-1}||} ∣∣A−1∣∣∣∣A−1−(A+δA)−1∣∣的上界越大,即该误差越“不可控”。这说明矩阵的条件数越大,则解越不稳定,解的精度受到问题输入的误差的影响越大。
定理17:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, δ A ∈ F n × n \delta A\in F^{n\times n} δA∈Fn×n, b , δ b ∈ F n b,\delta b\in F^n b,δb∈Fn,若 ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||A^{-1}\delta A||<1 ∣∣A−1δA∣∣<1, x x x满足 A x = b Ax=b Ax=b, x + δ x x+\delta x x+δx满足 ( A + δ A ) ( x + δ x ) = ( b + δ b ) (A+\delta A)(x+\delta x)=(b+\delta b) (A+δA)(x+δx)=(b+δb),则 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩽ c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ( ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ + ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ ) \frac{||\delta x||}{||x||}\leqslant\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}(\frac{||\delta A||}{||A||}+\frac{||\delta b||}{||b||}) ∣∣x∣∣∣∣δx∣∣⩽1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)(∣∣A∣∣∣∣δA∣∣+∣∣b∣∣∣∣δb∣∣)
证明:
由 ∣ ∣ − A − 1 δ A ∣ ∣ = ∣ ∣ A − 1 δ A ∣ ∣ < 1 ||-A^{-1}\delta A||=||A^{-1}\delta A||\lt 1 ∣∣−A−1δA∣∣=∣∣A−1δA∣∣<1知, I + A − 1 δ A = I − ( − A − 1 δ A ) I+A^{-1}\delta A=I-(-A^{-1}\delta A) I+A−1δA=I−(−A−1δA)可逆,且 ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 δ A ∣ ∣ ⩽ 1 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ||(I+A^{-1}\delta A)^{-1}||\leqslant \frac{1}{1-||A^{-1}\delta A||}\leqslant \frac{1}{1-||A^{-1}||||\delta A||} ∣∣(I+A−1δA)−1∣∣⩽1−∣∣A−1δA∣∣1⩽1−∣∣A−1∣∣∣∣δA∣∣1。
由已知可得 ( A + δ A ) δ x = δ b − ( δ A ) x (A+\delta A)\delta x=\delta b-(\delta A)x (A+δA)δx=δb−(δA)x,用 A − 1 A^{-1} A−1左乘两端得 ( I + A − 1 δ A ) δ x = A − 1 ( δ b − ( δ A ) x ) (I+A^{-1}\delta A)\delta x=A^{-1}(\delta b-(\delta A)x) (I+A−1δA)δx=A−1(δb−(δA)x),则 δ x = ( I + A − 1 δ A ) − 1 A − 1 ( δ b − ( δ A ) x ) \delta x=(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x) δx=(I+A−1δA)−1A−1(δb−(δA)x)。 ∣ ∣ δ x ∣ ∣ = ∣ ∣ ( I + A − 1 δ A ) − 1 A − 1 ( δ b − ( δ A ) x ) ∣ ∣ ⩽ ∣ ∣ ( I + A − 1 δ A ) − 1 ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ ( δ b − ( δ A ) x ) ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ x ∣ ∣ ) = ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ) \begin{aligned}||\delta x||&=||(I+A^{-1}\delta A)^{-1}A^{-1}(\delta b-(\delta A)x)||\\&\leqslant||(I+A^{-1}\delta A)^{-1}||||A^{-1}||||(\delta b-(\delta A)x)||\\&\leqslant\frac{||A^{-1}||}{1-||A^{-1}||||\delta A||}(||\delta b||+||\delta A||||x||)\\&=\frac{||A^{-1}||||A||||x||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||A||||x||}+\frac{||\delta A||}{||A||})\end{aligned} ∣∣δx∣∣=∣∣(I+A−1δA)−1A−1(δb−(δA)x)∣∣⩽∣∣(I+A−1δA)−1∣∣∣∣A−1∣∣∣∣(δb−(δA)x)∣∣⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣(∣∣δb∣∣+∣∣δA∣∣∣∣x∣∣)=1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣∣∣x∣∣(∣∣A∣∣∣∣x∣∣∣∣δb∣∣+∣∣A∣∣∣∣δA∣∣)因为 A x = b Ax=b Ax=b,所以 ∣ ∣ b ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ ||b||\leqslant||A||||x|| ∣∣b∣∣⩽∣∣A∣∣∣∣x∣∣。 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ) ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ A ∣ ∣ 1 − ∣ ∣ A − 1 ∣ ∣ ∣ ∣ δ A ∣ ∣ ( ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ + ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ) = c o n d ( A ) 1 − c o n d ( A ) ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ ( ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ + ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ ) \begin{aligned}\frac{||\delta x||}{||x||}&\leqslant\frac{||A^{-1}||||A||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||A||||x||}+\frac{||\delta A||}{||A||})\\&\leqslant\frac{||A^{-1}||||A||}{1-||A^{-1}||||\delta A||}(\frac{||\delta b||}{||b||}+\frac{||\delta A||}{||A||})\\&=\frac{cond(A)}{1-cond(A)\frac{||\delta A||}{||A||}}(\frac{||\delta A||}{||A||}+\frac{||\delta b||}{||b||})\end{aligned} ∣∣x∣∣∣∣δx∣∣⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣(∣∣A∣∣∣∣x∣∣∣∣δb∣∣+∣∣A∣∣∣∣δA∣∣)⩽1−∣∣A−1∣∣∣∣δA∣∣∣∣A−1∣∣∣∣A∣∣(∣∣b∣∣∣∣δb∣∣+∣∣A∣∣∣∣δA∣∣)=1−cond(A)∣∣A∣∣∣∣δA∣∣cond(A)(∣∣A∣∣∣∣δA∣∣+∣∣b∣∣∣∣δb∣∣)证毕。
【注】固定 b b b和 A A A的相对误差项 ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\delta b||}{||b||} ∣∣b∣∣∣∣δb∣∣和 ∣ ∣ δ A ∣ ∣ ∣ ∣ A ∣ ∣ \frac{||\delta A||}{||A||} ∣∣A∣∣∣∣δA∣∣,当 c o n d ( A ) cond(A) cond(A)增大时,解的相对误差 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ \frac{||\delta x||}{||x||} ∣∣x∣∣∣∣δx∣∣的上界增大,故解越不稳定。
定理18:设 A ∈ F n n × n A\in F^{n\times n}_n A∈Fnn×n, b , δ b ∈ F n b,\delta b\in F^n b,δb∈Fn, x , δ x x,\delta x x,δx满足 A x = b , A ( x + δ x ) = b + δ b Ax=b,A(x+\delta x)=b+\delta b Ax=b,A(x+δx)=b+δb,则下式成立: 1 c o n d ( A ) ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ ⩽ ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩽ c o n d ( A ) ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{1}{cond(A)}\frac{||\delta b||}{||b||}\leqslant\frac{||\delta x||}{||x||}\leqslant cond(A)\frac{||\delta b||}{||b||} cond(A)1∣∣b∣∣∣∣δb∣∣⩽∣∣x∣∣∣∣δx∣∣⩽cond(A)∣∣b∣∣∣∣δb∣∣
证明:
上一条定理中令 δ A = O \delta A=O δA=O,就得到 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩽ c o n d ( A ) ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\delta x||}{||x||}\leqslant cond(A)\frac{||\delta b||}{||b||} ∣∣x∣∣∣∣δx∣∣⩽cond(A)∣∣b∣∣∣∣δb∣∣。
现证明不等式的左半部分:由已知得 A δ x = δ b A\delta x=\delta b Aδx=δb,故 ∣ ∣ δ b ∣ ∣ ⩽ ∣ ∣ A ∣ ∣ ∣ ∣ δ x ∣ ∣ ||\delta b||\leqslant||A||||\delta x|| ∣∣δb∣∣⩽∣∣A∣∣∣∣δx∣∣, ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩾ ∣ ∣ δ b ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ x ∣ ∣ \frac{||\delta x||}{||x||}\geqslant\frac{||\delta b||}{||A||||x||} ∣∣x∣∣∣∣δx∣∣⩾∣∣A∣∣∣∣x∣∣∣∣δb∣∣。由 A x = b Ax=b Ax=b得 x = A − 1 b x=A^{-1}b x=A−1b,故 ∣ ∣ x ∣ ∣ ⩽ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ b ∣ ∣ ||x||\leqslant||A^{-1}||||b|| ∣∣x∣∣⩽∣∣A−1∣∣∣∣b∣∣,故 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ ⩾ ∣ ∣ δ b ∣ ∣ ∣ ∣ A ∣ ∣ ∣ ∣ A − 1 ∣ ∣ ∣ ∣ b ∣ ∣ = 1 c o n d ( A ) ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\delta x||}{||x||}\geqslant\frac{||\delta b||}{||A||||A^{-1}||||b||}=\frac{1}{cond(A)}\frac{||\delta b||}{||b||} ∣∣x∣∣∣∣δx∣∣⩾∣∣A∣∣∣∣A−1∣∣∣∣b∣∣∣∣δb∣∣=cond(A)1∣∣b∣∣∣∣δb∣∣。得证。
【注】当 b b b的相对误差项 ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\delta b||}{||b||} ∣∣b∣∣∣∣δb∣∣固定时,条件数 c o n d ( A ) cond(A) cond(A)越小,则解的相对误差的下界越大,上界越小。这说明条件数越小,则解的误差越可控。特别地,当 c o n d ( A ) = 1 cond(A)=1 cond(A)=1即取到最小值时,有 ∣ ∣ δ x ∣ ∣ ∣ ∣ x ∣ ∣ = ∣ ∣ δ b ∣ ∣ ∣ ∣ b ∣ ∣ \frac{||\delta x||}{||x||}=\frac{||\delta b||}{||b||} ∣∣x∣∣∣∣δx∣∣=∣∣b∣∣∣∣δb∣∣,此时解的误差完全可控。
上面的这些定理给我们已有的直观感受(条件数越大,数值计算的误差越大)一个严格的数学解释。
前面定理15-18告诉我们,矩阵的条件数越小,线性方程组求解和矩阵求逆的相对误差的范围就越小,特别地,定理18说明当 c o n d ( A ) cond(A) cond(A)最小(即 c o n d ( A ) = 1 cond(A)=1 cond(A)=1,定理9(1))时,线性方程组解的相对误差与常数项 b b b的相对误差相等。那么自然有疑问,什么时候矩阵的条件数可以取得最小值呢?由于定理15-18的结论都是基于诱导范数,我们可以针对某个诱导范数定义的条件数来考虑。由定理11,2-条件数有十分简洁的公式 c o n d 2 ( A ) = σ m a x σ m i n cond_2(A)=\frac{\sigma_{max}}{\sigma_{min}} cond2(A)=σminσmax,其中 σ m a x , σ m i n \sigma_{max},\sigma_{min} σmax,σmin分别是 A A A的最大奇异值和最小奇异值,根据这个公式很明显可以看出 c o n d 2 ( A ) = 1 cond_2(A)=1 cond2(A)=1的充要条件是 A A A有唯一的奇异值。由此出发可以简便地得到以下结论:
分析一下 A H A = k I A^HA=kI AHA=kI这个条件:把 A A A写成按列分块的形式(列向量组) A = [ a 1 a 2 ⋯ a n ] A=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix} A=[a1a2⋯an],则 A H A = k I A^HA=kI AHA=kI就是说 a i H a j = { 0 , 若 i ≠ j k , 若 i = j a_i^Ha_j=\begin{cases}0,&若i\neq j\\k,&若i=j\end{cases} aiHaj={
0,k,若i=j若i=j,即 A A A的列是两两正交的( A A A是列正交的)且 A A A的列向量的 l 2 l_2 l2范数均相等。这样的矩阵我们最熟悉的例子应该就是酋矩阵了,酋矩阵是列正交的且每一列的 l 2 l_2 l2范数是1(这恰好验证了定理13, c o n d 2 ( U ) = 1 cond_2(U)=1 cond2(U)=1)。此外,定理19还可换个说法: c o n d 2 ( A ) = 1 cond_2(A)=1 cond2(A)=1的充要条件为 A A A的列向量组是 C n C^n Cn的正交基,其中每个基向量的长度( l 2 l_2 l2范数)相等。
不过,这只是从矩阵的2范数的角度考虑,此时定理18的不等式取等号结果为 ∣ ∣ δ x ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 = ∣ ∣ δ b ∣ ∣ 2 ∣ ∣ b ∣ ∣ 2 \frac{||\delta x||_2}{||x||_2}=\frac{||\delta b||_2}{||b||_2} ∣∣x∣∣2∣∣δx∣∣2=∣∣b∣∣2∣∣δb∣∣2因为定理15~18对任意诱导范数定义的条件数都成立,而上面只讨论了2范数的情况。对于下面这个 c o n d 1 ( A ) = 1 cond_1(A)=1 cond1(A)=1但 c o n d 2 ( A ) > 1 cond_2(A)>1 cond2(A)>1的例子,定理18的不等式也可取到等号,只是式中的范数都应取为1范数(即 ∣ ∣ δ x ∣ ∣ 1 ∣ ∣ x ∣ ∣ 1 = ∣ ∣ δ b ∣ ∣ 1 ∣ ∣ b ∣ ∣ 1 \frac{||\delta x||_1}{||x||_1}=\frac{||\delta b||_1}{||b||_1} ∣∣x∣∣1∣∣δx∣∣1=∣∣b∣∣1∣∣δb∣∣1): A = [ 1 0 0 0 1 0 0 0 0.1 ] A=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0.1\end{bmatrix} A=⎣⎡100010000.1⎦⎤有 c o n d 1 ( A ) = 1 cond_1(A)=1 cond1(A)=1而 c o n d 2 ( A ) = 10 cond_2(A)=10 cond2(A)=10。
今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
上一篇
已是最后文章
下一篇
已是最新文章