假设对于一个$d$维欧几里得空间,现在有$n$个向量组成的线性无关组$\pmb x_1,\cdots, \pmb x_n,n<d$,去逼近一个向量$\pmb y$,也就是
\[\min_{\pmb\alpha}\quad\bigg\Vert\sum_{i=1}^n\alpha_i\pmb x_i-\pmb y\bigg\Vert^2\]将$\pmb X$设为$n\times d$的向量,第$i$行对应$\pmb x_i$,那么上述问题等价于
\[\min_{\pmb\alpha}\quad\Vert\pmb X^\top\pmb\alpha-\pmb y \Vert^2\]令梯度为0解得
\[\pmb\alpha=(\pmb X\pmb X^\top)^{-1}\pmb X\pmb y\]因为$n<d$,所以$\pmb\alpha$有唯一解,那么逼近的距离可以写成:
\[\begin{aligned} \bigg\Vert\sum_{i=1}^n\alpha_i\pmb x_i-\pmb y\bigg\Vert &=\Vert(\pmb X^\top(\pmb X\pmb X^\top)^{-1}\pmb X-\pmb I)\pmb y\Vert\\ \end{aligned}\]对$\pmb X$进行奇异值分解:
\[\pmb X=\pmb{U\Sigma V}^\top\]其中$\pmb\Sigma$是$n\times d$的矩阵,对角线上是$\pmb X^\top\pmb X$的奇异值。所以
\[\begin{aligned} \pmb X^\top(\pmb{XX}^\top)^{-1}\pmb X &=\pmb{V\Sigma}^\top\pmb U^\top(\pmb{U\Sigma V}^\top\pmb{V\Sigma}^\top\pmb U^\top)^{-1}\pmb{U\Sigma V}^\top\\ &=\pmb{V\Sigma}^\top\pmb U^\top(\pmb{U\Sigma}\pmb{\Sigma}^\top\pmb U^\top)^{-1}\pmb{U\Sigma V}^\top\\ &=\pmb{V\Sigma}^\top(\pmb{\Sigma\Sigma}^\top)^{-1}\pmb{\Sigma V}^\top\\ \end{aligned}\]这里$\pmb{\Sigma\Sigma}^\top$是一个$n\times n$矩阵,对角线元素为$\pmb{X}^\top\pmb X$的非零特征值。所以
\[\begin{aligned} \pmb\Sigma^\top(\pmb{\Sigma\Sigma}^\top)^{-1}\pmb\Sigma&=\begin{bmatrix} \sqrt{\lambda_1}\\ &\ddots\\ &&\sqrt{\lambda_n}\\ &\pmb O_{(d-n)\times n} \end{bmatrix}\begin{bmatrix} \frac1{\lambda_1}\\ &\ddots\\ &&\frac1{\lambda_n} \end{bmatrix}\begin{bmatrix} \sqrt{\lambda_1}\\ &\ddots&&\pmb O_{n\times(d-n)}\\ &&\sqrt{\lambda_n}\\ \end{bmatrix}\\ &=\begin{bmatrix} \pmb I_{n}\\ &0\\ &&\ddots\\ &&&0 \end{bmatrix}=\pmb\Sigma' \end{aligned}\]又因为$\pmb V$是正交矩阵,所以
\[\begin{aligned} \bigg\Vert\sum_{i=1}^n\alpha_i\pmb x_i-\pmb y\bigg\Vert &=\Vert(\pmb X^\top(\pmb X\pmb X^\top)^{-1}\pmb X-\pmb I)\pmb y\Vert\\ &=\Vert\pmb V(\pmb I-\pmb\Sigma')\pmb V^\top\pmb y\Vert\\ &=\Vert(\pmb I-\pmb\Sigma')\pmb V^\top\pmb y\Vert\\ &=\Vert(\pmb I-\pmb\Sigma')\pmb u\Vert\\ &=\sqrt{\sum_{i=1}^d(1-\sigma'_i)u_i^2}\\ &=\sqrt{\sum_{i=n+1}^du_i^2} \end{aligned}\]因此,差距大小取决于我们对$\pmb y$的假设:
此外,我们还可以证明,在$n<d$的情况下,每多一个线性无关向量,都会缩小最优线性组合与$\pmb y$的差距,这个结论是显然的。
假如我们将这个问题扩展到无穷维的希尔伯特空间,以再生核希尔伯特空间为例,我们实际上要优化的问题:
\[\min_{\pmb\alpha}\quad\Vert\sum_{i=1}^n\alpha_i\phi(x_i)-\phi(x)\Vert\]经过上面的推导,我们可以直接写出$\pmb\alpha$的闭式解:
\[\pmb\alpha=\pmb K^{-1}\pmb k\]其中$K_{ij}=\phi(x_i)^\top\phi(x_j)$,$k_i=\phi(x_i)^\top\phi(x)$。这个问题不需要知道显示的泛函形式,只需核函数就可以解出来。注意到,这里的$\phi(\cdot)$是无穷维的,所以无论$n$多大,都无法做到对任意的$x$,上述距离为0。但至少我们可以得出$n$越大,最优的$\pmb\alpha$对应的逼近距离越小。