图解机器学习/第四章 带有约束条件的最小二乘法
单纯的最小二乘法对于包含噪声的学习过程经常有过拟合的弱点
部分空间约束的最小二乘学习法
通过把参数空间限制在一定范围内,来防止过拟合现象。
$P$是满足$P^2=P$和$P^{\intercal}=P$的$b\times b$矩阵,表示的是矩阵$P$的值域$\mathcal{R}(P)$的正交投影矩阵。通过附加$P\theta=P$约束条件,参数$\theta$就不会偏移到值域$\mathcal{R}(P)$范围外了。
$l_2$约束的最小二乘学习法
$l_2$约束的最小二乘学习法是以参数空间的原点为圆心,在一定半径范围的圆内进行秋季。$R$表示的即是圆的半径。
- 拉格朗日对偶问题
可微分的凸函数$f:\mathbb{R}^d \rightarrow \mathbb{R}$和$g:\mathbb{R}^d \rightarrow \mathbb{R}^p$的约束条件的最小化问题
的拉格朗日对偶问题,可以使用拉格朗日乘子
和拉格朗日函数
采用以下方式进行定义:
拉格朗日对偶问题的$t$的解,与原来的问题的解是一致的。
拉格朗日对偶问题的拉格朗日乘子$\lambda$的解由圆的半径$R$决定,如果不根据$R$来决定$\lambda$,而是直接指定的话,$l_2$约束的最小二乘学习法的解
上式的第一项$J_{LS}(\theta)$表示的是对训练样本的拟合程度,通过与第二项的$\frac{\lambda}{2}||\theta||^2$相结合得到最小值,来防止过拟合发生。
令偏微分为0,解得
其中,$I$是单位矩阵。通过将矩阵$\Phi^{\intercal}\Phi$与$\lambda I$相加提高其正则性,进而就可以更稳定的进行逆矩阵的求解。
$l_2$正则化的最小二乘学习法在有些著作中也成为岭回归。
如果考虑设计矩阵$\Phi$的奇异值分解
$l_2$约束的最小二乘学习法的解
当设计矩阵$\Phi$的计算条件很恶劣,即包含非常小的奇异值$\kappa_k$的时候,$\frac{\kappa}{\kappa^2}$就会变成非常大的数值,训练输出向量$y$包含的噪声就会有所增加。另一方面,在$l_2$约束的最小二乘法中,通过在分母的$\kappa_k^2$中加入正的常数$\lambda$,使$\kappa_k / (\kappa_k^2+\lambda)$避免变得过大,进而可以达到防止过拟合的目的。
通过使用$b\times b$的正则化矩阵$G$,就可以得到更为普遍的表示方法
模型选择
通过采用不同的输入训练样本,来决定机器学习算法中包含的各个参数值,一般称为模型选择。
- 一般的模型选择流程
- 准备模型的候选$M_1,\dots,M_k$
- 对各个模型$M_1,\dots,M_k$求解其学习结果$f^{(1),\dots,f^{(k)}}$
- 对各学习结果$f^{(1),\dots,f^{(k)}}$的泛化误差$G^{(1)},\dots,G^{(k)}$进行评价
- 选择泛化误差$G^{(1)},\dots,G^{(k)}$最小的模型为最终模型
泛化是指学习机器对未知的测试输入样本的处理能力,泛化误差是指对未知的测试输入样本的输出所做的预测的误差
交叉验证发用于评估模型发话误差,在交叉验证法中,把训练样本的一部分拿出来作为测试样本,不将其用于学习,而只用于评价最终学习结果的泛化误差。
- 分割数为m的交叉验证法一般称为m折交叉验证。
- 分割的集合数m设定为训练样本数n的交叉验证法, 即对n-1个训练样本及进行学习,将余下的1个作为测试样本的方法,称为留一交叉验证法。

