2020-05-09机器学习 / 图解机器学习笔记8 minutes read (About 1196 words) 0 visits

图解机器学习/第四章带有约束条件的最小二乘法

单纯的最小二乘法对于包含噪声的学习过程经常有过拟合的弱点

部分空间约束的最小二乘学习法

通过把参数空间限制在一定范围内，来防止过拟合现象。

$\mathop{min}_{\theta}J_{LS}(\theta) \quad 约束条件P\theta=\theta$

$P$是满足$P^2=P$和$P^{\intercal}=P$的$b\times b$矩阵，表示的是矩阵$P$的值域$\mathcal{R}(P)$的正交投影矩阵。通过附加$P\theta=P$约束条件，参数$\theta$就不会偏移到值域$\mathcal{R}(P)$范围外了。

$l_2$约束的最小二乘学习法

$\mathop{min}_{\theta}J_{LS}(\theta) \quad 约束条件 \quad ||\theta||^2 \le R$

$l_2$约束的最小二乘学习法是以参数空间的原点为圆心，在一定半径范围的圆内进行秋季。$R$表示的即是圆的半径。

拉格朗日对偶问题

可微分的凸函数$f:\mathbb{R}^d \rightarrow \mathbb{R}$和$g:\mathbb{R}^d \rightarrow \mathbb{R}^p$的约束条件的最小化问题
$\mathop{min}_t f(t) \quad 约束条件 \quad g(t) \le 0$
的拉格朗日对偶问题，可以使用拉格朗日乘子
$\lambda=(\lambda_1,\dots,\lambda_p)^{\intercal}$
和拉格朗日函数
$L(t,\lambda)=f(t)+\lambda^{\intercal}g(t)$
采用以下方式进行定义：
$\mathop{max}_{\lambda}\mathop{inf}_t L(t,\lambda) \quad 约束条件 \quad \lambda \ge 0$
拉格朗日对偶问题的$t$的解，与原来的问题的解是一致的。

$\mathop{max}_{\lambda} \mathop{min}_{\theta}[J_{LS}(\theta) + \frac{\lambda}{2}(||\theta||^2)-R] \quad 约束条件 \quad \lambda \ge 0$

拉格朗日对偶问题的拉格朗日乘子$\lambda$的解由圆的半径$R$决定，如果不根据$R$来决定$\lambda$，而是直接指定的话，$l_2$约束的最小二乘学习法的解

$\hat{\theta}=\mathop{argmin}_{\theta}[J_{LS}(\theta)+\frac{\lambda}{2}||\theta||^2]$

上式的第一项$J_{LS}(\theta)$表示的是对训练样本的拟合程度，通过与第二项的$\frac{\lambda}{2}||\theta||^2$相结合得到最小值，来防止过拟合发生。

令偏微分为0，解得

$\hat{\theta}=(\Phi^{\intercal}\Phi + \lambda I)^{-1}\Phi^{\intercal}y$

其中，$I$是单位矩阵。通过将矩阵$\Phi^{\intercal}\Phi$与$\lambda I$相加提高其正则性，进而就可以更稳定的进行逆矩阵的求解。

$l_2$正则化的最小二乘学习法在有些著作中也成为岭回归。

如果考虑设计矩阵$\Phi$的奇异值分解

$\Phi = \sum_{k=1}^{min(n,b)} \kappa_k \psi_k \varphi_k^{\intercal}$

$l_2$约束的最小二乘学习法的解

$\hat{\theta}=\sum_{k=1}^{min(n,b)} \frac{\kappa_k}{\kappa_k^2+\lambda}\psi_k^{\intercal}y\varphi_k$

当设计矩阵$\Phi$的计算条件很恶劣，即包含非常小的奇异值$\kappa_k$的时候，$\frac{\kappa}{\kappa^2}$就会变成非常大的数值，训练输出向量$y$包含的噪声就会有所增加。另一方面，在$l_2$约束的最小二乘法中，通过在分母的$\kappa_k^2$中加入正的常数$\lambda$，使$\kappa_k / (\kappa_k^2+\lambda)$避免变得过大，进而可以达到防止过拟合的目的。

通过使用$b\times b$的正则化矩阵$G$，就可以得到更为普遍的表示方法

$\mathop{min}_{\theta}J_{LS}(\theta) \quad 约束条件 \quad \theta^{\intercal}G\theta \le R \\ \hat{\theta}=(\Phi^{\intercal}\Phi + \lambda G)^{-1}\Phi^{\intercal}y$

模型选择

通过采用不同的输入训练样本，来决定机器学习算法中包含的各个参数值，一般称为模型选择。

一般的模型选择流程

准备模型的候选$M_1,\dots,M_k$

对各个模型$M_1,\dots,M_k$求解其学习结果$f^{(1),\dots,f^{(k)}}$

对各学习结果$f^{(1),\dots,f^{(k)}}$的泛化误差$G^{(1)},\dots,G^{(k)}$进行评价

选择泛化误差$G^{(1)},\dots,G^{(k)}$最小的模型为最终模型

泛化是指学习机器对未知的测试输入样本的处理能力，泛化误差是指对未知的测试输入样本的输出所做的预测的误差

交叉验证发用于评估模型发话误差，在交叉验证法中，把训练样本的一部分拿出来作为测试样本，不将其用于学习，而只用于评价最终学习结果的泛化误差。

分割数为m的交叉验证法一般称为m折交叉验证。
分割的集合数m设定为训练样本数n的交叉验证法，即对n-1个训练样本及进行学习，将余下的1个作为测试样本的方法，称为留一交叉验证法。

#最小二乘法带约束

Alipay

Wechat

图解机器学习/第四章带有约束条件的最小二乘法

部分空间约束的最小二乘学习法

$l_2$约束的最小二乘学习法

模型选择

Like this article? Support the author with

Comments

Catalogue

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第四章 带有约束条件的最小二乘法

部分空间约束的最小二乘学习法

$l_2$约束的最小二乘学习法

模型选择

Like this article? Support the author with

Comments

Catalogue

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第四章带有约束条件的最小二乘法