2020-05-09机器学习 / 图解机器学习笔记8 minutes read (About 1209 words)

图解机器学习/第十六章半监督学习

灵活应用输入数据的流形构造

半监督学习会首先假定输入概率密度$p(x)$和条件概率密度$p(y|x)$之间具有某种关联，利用对输入概率密度$p(x)$的估计来辅助对条件概率密度$p(y|x)$的估计，进而使得最终的学习精度得以提升。

流形是一数学用于，一般指局部具有欧几里得空间性质的图形，在半监督学习里指的是输入空间的局部范围。半监督学习中流形的假设，即输入数据只出现在某个流形上，输出则在该流形上平滑的变化。

高斯核函数实际上是灵活运用了流行的假设后形成的模型

$f_{\theta}(x)=\sum_{j=1}^n \theta_j K(x,x_j), K(x,c)=exp(-\frac{||x-c||^2}{2h^2})$

即通过在训练输入样本$\lbrace x_i \rbrace_{i=1}^n$上设置平滑的高斯核函数，进而使得输入数据在流形上学习得到平滑的输入输出函数。

半监督学习在核函数的构成中，也应用了只有输入数据的训练样本$\lbrace x_i \rbrace_{i=n+1}^{n+n’}$

$f_{\theta}(x)=\sum_{j=1}^{n+n'} \theta_j K(x,x_j)$

另外，为了使训练输入样本的输出$\lbrace f_{\theta}(x_i) \rbrace_{i=n+1}^{n+n’}$拥有局部相似值，还需要添加约束条件。对于$l_2$正则化最小二乘学习的情况，有以下学习规则

$\mathop{min}_{\theta}[\frac{1}{2}\sum_{i=1}^n(f_{\theta}(x_i)-y_i)^2 + \frac{\lambda}{2}||\theta||^2+ \frac{v}{4}\sum_{i,i'=1}^{n+n'}W_{i,i'}(f_{\theta}(x_i) - f_{\theta}(x_i'))^2]$

其中第一项和第二项与$l_2$正则化最小二乘学习相对应。第三项是进行半监督学习所需的正则化项，称为拉普拉斯正则化。$v \ge 0$是调整流形的平滑性的半监督学习的正则化参数。$W_{i,i’} \ge0$是$x_i$和$x_{i’}$的相似度，当$x_i$和$x_{i’}$相似的时候，$W_{i,i’}$具有较大的值；当$x_i$和$x_{i’}$不相似的时候，$W_{i,i’}$具有较小的值。$W_{i,i’}$是对称的，即假定满足$W_{i,i’}=W_{i’,i}$。

图解机器学习/第十六章半监督学习

灵活应用输入数据的流形构造

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第十六章 半监督学习

灵活应用输入数据的流形构造

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第十六章半监督学习