图解机器学习/第十五章 在线学习

一般来说,在训练样本不同时给定的情况下,比起将所有的训练样本集中起来同时进行学习,把训练样本逐个输入到学习算法中,并在新的数据进来的时候马上对现有的学习结果进行更新,这样的逐次学习算法更加有效。

当训练样本总数$n$非常大的时候,在线学习算法对于有限内存的利用、管理来说非常有效。

被动攻击学习

梯度下降量的抑制

在训练样本$(x,y)$逐个给定的在线学习中,也可以使用随机梯度下降算法进行参数的更新。概率梯度下降算法中,当梯度下降幅度过大的时候,学习结果往往会不稳定;而当梯度下降幅度过小的时候,又会使得收敛速度变慢。因此,一般引入一个惩罚系数,即偏离现在的解$\tilde{\theta}$的幅度,对梯度下降量进行适当地调整。

这样的学习方法对激进的梯度下降进行了抑制,称为被动攻击学习。

被动攻击分类

进行分类时的损失函数,一般使用Hinge损失的平方形式,即

被动攻击分类的具体算法流程:

  1. 选取初始值为$\theta \leftarrow 0$

  2. 利用新输入的训练样本$(x,y)$,使用下式对参数$\theta$进行更新

  3. 返回2步

被动攻击回归

改变损失函数,即可适用于回归问题。使用$l_2$损失或$l_1$损失

通过推导可得到更新规则

适应正则化学习

被动攻击学习中使用的是没有上界的损失函数,因此往往不能很好地处理异常值。然而,具有上界的损失函数是非凸函数,进行最优化求解往往是很困难的。

参数分布的学习

适应正则化学习,并不只是对参数$\theta$进行学习,而是对参数的概率分布进行学习。

适应正则化分类

适应正则化分类的具体算法流程:

  1. 选取初始值为$\mu \leftarrow 0, \Sigma \leftarrow I$

  2. 与新输入的训练样本$(x,y)$相对应的间隔$m=\mu^{\intercal}xy$,如果满足$m<1$的话,则使用下式对参数进行更新

    其中,$\beta=x^{\intercal}\Sigma x + C$

  3. 返回第二步

适应正则化回归

其中,$\beta=x^{\intercal}\Sigma x + C$

Comments