图解机器学习/第十五章 在线学习
一般来说,在训练样本不同时给定的情况下,比起将所有的训练样本集中起来同时进行学习,把训练样本逐个输入到学习算法中,并在新的数据进来的时候马上对现有的学习结果进行更新,这样的逐次学习算法更加有效。
当训练样本总数$n$非常大的时候,在线学习算法对于有限内存的利用、管理来说非常有效。
被动攻击学习
梯度下降量的抑制
在训练样本$(x,y)$逐个给定的在线学习中,也可以使用随机梯度下降算法进行参数的更新。概率梯度下降算法中,当梯度下降幅度过大的时候,学习结果往往会不稳定;而当梯度下降幅度过小的时候,又会使得收敛速度变慢。因此,一般引入一个惩罚系数,即偏离现在的解$\tilde{\theta}$的幅度,对梯度下降量进行适当地调整。
这样的学习方法对激进的梯度下降进行了抑制,称为被动攻击学习。
被动攻击分类
进行分类时的损失函数,一般使用Hinge损失的平方形式,即
被动攻击分类的具体算法流程:
选取初始值为$\theta \leftarrow 0$
利用新输入的训练样本$(x,y)$,使用下式对参数$\theta$进行更新
返回2步
被动攻击回归
改变损失函数,即可适用于回归问题。使用$l_2$损失或$l_1$损失
通过推导可得到更新规则
适应正则化学习
被动攻击学习中使用的是没有上界的损失函数,因此往往不能很好地处理异常值。然而,具有上界的损失函数是非凸函数,进行最优化求解往往是很困难的。
参数分布的学习
适应正则化学习,并不只是对参数$\theta$进行学习,而是对参数的概率分布进行学习。
适应正则化分类
适应正则化分类的具体算法流程:
选取初始值为$\mu \leftarrow 0, \Sigma \leftarrow I$
与新输入的训练样本$(x,y)$相对应的间隔$m=\mu^{\intercal}xy$,如果满足$m<1$的话,则使用下式对参数进行更新
其中,$\beta=x^{\intercal}\Sigma x + C$
返回第二步
适应正则化回归
其中,$\beta=x^{\intercal}\Sigma x + C$

