2020-07-30机器学习 / 图解机器学习笔记8 minutes read (About 1139 words)

图解机器学习/第十八章迁移学习

利用过去学习的得到的经验、知识，来提高当前以及将来进行的学习任务的求解精度，这样的方式称为迁移学习。

协变量移位下的迁移学习

在统计学里，输入变量称为协变量。协变量移位是指输入输出关系不变，协变量的概率分布发生变化的情况。

重要度加权学习

如果只利用当前学习任务的输入训练样本$\lbrace x’_{i’} \rbrace_{i’=1}^{n’}$近旁的输入输出训练样本$\lbrace (x_i, y_i)\rbrace _{i=1}^n$进行学习，一般是可以很好地对$\lbrace x’_{i’} \rbrace_{i’=1}^{n’}$的输出进行预测。这种思路可以通过使用输入输出训练样本的重要度权重进行学习来实现。

重要度，是指当前学习任务的输入训练样本$\lbrace x’_{i’} \rbrace_{i’=1}^{n’}$的概率密度$p’(x)$和原始学习任务的输入训练样本$\lbrace x_i \rbrace_{i=1}^n$的概率密度$p(x)$的比

$w(x) = \frac{p'(x)}{p(x)}$

重要度加权最小二乘学习

$\mathop{min}_{\theta} \frac{1}{2}\sum_{i=1}^n w(x_i)(f_{\theta}(x_i)-y_i)^2$

重要度加权最小二乘学习，理论上可以认为是统计学中的重要性采样，可以据此来理解其算法的本质。重要性采样，是指利用与$p(x)$相关的加权期望值来计算与$p’(x)$相关的期望值的方法

$\int g(x)p'(x)dx = \int g(x)\frac{p'(x)}{p(x)}p(x)dx \approx \frac{1}{n}\sum_{i=1}^n g(x_i)w(x_i)$

相对重要度加权学习

一般而言，当重要度函数$w(x)$的值非常大的时候，就特别容易引起不稳定现象，因此如果能使得重要度函数稍许平滑，就可以使学习结果稳定下来。为此可以使用比重要度稍微钝一些的相对重要度

$w_{\beta}(x) = \frac{p'(x)}{\beta p'(x)+(1-\beta)p(x)}$

重要度加权模型选择

重要度加权交叉验证法的算法流程：

把训练样本$\mathcal{T}=\lbrace (x_i,y_i) \rbrace_{i=1}^n$随机划分为$m$个集合$\lbrace \mathcal{T}_i \rbrace_{i=1}^m$

对$i=1,\dots,m$循环执行如下操作

使用除$\mathcal{T}_i$以外的训练样本$\mathcal{T}/ \mathcal{T}_i$，求解其学习结果$f_i$

把上述过程中没有参与学习的训练样本$\mathcal{T}_i$作为测试样本，对$f_i$的泛化误差进行重要度加权评估

$\hat{G}_i = \begin{cases} \frac{1}{|\mathcal{T_i}|}\sum_{(x,y)\in \mathcal{T}_i}w(x)(f_i(x)-y)^2 &\text{回归} \\ \frac{1}{|\mathcal{T_i}|} \sum_{(x,y)\in \mathcal{T}_i \frac{w(x)}{2}}(1-sign(f_i(x)y)) &\text{分类} \end{cases}$
在这里，$|\mathcal{T}_i|$表示集合$\mathcal{T}_i$包含的训练样本的个数

对各个$i$的泛化误差的评估值$\hat{G}_i$进行平均，得到最终的泛化误差$\hat{G}$
$\hat{G}=\frac{1}{m}\sum_{i=1}^m \hat{G}_i$

2020-07-30机器学习 / 图解机器学习笔记11 minutes read (About 1656 words)

图解机器学习/第十七章监督降维

监督降维算法的目的，是通过将输入$x$变换为低维的$z$，使输出$y$的预测更加容易。假设输入样本$x$的维度为$d$，低纬度下的$z$的维度为$m$，$d\times m$阶矩阵为$T$

$z = Tx$

并预先对训练样本$\lbrace (x_i) \rbrace_{i=1}^n$进行中心化处理

$x_i \leftarrow x_i-\frac{1}{n}\sum_{i'=1}^n x_{i'}$

与分类问题相对应的判别分析

Fisher判别分析

Fisher判别分析，是寻找能够使相同类别的样本尽量靠近，不同类别的样本尽量远离的矩阵$T$的方法。

定义组内分散矩阵$S^{(w)}$和组间分散矩阵$S^{(b)}$

$S^{(w)} = \sum_{y=1}^c \sum_{i:y_i = y}(x_i-\mu_y)(x_i-\mu_y)^{\intercal} \in \mathbb{R}^{(d \times d)}\\ S^{(b)}=\sum_{y=1}^n n_y \mu_y \mu_y^{\intercal} \in \mathbb{R}^{d \times d}$

“w”和“b”分别是“within-class”和“between-class”的首字母。$\sum_{i:y_i = y}$是所有满足$y_i = y$的$y$的和，$\mu_y$是所有属于类别$y$的输入样本的平均值

$\mu_y = \frac{1}{n_y}\sum_{i:y_i = y}x_i$

$n_y$是属于类别$y$的训练样本总数。使用这样的分散矩阵，Fisher判别分析的投影矩阵可由下式定义

$\mathop{max}_{T\in \mathbb{R}^{m \times d}} tr((TS^{(w)}T^{\intercal})^{-1}TS^{(b)}T^{\intercal})$

2020-07-30机器学习 / 图解机器学习笔记5 minutes read (About 751 words)

图解机器学习/第十五章在线学习

一般来说，在训练样本不同时给定的情况下，比起将所有的训练样本集中起来同时进行学习，把训练样本逐个输入到学习算法中，并在新的数据进来的时候马上对现有的学习结果进行更新，这样的逐次学习算法更加有效。

当训练样本总数$n$非常大的时候，在线学习算法对于有限内存的利用、管理来说非常有效。

被动攻击学习

梯度下降量的抑制

在训练样本$(x,y)$逐个给定的在线学习中，也可以使用随机梯度下降算法进行参数的更新。概率梯度下降算法中，当梯度下降幅度过大的时候，学习结果往往会不稳定；而当梯度下降幅度过小的时候，又会使得收敛速度变慢。因此，一般引入一个惩罚系数，即偏离现在的解$\tilde{\theta}$的幅度，对梯度下降量进行适当地调整。

这样的学习方法对激进的梯度下降进行了抑制，称为被动攻击学习。

2020-07-30机器学习 / 图解机器学习笔记10 minutes read (About 1566 words)

图解机器学习/第八章支持向量机分类

间隔最大化分类

从线性2类别分类问题说明

$f_{\omega,\gamma}(x) = \omega^{\intercal}x+\gamma$

上式中的$\omega$为把正负样本分割开的超平面的法线，$\gamma$为截距。只要能够对各个训练样本的间隔$m_i=f_{\omega,\gamma}(x_i)y_i$为正时的$\omega$和$\gamma$进行学习，就可以利用这个模型对所有的训练样本进行正确的分类。

当存在满足条件的$\omega$和$\gamma$，使得$(\omega^{\intercal}x+\gamma)y_i \ge1 \quad \forall i=1,\dots,n$，称这样的训练样本为线性可分的样本，一般选取能够最充裕地把正样本和负样本进行分离的超平面作为最优解。“最充裕”是指与正则化后地间隔$m_i=(\omega^{\intercal}x+\gamma)y_i/||\omega||$地最大值对应的。从几何学上讲，间隔为两端的两个超平面$\omega^{\intercal}x+\gamma=+1$和$\omega^{\intercal}x+\gamma = -1$地间距的一半，使这个间隔最大的超平面对应的分类器，成为硬间隔支持向量机分类器。

软间隔支持向量机分类器的基本思路是，允许在间隔的计算中出现少许的误差$\xi=(\xi_1,\dots,\xi_n)^{\intercal}$

2020-07-30机器学习 / 图解机器学习笔记5 minutes read (About 803 words)

图解机器学习/第七章基于最小二乘法的分类

模式识别是指，对于输入的模式$x \in \mathbb{R}^d$，将其分类到它所属的类别$y \in \lbrace 1,\dots,c \rbrace$的方法，$c$表示的是类别的数目。

最小二乘分类

测试模式$x$所对应的类别$y$的预测值$\hat{y}$，是由学习后的输出结果的符号决定的

$\hat{y}=sign(f_{\hat{\theta}}(x))= \begin{cases} +1, &(f_{\hat{\theta}}>0) \\0,&(f_{\hat{\theta}}=0) \\-1,&(f_{\hat{\theta}}<0) \end{cases}$

把分类问题堪称函数的近似问题，通过在分类器的构造中应用最小二乘法。利用输入为线性模型，把训练输出$y_i$由$\lbrace +1， -1 \rbrace$改为$\lbrace +1/n_+,-1/n_- \rbrace$，其中$n_+$和$n_-$分别代表正训练样本和负训练样本的个数，通过这样的设定，使用最小二乘学习进行模式识别，与线性判别分析算法就是一致的。在线性判别分析中，当正负两类样本的模式都服从协方差矩阵相同的高斯分布时，可以获得最佳的泛化能力。

2020-07-07机器学习 / 图解机器学习笔记8 minutes read (About 1138 words)

图解机器学习/第六章鲁棒学习

最小二乘学习法具有易受异常值影响的特点

在统计学领域和机器学习领域，对异常值也能保持稳定、可靠的性质，称为鲁棒性。

$l_1$损失最小化学习

对训练样本的合理性，一般使用$l_2$损失$J_{LS}(\theta)$来测定

$J_{LS}(\theta)=\frac{1}{2} \sum_{i=1}^n r_i^2$

这里的$r_i$是顺序为$i$的训练样本所对应的残差

$r_i = f_{\theta}(x_i) -y_i$

使用$l_1$损失对残差的增幅加以抑制的学习算法

$\hat{\theta}_{LA} = \mathop{argmin}_{\theta}J_{LA}(\theta), J_{LA}(\theta)=\sum_{i=1}^n|r_i|$

对于常数模型$f_{\theta}(x)=\theta$，最小二乘学习的最终输出结果是训练样本输出值$\lbrace y_i \rbrace _{i=1}^n$的平均值

$\hat{\theta}_{LS}=\mathop{argmin}_{\theta}\sum_{i=1}^n (\theta-y_i)^2 = mean(\lbrace y_i \rbrace _{i=1}^n)$

最小绝对值偏差学习的最终输出结果则是训练样本输出值$\lbrace y_i \rbrace _{i=1}^n$的中间值

$\hat{\theta}_{LA}=\mathop{argmin}_{\theta}\sum_{i=1}^n |\theta-y_i| = median(\lbrace y_i \rbrace _{i=1}^n)$

2020-05-09机器学习 / 图解机器学习笔记6 minutes read (About 899 words)

图解机器学习/第一章什么是机器学习

学习的种类

监督学习

是指学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案的学习过程。这一类机器学习的典型任务包括：预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

无监督学习

是指在没有老师的情况下，学生自学的过程。这一类机器学习的典型任务包括：聚类、异常检测等。

强化学习

是指在没有老师提示的情况下，自己对预测的结果进行评估的方法。这一类机器学习的典型任务包括：回归、分类、聚类和降维等。

2020-05-09机器学习 / 图解机器学习笔记6 minutes read (About 911 words)

图解机器学习/第五章稀疏学习

$l_1$约束的最小二乘学习法

$\mathop{min}_{\theta}J_{LS}(\theta) \quad 约束条件 \quad ||\theta||_1 \le R \\ ||\theta||_1 = \sum_{j=1}^b|\theta_j|$

$l_1$约束的最小二乘学习法，在有些著作中也成为Lasso回归。

2020-05-09机器学习 / 图解机器学习笔记8 minutes read (About 1196 words)

图解机器学习/第四章带有约束条件的最小二乘法

单纯的最小二乘法对于包含噪声的学习过程经常有过拟合的弱点

部分空间约束的最小二乘学习法

通过把参数空间限制在一定范围内，来防止过拟合现象。

$\mathop{min}_{\theta}J_{LS}(\theta) \quad 约束条件P\theta=\theta$

$P$是满足$P^2=P$和$P^{\intercal}=P$的$b\times b$矩阵，表示的是矩阵$P$的值域$\mathcal{R}(P)$的正交投影矩阵。通过附加$P\theta=P$约束条件，参数$\theta$就不会偏移到值域$\mathcal{R}(P)$范围外了。

2020-05-09机器学习 / 图解机器学习笔记5 minutes read (About 732 words)

图解机器学习/第十章概率分类法

对模式基于概率进行分类的手法称为概率分类法。基于概率的模式识别，是指对与模式$x$所对应的类别$y$的后验概率$p(y|x)$进行学习。其所属类别为后验概率达到最大值时所对应的类别。

$\hat{y} = \mathop{argmax}_{y=1,\dots,c}p(y|x)$

类别的后验概率$p(y=\hat{y}|x)$，可以理解为模式$x$属于类别$y$的可信度。另外，基于概率的模式识别算法还有一个优势，就是对于多种类别的分类问题通常会有较好的分类结果。

Logistic回归

Logistic模型的最大似然估计

Logistic回归，使用线性对数函数对分类后验概率$p(y|x)$进行模型化

$q(y|x;\theta)=\frac{exp(\sum_{j=1}^b \theta_j^{(y)} \phi_j(x)) }{\sum_{y'=1}^c exp(\sum_{j=1}^b \theta_j^{(y')} \phi_j(x))}$

Logistic回归模型的学习，通过对数似然为最大时的最大似然估计进行求解。

一般使用对数使得乘法变成加法的方法来防止丢位现象的发生。