2020-07-30机器学习 / 图解机器学习笔记5 minutes read (About 803 words) 0 visits

图解机器学习/第七章基于最小二乘法的分类

模式识别是指，对于输入的模式$x \in \mathbb{R}^d$，将其分类到它所属的类别$y \in \lbrace 1,\dots,c \rbrace$的方法，$c$表示的是类别的数目。

最小二乘分类

测试模式$x$所对应的类别$y$的预测值$\hat{y}$，是由学习后的输出结果的符号决定的

$\hat{y}=sign(f_{\hat{\theta}}(x))= \begin{cases} +1, &(f_{\hat{\theta}}>0) \\0,&(f_{\hat{\theta}}=0) \\-1,&(f_{\hat{\theta}}<0) \end{cases}$

把分类问题堪称函数的近似问题，通过在分类器的构造中应用最小二乘法。利用输入为线性模型，把训练输出$y_i$由$\lbrace +1， -1 \rbrace$改为$\lbrace +1/n_+,-1/n_- \rbrace$，其中$n_+$和$n_-$分别代表正训练样本和负训练样本的个数，通过这样的设定，使用最小二乘学习进行模式识别，与线性判别分析算法就是一致的。在线性判别分析中，当正负两类样本的模式都服从协方差矩阵相同的高斯分布时，可以获得最佳的泛化能力。

0/1损失和间隔

分类问题中使用函数的正负号进行模式判断，函数值本身的大小并不重要，因此，分类问题中如果应用如下式所示的0/1损失的话，应该会比$l_2$损失得到更好的效果。

$\frac{1}{2}(1-sign(f_{\theta}(x)y))$

上式的0/1损失与下式等价

$\delta(sign(f_{\theta}(x)) \not= y)= \begin{cases} 1,(sign(f_{\theta}(x) \not= y))\\ 0, (sign(f_{\theta}(x) = y))\end{cases}$

当分类错误的时候，函数结果为1；当分类正确的时候，函数结果为0。因此0/1损失可以用来对错误分类的样本个数进行统计。

在实际应用中，一般使用代理损失来及逆行计算。$l_2$损失是相对于0/1损失的一种代理损失。

多类别的情形

第一种方法是一对多法

该方法首先解决2类别的分类问题，对于所有的与$y=1,\dots,c$相对应的类别，设其标签为+1；而对于剩余的$y$以外的所有类别，则设其标签为-1。在对样本$x$进行分类时，利用从各个2类别分类问题中得到的$c$个识别函数$\hat{f_1}(x),\dots,\hat{f_c}(x)$对训练样本进行预测，并计算其函数值，其预测类别$\hat{y}$即为函数值最大时所对应的那一类。

第二种方法是一对一法

首先，对于所有的与$y,y’=1,\dots,c$相对应的类别，在任意两类之间训练一个分类器，属于类别$y$的标签设为+1，属于类别$y’$的标签设为-1，通过这样的方式利用2类别的分类算法来求解。在对样本$x$进行分类时，利用从各个2类别分类问题中得到的$c(c-1)/2$个识别函数$\lbrace \hat{f}_{y,y’}(x)\rbrace _{y<y’}$对训练样本进行预测，再用投票法决定其最终类别。

#最小二乘分类

Alipay

Wechat

图解机器学习/第七章基于最小二乘法的分类

最小二乘分类

0/1损失和间隔

多类别的情形

Like this article? Support the author with

Comments

Catalogue

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第七章 基于最小二乘法的分类

最小二乘分类

0/1损失和间隔

多类别的情形

Like this article? Support the author with

Comments

Catalogue

Links

Categories

Tags

Subscribe to Updates

Recent

Archives

图解机器学习/第七章基于最小二乘法的分类