图解机器学习/第一章 什么是机器学习
学习的种类
- 监督学习
是指学生从老师那里获取知识、信息,老师提供对错指示、告知最终答案的学习过程。这一类机器学习的典型任务包括:预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。
- 无监督学习
是指在没有老师的情况下,学生自学的过程。这一类机器学习的典型任务包括:聚类、异常检测等。
- 强化学习
是指在没有老师提示的情况下,自己对预测的结果进行评估的方法。这一类机器学习的典型任务包括:回归、分类、聚类和降维等。
机器学习任务的例子
- 回归(连续)
是指把实函数在样本点附近加以近似的有监督的函数近似问题。
- 分类(离散)
是指对于指定的模式进行识别的有监督的模式识别问题。
- 异常检测
是指寻找输入样本$\lbrace x_i \rbrace_{i=1}^n$中所包含的异常数据的问题。在已知正常数据与异常数据的例子的情况下, 其与有监督的分类问题是相同的。
- 聚类
与分类问题相同,也是模式识别问题,但是属于无监督学习的一种。
- 降维
是指从高纬度数据中提取关键信息,将其转换为易于计算的低纬度问题进而求解的方法。降维根据数据种类的不同,可以分为监督学习和无监督学习。
机器学习的方法
生成的分类和识别的分类
在已知模式$x$的时候,如果能求得使分类类别$y$的条件概率$p(y|x)$达到最大值的类别$\hat{y}$的话,就可以进行模式识别了。
其中,$”argmax”$是取得最大值时的参数的意思,条件概率$p(y|x)$通常也称为后验概率,联合概率$p(x,y)$也称为数据生成概率,通过预测数据生成概率$p(x,y)$来进行模式识别的分类方法,称为生成的分类。
应用训练集直接对后验概率$p(y|x)$进行学习的过程,称为判别式分类
统计概率和朴素贝叶斯
在统计概率的机器学习方法中,将模式$\theta$作为决定论的变量,使用手头的训练样本$\mathcal{D}=\lbrace (x_i,y_i) \rbrace_{i=1}^n$对模式$\theta$进行学习,如何由训练集$\mathcal{D}$得到高精度的模式$\theta$是主要的研究课题。
在朴素贝叶斯方法中,将模式$\theta$作为概率变量,对其先验概率$p(\theta)$加以考虑,计算与训练集$\mathcal{D}$相对应的后验概率$p(\theta|\mathcal{D})$。通过运用贝叶斯定理,就可以使用先验概率$p(\theta)$来求解后验概率$p(\theta|\mathcal{D})$,如下所示:
在朴素贝叶斯算法中,如何精确的计算后验概率是一个主要的研究课题。

