图解机器学习/第十一章 序列数据的分类

字符串的分类问题,比起将字符串拆分为独立的文字,并分别对各个文字进行识别,对字符串整体同时进行识别的话,因为能充分利用文字的前后关系,所以识别精度会更高。

序列数据的模型化

将顺序为$k$的模式定义为$x^{(k)}$,该模式所属的类别定义为$y^{(k)}$,然后将这样的$m$个模式的序列分别用$\overline{x}$和$\overline{y}$进行表示

如果对各个模式$x^{(k)}$进行独立的识别,那么$c$个类别的模式识别问题进行$m$次求解就可以完成对此模式序列的识别。然而,这样的识别方式并没有充分利用各个模式的前后关系。

在个模式的类别为$c$个的情况下,如果对连续的$m$个模式同时进行识别的话,就需要对$\overline{c} = c^m$个类别的模式识别问题进行求解。然而,在这种方式中,由于类别个数$\overline{c}$和参数$\overline{\theta}$的维度是以模式序列的长度$m$为基数呈指数级增长的,因此直接对其进行学习往往很困难。

假定只有前一个模式所属的类别$y^{(k-1)}$会对现在的模式$x^{(k)}$所属的类别$y^{(k)}$有影响,通过把连续的两个模式的识别加以组合,对模式序列全体进行识别。这样的方法,并不是简单地对连续的两种模式所对应的$c^2$个类别的识别问题进行单独求解,而是尽可能地对模式序列全体同时进行识别。这种方法称为条件随机场

这里的$\varphi(\overline{x},\overline{y})$表示的是基函数的向量。

Read More