文章

模式识别(统计决策方法:贝叶斯决策)

本文介绍了模式识别的贝叶斯决策,包括贝叶斯公式、最小错误贝叶斯决策、最小风险贝叶斯决策。


1. 决策理论与方法

解决模式识别问题的方法可归纳为基于知识的方法和基于数据的方法两大类。基于数据的模式识别方法的基础时统计模式识别,即依据统计学原理建立分类器,这事模式识别学科最初的主要内容。基于人工神经网络模型的模式识别方法从最初的思路并不是从统计学开始,但其本质上与统计学有密切联系,人们也大量采用统计学思想来对他们进行研究。

如果每一类在空间中互不相交,有清晰的决策边界,那么就没有必要用贝叶斯决策,这种叫做确定统计分类。如果这些类相互之间有重合,新的样本的特征落到一个重合区域,那么就要判断该样本属于某一类的概率。从而通过比较某些概率的大小来进行分类,这种叫做不确定统计分类

1.1. 基于先验概率的决策

记 $x$ 为观察到的样本特征,分类空间为 $A={a_1, a_2, \cdots, a_n}$,其中 $a_i$ 为第 $i$ 类,$p(A)$ 为该空间的发生概率(先验概率分布)$。

  • $x=[x_1, x_2, \cdots, x_d]^T$ 为由 $d$ 维空间组成的特征向量。
  • 当 $p(a_j)>p(a_{others})$ 时,记决策规则 $x\in a_j$。
  • 当作出决策之后,单分类错误率 $p(error_j) = 1-p(a_j)$,即 $x\notin a_j$ 的概率。

可以看到,一般决策过程仅依靠先验概率 $p(a_j)$,使得对 $x$ 的观察(特征参考)并没有对决策过程产生影响,总体错误率仍有降低的空间。

1.2. 基于贝叶斯公式的决策

贝叶斯决策(Bayes Decision) 是十大经典机器学习算法之一,是统计机器学习的典型。通过观察到样本的特征 $x$ 后,通过贝叶斯公式,可以有效降低错误率。贝叶斯决策也被称作统计决策理论

贝叶斯公式旨在通过一个已知的结果,并结合一些经验性或统计性的信息来倒推出最可能产生该结果的原因,即所谓执果索因。对于一个 $n$ 分类任务,贝叶斯公式如下

\[p(\omega_{i}\mid x)=\frac{p(x\mid\omega_{i})p(\omega_{i})}{p(x)}=\frac{p(x\mid\omega_{i})p(\omega_{i})}{\sum_{j=1}^{n}p(x\mid\omega_{j})p(\omega_{j})},i=1,2, \cdots n\]

其中,

  • $\omega_1,\omega_2$:表示两个类别,此处分别为学渣、学霸;
  • $p(\omega_{i})$:表示类别 $i$ 的先验概率,即每一类样本整体出现的概率,此处 $p(\omega_{1})=0.5=p(\omega_{2})$,表示两类试卷各占一半;
  • $x$:表示观测/抽样数据,假设 $x=1$ 为拿到90+分的试卷,$x=0$ 则表示拿到了不超过90分的试卷;
  • $p(x=1\vert\omega_i)$:表示类别 $i$ 的条件概率,即第$i$类中的某样本特征出现的概率,反映了在 $w_i$类中观察到特征值 $\boldsymbol{x}$ 的可能性(likelihood),也称为似然度,一般是已知的;
  • $p(x=1)$:表示两类学生考 90+ 分的概率,是一个全概率
  • $p(\omega_i\vert x=1)$:后验概率,同样也是一个条件概率,表示已知考试成绩为 90+ 分,那么该试卷属于第 $\omega_i$ 类的概率;后验概率也是我们需要求得的概率,通过它可以实现分类,比如选取后验概率最大者对应的类别作为分类结果。

可以看出,后验概率即为我们需要求取的概率。后验概率其实是在衡量各组分对结果的贡献,概率大,表示所有此结果中该组分(类)占比大。在引例中不知道那张试卷分数时,卷子可能属于10个人中的任意一人,即两个组分(类别)在概率上都贡献了5个人,各占0.5。而在知道卷面成绩90+后,贡献就悄然发生了变化。

贝叶斯分类特点:

  • 先验概率是计算后验概率的基础,是通过大量统计来得到的,这就是大数定理。
  • 许多事件的发生不具有可重复性,所以先验概率只能根据对置信度的主管判断,然后再以新获得的信息对先验概率进行修正。
  • 贝叶斯决策是基于概率的,所以分类决策一定存在错误率,即使错误率很低。

不同的贝叶斯分类器有不同的贝叶斯决策。贝叶斯决策就是在贝叶斯公式计算出后验概率的基础上,进一步做归属的决定——分类,如上述引例中,决策就是决定90+或者不超过90分的卷子归于w1组(类)或者归于w2组(类)。其主要包括两种决策方式,即最小错误贝叶斯决策,和最小风险贝叶斯决策。

2. 最小错误贝叶斯决策

2.1. 决策规则

最小错误贝叶斯决策就是选择后验概率最大的类作为判断的决策。对于 $c$ 分类任务

分类规则:

\[p(w_i \vert \boldsymbol{x}) = \max\; p(w_j \vert \boldsymbol{x}), j\in[1,c] \quad \Rightarrow \boldsymbol{x}\in w_i \tag{1}\]

后验概率用贝叶斯公式展开后,由于分母的 $p(\boldsymbol{x})$ 相同,因此可以忽略分母直接比较分子,得到等效分类规则如下:

\[p(\boldsymbol{x} \vert w_i)p(w_i) = \max\; [p(\boldsymbol{x} \vert w_j)p(w_j)], j\in[1,c] \quad \Rightarrow \boldsymbol{x}\in w_i \tag{2}\]

由于先验概率 $p(w_i)$ 是事先确定的,与当前样本 $\boldsymbol{x}$ 无关,因此人们经常把二分类问题的决策规则整理成下面的形式:

\[l(\boldsymbol{x})=\frac{p(\boldsymbol{x}\vert w_1)}{p(\boldsymbol{x}\vert w_2)} \gtrless \frac{p(w_2)}{p(w_1)}=\lambda \quad \Rightarrow \boldsymbol{x} \in \left\{ \begin{matrix} w_1\\ w_2 \end{matrix} \right. \tag{3}\]

上式中,概率密度值 $p(\boldsymbol{x}\vert w_i)$ 即为前面贝叶斯公式介绍时提到的似然度,两类似然度的比值 $l(\boldsymbol{x})$ 被称为似然比(likelihood ratio)。这样可以事先计算出阈值 $\lambda$,对每一个样本计算似然比 $l(\boldsymbol{x})$ 并与 $\lambda$ 比较,大于阈值则决策为第一类,反之决策为第二类。

更进一步,许多情况下,用对数形式计算可能更加方便,因此人们定义了对数似然比

\[\begin{aligned} h(\boldsymbol{x}) &= -\ln[l(\boldsymbol{x})] = -\ln[p(\boldsymbol{x}\vert w_1)] + \ln[p(\boldsymbol{x}\vert w_1)]\\ h(\boldsymbol{x})&\lessgtr\ln\frac{p(w_2)}{p(w_1)} \quad \Rightarrow \boldsymbol{x} \in \left\{ \begin{matrix} w_1\\ w_2 \end{matrix} \right. \end{aligned} \tag{3}\]

2.2. 类概率密度

对于引言中的例子,首先假设学渣和学霸两个类别的条件概率密度函数如下图所示,类条件概率反映出学渣的卷面分数分布和学霸的卷面分数分布,这个分布一般而言是需要根据样本数据统计计算得到的。

类似还有比如医学图像分类任务中,假设适用细胞核总光密度作为特征,那么正常细胞光密度值概率密度和癌细胞核总光密度值概率密度,可以通过医学知识和大量正常细胞以及癌细胞的图像数据计算得到的。

pdf

2.3. 错误率分析

根据前述决策规则,只需要比较类的概率密度函数乘以一个常数(先验概率,不随采样而变,是一个常数值)的结果。显然,图中 $t$ 为决策点,在 $x<t$ 时,对产生数据 $x$ 的贡献 $w_1$ 大于 $w_2$,故最小错误贝叶斯决策将 $x$ 归属为 $w_1$,在 $x>t$ 时,对产生数据 $x$ 的贡献 $w_2$ 大于 $w_1$,故最小错误贝叶斯决策将 $x$ 归属为 $w_2$。

pe

我们来分析一下错误率,决策边界 $t$ 把 $x$ 轴分割成两个区域,分别称为第一类和第二类的决策区域 $\mathcal{R}_1,\mathcal{R}_2$。其中 $\mathcal{R}_1$ 为 $(-\infty, t)$,$\mathcal{R}_2$ 为 $(t, +\infty)$。样本在$\mathcal{R}_1$ 但属于第二类的的概率和样本在 $\mathcal{R}_2$ 但属于第一类的概率就是出现错误的概率,再考虑到样本自身的分布后就是平均错误率

\[\begin{aligned} p(e) &= \int_{-\infty}^{\infty}p(error, x)\text{d}x = \int_{-\infty}^{\infty}p(error \vert x)p(x)\text{d}x \\ &= \int_{-\infty}^{t}p(w_2 \vert x)p(x)\text{d}x+\int_{t}^{\infty}p(w_1 \vert x)p(x)\text{d}x\\ &= \int_{-\infty}^{t}p(x \vert w_2)p(w_2)\text{d}x+\int_{t}^{\infty}p(x \vert w_1)p(w_1)\text{d}x\\ \end{aligned}\tag{4}\]

犯错的概率就是最小的,即最小错误贝叶斯决策 = 最大后验贝叶斯决策。由于概率非负,如果每一次决策错误率都最小,那么总的错误率也是最小的。

最小错误贝叶斯决策的结果就是,落在区域 $\mathcal{R}_1$ 中的 $x$ 都被归属到 $w_1$ 中了,包括其中混合的 $w_2$ 成分,落在区域 $\mathcal{R}_2$ 中的 $x$ 都被归属到 $w_2$ 中了,包括其中混合的 $w_1$ 成分。所以对于落在区域 $\mathcal{R}_1$ 中的每一个 $x$,被判错的概率都是 $1-p(w_1\vert x)=p(w_2\vert x)$,则 $w_1$ 的平均错误率就是 $p(w_2\vert x)$ 在 $x<t$ 上的期望,它是图中斜纹区域的面积,如下式所示

\[p(e_1) = \int_{-\infty}^t p(w_2 \vert x)p(x)\text{d} x = \int_{-\infty}^t p(w_2, x) \text{d}x = \int_{-\infty}^t p(x \vert w_2)p(w_2)\text{d}x\]

同理,$w_2$ 的平均错误率就是 $p(w_1\vert x)$ 在 $x>t$ 上的期望,它是图中方格区域的面积。

3. 最小风险贝叶斯决策

最小错误率决策足以胜任一般的决策场景。但是如果考虑不同的决策错误会带来不同的风险,则需要赋予不同的权重。比如,如果一个人处于癌症早期,而模型判定他是正常的,那此类决策可能带来生命的代价,因此需要给此类决策高权重。而如果一个人是正常的,模型判定他为癌症早期,那他最多多花点检查费和担惊受怕几天,代价相对于生命而言可能微乎其微,因此需要给此类决策低权重。显然,判定正确没有代价,权重为0。

3.1. 举例说明

还是用上述引例深入分析,假设把一张学渣的($w_1$)卷子错判成学霸的($w_2$),会对学渣造成 10点 暴击伤害(因为导致其以为自己进步神速然后无情打碎幻想),反之只有 1点 暴击伤害(学霸很自信不轻易动摇)。如果判定正确,大家则相安无事。那么我们就为学渣($w_1$)的卷子判定成学霸($w_2$)的决策加10点权值,然后为学霸($w_2$)的卷子判定成学渣($w_1$)的决策加1点权值,判断正确的权值为零,那我们可以得到如下决策表。

决策   真实类别(学渣) 真实类别(学霸)
  \ $w_1$ $w_2$
分类结果(学渣) $w_1$ 0 1
分类结果(学霸) $w_2$ 10 0

假设同样是抽到了一张90+的卷子,即 $x=1$。由上面分析我们可以知道,$p(x=1\vert\omega_1) = 0.2$,$p(x=1\vert\omega_2) = 0.8$,即这张卷子有 $0.2$ 的可能源于 $w_1$,有 $0.8$ 的可能源于 $w_2$,状态是 $w_1$ 与 $w_2$ 的混合体。对于最小错误贝叶斯决策,将该卷子判定为学霸的($w_2$)是最佳决策。现在如果依旧判定为 $w_2$,那么其风险为

\[R_2 = 10 \times 0.2 + 0 \times 0.8 = 2\]

而判定为 $w_1$,风险则为 $R_1 = 0* 0.2 + 0.8*1 = 0.8$。对于最小风险贝叶斯决策,判定为 $w_1$ 是最佳决策。剧情出现了 180 度大转弯,说明考虑风险后发现将学渣的卷子误判的代价更高,因此更倾向于误判学霸的卷子。

3.2. 损失函数(风险因子)

从决策论的角度,可将最小风险贝叶斯决策重新表述如下:

  • 样本 $\boldsymbol{x}$ 看作 d 维随机向量 $\boldsymbol{x} = [x_1,x_2,\cdots,x_d]^T$
  • 状态空间 $\Omega$ 由 $c$ 个可能的状态组成($c$ 类):$\Omega={w_1,w_2,\cdots, w_c}$
  • 对随机向量 $\boldsymbol{x}$ 可能采取的(分类)决策组成了决策空间,它由 $k$ 个决策组成:$A={a_1,a_2,\cdots, a_k}$

注意,这里并没有假定 $k=c$,因为可能采取的(分类)决策除了判别为某一类外,还可能做出拒绝分类的决策,即不能判别样本属于任何一类,有时也可以在决策时把几类合并为同一个大类,等等。

  • 定义对于实际状态为 $w_j$ 的向量 $\boldsymbol{x}$ 采取决策 $a_i$ 所带来的损失函数(可以理解为风险银因子)为 \(\lambda(a_i, w_j),\quad i= 1,\cdots, k,\; j=1,\cdots, c\)

通常可以用表格的形式给出损失函数,被称为决策表。决策表是人在实际应用中根据问题的背景和知识事先给定的。在实际应用中,需要认真分析研究问题的内在特点和分类目的,与应用领域的专家共同设计出适当的决策表,才能保证模式识别发挥有效的作用。

需要注意的是,通常正确分类决策的损失函数 $\lambda(a_i, w_i)=0$,即分类正确的情况下是没有损失的。

3.3. 决策步骤

对于样本 $\boldsymbol{x}$ 的各状态后验概率为 $p(w_j \boldsymbol{x}),\;j=1,\cdots,c$,对它采取决策 $a_i,\;i=1,\cdots,k$ 的期望损失(期望风险)是
\[R(a_i|\boldsymbol{x})=E[\lambda(a_i,w_j)|\boldsymbol{x}] = \sum_{j=1}^c p(w_j|\boldsymbol{x})\lambda(a_i,w_j)\]
对于特定的决策(比如 $a_1$ 即把样本分类为第 1 类),其期望风险为 $R(a_1,\boldsymbol{x}) = \sum_{j=1}^c p(w_j \boldsymbol{x})\lambda(a_1,w_j)$。也就是说,对于特定决策,其风险是所有后验的概率与损失函数的乘积之和,即不再仅仅考虑后验概率了,还要额外考虑损失函数(风险)。

因此,最小风险贝叶斯决策就是对所有决策 $a_i$ 求期望损失,然后选择期望损失最小的决策。即

\[a = \arg \min_{i} R(a_i|\boldsymbol{x})\]

显然,对于二分类任务,当 $\lambda(1,1)=\lambda(2,2)=0,\lambda(1,2)=\lambda(2,1)=1$ 时,最小风险贝叶斯决策退化为最小错误贝叶斯决策。

4. 二分类错误率与ROC曲线

待补充。

5. 参考文献

[1] 漆比特. CSDN 机器学习十大经典算法:深入浅出聊贝叶斯决策(贝叶斯公式,最小风险贝叶斯,最小错误贝叶斯)

本文由作者按照 CC BY 4.0 进行授权