Code前端首页关于Code前端联系我们

贝叶斯网络,看完这篇文章终于明白了

terry 2年前 (2023-09-27) 阅读数 64 #数据结构与算法
贝叶斯网络,看完这篇我终于理解了

1。理解图解概率模型

图解概率模型是一种用图来表示变量的概率依赖关系的理论,结合了概率论和图论的知识,用图来表示与模型相关的变量的联合概率分布。由图灵奖获得者 Pearl 开发。

如果用一个词来形容概率图模型,那就是“优雅”。对于一个实际问题,我们希望挖掘数据中隐含的知识。概率图模型使用观察节点来表示观察到的数据、隐式节点来表示潜在知识以及边来描述知识和数据之间的关系来构建这样的图。 最后,根据这样的关系图,得到概率分布,非常“优雅”地解决了问题。

概率图中的节点分为隐藏节点和观测节点,边分为有向边和无向边。从概率论的角度来看,节点对应于随机变量,边对应于随机变量的依赖性或相关性,其中有向边表示单向依赖,无向边表示相互依赖

概率图模型分为两类:贝叶斯网络和马尔可夫网络。贝叶斯网络可以用有向图网络结构来表示,马尔可夫网络可以用无向图网络结构来表示。更详细地说,概率图模型包括朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,广泛应用于许多机器学习场景。

2。贝叶斯网络详解

2.1频率论者观点

长期以来,人们对于某件事发生或不发生的概率只固定0和1,即要么发生,要么不发生。永远不要考虑某件事发生的概率或不发生的概率。虽然我们不知道概率,但它至少是一个确定的值。例如,如果你当时问人们这样的问题:“有一个袋子,里面有几个白球和几个黑球,你从袋子里取出一个白球的概率是多少?”他们立即告诉你,不假思索地把白球拿出来。得到白球的概率是 1/2。你要么得到一个白球,要么得不到白球,即 θ 只能有一个值,无论你取多少次,得到白球的概率 θ 总是 1/ 2 ,即随着观察X的结果改变,它不会改变。

这个频率论观点在很长一段时间内主宰了人们的想象,直到后来出现了一个叫托马斯·贝叶斯的人物。

2.2 贝叶斯学派

托马斯·贝叶斯(Thomas Bayes,1702-1763)在他生活的那个时代并不为人们所熟知。他很少发表文章或书籍,也很少与当时的学术界人士互动。沟通非常少。如今,贝叶斯是一位活跃的学术界“异见人士”,但这位“异见人士”最终发表了一篇论文,题为《机会主义中问题的解决方案论文》,翻译过来就是:场合中问题的解决方案的理论。你可能会认为我会说:这篇论文的发表无意中引起了轰动,巩固了贝叶斯在学术史上的地位。 贝叶斯网络,看完这篇我终于理解了

本文可以用上面的例子来说明:“有一个袋子,里面有几个白球和几个黑球,你从袋子里取出一个白球的概率θ是多少?”贝叶斯认为,获得白球的概率是不确定的,因为其中存在机会因素。例如,如果一个朋友创业,你明明知道创业只有两种结果,成功或失败,但你仍然无法估计他创业成功的概率?如果你了解他的为人,他有方法,思路清晰,有毅力,有能力和周围的人融洽相处,你会不由自主地估计,他做生意成功的几率可能在80%以上。这种思维方式,区别于原来的“黑或白,0或1”的思维方式,是贝叶斯思维。

让我们简单总结一下频率论者和贝叶斯主义者的不同思维方式:

  • 频率论者认为将参数 θ 推导为一个固定的未知常数,即虽然概率未知,但至少 A 是一个确定值同时样本参数是随机变量,样本X是固定的。由于样本是固定的,他们关注的是参数的分布。

由于贝叶斯学派将其视为随机变量,因此计算出的分布必须是预先已知的无条件分布,即在有样本之前(或在观察到 X 之前)存在什么样的分布?

例如,如果您将球扔到台球桌上,球会落在哪里?如果球被公平地投出,那么球落在台球桌上任意位置的机会都是均等的,即球落在台球桌上某个点的概率是均匀的。这种在实验前就确定了基本前提性质的分布称为先验分布或无条件分布。

其中,先验信息一般来源于经验和历史数据。例如,如果林丹对阵某位选手,解说员一般会根据林丹之前的成绩对比赛的结果做出粗略的判断。又如,工厂必须每天进行产品质量检查,以评估产品的故障率θ。经过一定时间后,积累了大量的历史数据。这些历史数据是先验知识。有了这些先验知识,将为决定产品是否需要日常质量控制提供基础。如果历史数据显示该产品的故障率仅为0.01%,则可以视为可信产品或免检产品,每月只需抽检一次。两次,节省了大量的人力、物力。

A 后验分布 π (θ | 是 最大后验估计 ,类似于 ,类似于 π

合计为人们一开始对自然的了解非常少,但是随着通过不断的观察和实验获得更多的样本和结果,人们对自然规律越来越熟悉,也越来越透彻。贝叶斯方法并不适用。既符合人们日常生活中的思维方式,又符合人类对自然规律的认识,经过不断的发展,终于占领了统计学领域的半壁江山,与经典统计学展开了竞争。

2.3 贝叶斯定理

条件概率(也称为后验概率)是假设另一个事件 B 已经发生,事件 A 发生的概率。条件概率表示为 P(A|B),读作“给定条件 A 的概率” B”。贝叶斯网络,看完这篇我终于理解了

例如上图中对于同一样本空间Ω中A和B的事件或子集,如果从Ω中随机选择的一个元素属于B,那么这个随机选择的元素仍然属于A的概率定义为 A 给定 B 的条件概率:贝叶斯网络,看完这篇我终于理解了

联合概率:贝叶斯网络,看完这篇我终于理解了

边际概率(先验概率):P(A) 或 P(B)

2.4 贝叶斯网络

贝叶斯网络,也称为Belief Network,即有向无环图模型,是由 Judea Pearl 于 1985 年首次提出的概率图模型。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓扑是有向无环图。 (有向无环图)。 贝叶斯网络,看完这篇我终于理解了

贝叶斯网络有向无环图中的蜂巢代表随机变量贝叶斯网络,看完这篇我终于理解了

它们可以是可观测变量,也可以是潜在变量、未知参数等被认为是因果相关(或无条件独立)的变量或陈述由箭头连接。如果两个节点通过单箭头连接,这意味着其中一个节点是“父节点”,另一个是“子节点”,两个节点都会生成一个条件概率值。

例如,假设节点E直接影响节点H,即E→H,则使用从E指向H的箭头创建从节点E到节点H的有向弧(E,H),权重(即连接的强度)用条件概率 P(H|E) 来表示,如下图所示: 贝叶斯网络,看完这篇我终于理解了

简单地说,将某个研究系统中涉及的随机变量按照下式绘制成有向图:它们是否条件独立,则为贝叶斯缝。主要用来描述随机变量之间的条件依赖关系,用圆圈表示随机变量,用箭头表示条件依赖关系。

而且,对于任意随机变量,其联合概率可以通过其各自的局部条件概率分布相乘得到: 贝叶斯网络,看完这篇我终于理解了

2.4.1 贝叶斯网络的结构形式

1。 贝叶斯网络,看完这篇我终于理解了

根据上图,故: P(a,b,c) = P(a)P(b)P(c|a,b) 确定,即在c未知的条件下,a和b是阻塞且独立的,称为条件头对头独立。

2。尾对尾贝叶斯网络,看完这篇我终于理解了

考虑未知c和已知c的两种情况:

  1. 当c未知时,存在: P(a,b,c)=P(c) P(a| c) )P(b|c),此时我们不能得出P(a,b) = P(a)P(b),所以当c未知时,a,b不是独立的。
  2. 当我们知道c时,存在: P(a,b|c)=P(a,b,c)/P(c) 则 P(a,b,c)=P(c) 将P (a|c)P(b|c)代入公式可得: P(a,b|c)=P(a,b,c)/P(c) = P ( c ) P(a|c)P(b|c) / P(c) = P(a|c)*P(b|c),即当c已知时,a, b独立的。

3。从头到尾贝叶斯网络,看完这篇我终于理解了

又分为c未知和c已知两种情况:

  1. 当c未知时,存在: P(a,b,c)=P(a) P(c |a)P(b|c),但不能推导出 P(a,b) = P(a)P(b),所以当 c 未知时,a 和 b 不独立。当
  2. c已知时,存在: P(a,b|c)=P(a,b,c)/P(c) 且根据 P(a,c) = P(a) P ( c|a) = P(c)P(a|c),可以简化为:
贝叶斯网络,看完这篇我终于理解了

所以,在c给定的条件下,a和b是阻塞且独立的,所以-称为条件头尾独立。
这个头尾相连实际上是一个链式网络如下图所示: 贝叶斯网络,看完这篇我终于理解了

根据前面头尾相连的解释,我们已经知道在给定条件下 xi, xi+ 1 的分布有条件地独立于 x1, x2...xi-1。这是什么意思?这意味着:分布状态 xi+1 仅与 xi 相关,并且与其他变量条件独立。通俗地说,当前状态只与之前的状态有关,与之前或之前的状态无关。这种逐渐演化的随机过程称为马尔可夫链(马尔可夫链)。我们将在下一节中详细介绍马尔可夫链。

2.4.2 因子图

维基百科对因子图的定义如下:将具有多个变量的全局函数因式分解,得到多个局部函数的乘积。据此得到的双向图称为因子。阶乘图表。

通俗地说,所谓因子图就是对函数进行因式分解得到的概率图。它一般包含两类节点:变量节点和函数节点。我们知道,一个全局函数通过分解可以分解为多个局部函数的乘积,而这些局部函数与对应变量之间的关系就体现在因子图中。

例如,现在有一个全局函数,其分解方程为:贝叶斯网络,看完这篇我终于理解了

其中,fA、fB、fC、fD 和 fE 是表示变量之间关系的函数,可以是条件概率或其他关系。对应的因子图为: 贝叶斯网络,看完这篇我终于理解了贝叶斯网络,看完这篇我终于理解了

在概率图中,一个常见的问题是求某个变量的边际分布。解决这个问题的方法有很多,其中之一就是将贝叶斯网络或马尔可夫随机场转换为因子图,然后使用求和算法来解决。换句话说,基于因子图,可以使用乘积和算法来有效地找到每个变量的边际分布。

乘积和算法的详细流程可以参见博文:从贝叶斯方法谈贝叶斯网络

2.5朴素贝叶斯

朴素贝叶斯是经典的朴素贝叶斯学习算法和少数基于理论的概率分类算法之一。朴素贝叶斯原理简单且易于实现,主要用于垃圾邮件过滤等文本分类。朴素贝叶斯可以被认为是贝叶斯网络的特例:即网络中没有边,每个节点都是独立的。

朴素贝叶斯的天真在哪里? —— 两个假设

  • 某个元素出现的概率独立于其他属性(条件);
  • 每个功能都同等重要。

贝叶斯公式如下: 贝叶斯网络,看完这篇我终于理解了

下面通过一个例子来解释朴素贝叶斯。给定的数据如下: 贝叶斯网络,看完这篇我终于理解了

现在我们的问题是,如果一个男孩和一个女孩是朋友,男孩想让女孩求婚,男孩的四个特点是:不漂亮、长得不好他们脾气暴躁,缺乏上进心。请您判断一下这个女孩是否应该结婚? ?他个子矮的概率,没有动力)),谁的可能性更大,我可以回答他会不会结婚!这里我们就连接到朴素贝叶斯公式:贝叶斯网络,看完这篇我终于理解了

我们需要找到p(结婚|(不帅、性格不好、身高矮、没动力)。这是我们不知道的,但是我们可以用朴素贝叶斯公式转化为三个容易检测到的量,这三个变量通过统计方法是否可以得到。

等等,为什么会这样呢?学过概率论的同学可能会觉得,这个方程的条件贡元素必须是相互独立的!对!这就是为什么朴素这个词来自朴素贝叶斯分类。朴素贝叶斯算法假设特征是相互独立的,那么这个方程成立!

但是为什么我们必须假设特征是相互独立的?

  1. 我们这样想一下,如果没有这样的假设,那么我们右边的概率估计实际上是不可能的。也就是说,我们的例子有4个特征,其中帅包括{帅,不帅} ,性格包括{坏,好,伟大},身高包括{高,矮,一般},程序包括{无动力,有动力},那么这四个特征的总联合概率分布是一个4维空间,总和数量是233*2=36。
    36.计算机扫描统计没问题,但现实生活中往往特征很多,每个特征的值又太多,所以用统计来估计后验概率的值几乎是不可能的,所以我们必须假设这些特征是独立的。
  2. 如果我们不假设特质是相互独立的,那么我们的统计量到时候就需要在整个特质空间中寻找,比如p统计量(不帅、性格不好、身高矮) 、没有动力|结婚),我们需要找到在结婚条件下满足全部四种品质的四种品质,分别是长得不帅、脾气不好、身材矮小、没有上进心的人数。在这种情况下,由于数据的稀疏性,很容易算到0。这是不合适的。

基于以上两个原因,朴素贝叶斯方法假设条件概率分布是条件独立的。因为这是一个强有力的假设,朴素贝叶斯也因此得名!这种假设使得朴素贝叶斯方法变得简单,但有时会牺牲一些分类精度。

朴素贝叶斯的优点

  • 算法的逻辑简单,易于实现(算法的思想很简单,用贝叶斯公式进行改造即可!)
  • 过程小(前提是特征相互独立,只是二维存储)

朴素贝叶斯的缺点

理论上,朴素贝叶斯模型的错误率最低与其他分类方法相比。但实际上,情况并非总是如此。这是因为朴素贝叶斯模型假设属性彼此独立。在实际应用中,这种假设往往不成立。当属性数量较多或属性之间相关性较大时,分类效果不好。 朴素含义

朴素贝叶斯模型(Naive Bayesian Model)是“非常简单和朴素”假设样本元素彼此独立。这个假设在现实中基本不存在,但是现实中还是有很多特征的相关性很小的情况,所以这个模型还是可以很好的工作的。

3。一些基于贝叶斯的问题

  1. 解释朴素贝叶斯算法中的先验概率、概率估计和边际概率估计?
  • 先验概率:是数据集中因变量(二分法)的比例。这是无需额外信息即可对分类做出的最接近的估计。
  • 概率估计:概率估计是在给定其他变量的情况下观测值被分类为 1 的概率。例如,之前的垃圾邮件中使用过“FREE”一词的概率就是概率的估计值。
  • 边际似然估计: 边际似然估计是在任何消息中使用“免费”一词的概率。

4。生成模型和判别模型的区别

    • 判别模型(判别模型)通过求解条件概率分布P(y|x)或直接计算y的值来预测y。
      线性回归、逻辑回归、支持向量机(SVM)、传统神经网络、线性判别分析、条件随机场
    • 生成模型 (生成模型)达到确定和估计联合概率分布的目的P(x , y) 为观测值和标记数据。
      朴素贝叶斯、隐马尔可夫模型 (HMM)、贝叶斯网络和潜在狄利克雷分配、混合高斯模型

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

热门