基础知识与贝叶斯理论

Abstract

约 1076 个字预计阅读时间 4 分钟总阅读量次

这个[链接](https://blog.csdn.net/Stray_Lambs/article/details/109203919)对于撰写贝叶斯定理和应用的部分有较大帮助，置顶感谢🙏；

贝叶斯公式 / 定理⚓︎

全概率公式： \(P(A) = \sum \limits^{n}_{i = 1} P(B_i | A) P(B_i)\)
条件概率公式: \(P(B_i | A ) = \dfrac{P(A B_i)}{P(A)}\)

A 是实验中的一个事件，B_i 是样本空间的一个划分，规定其概率均不为0；有：
贝叶斯公式： \(P(B_i | A) = \dfrac{P(B_i) P(A | B_i)}{ \sum \limits^{n}_{j=1} P(B_j) P(A | B_j)}\)
- \(P(B_i)\) 是先验概率，
- \(P(A | B_i)\)是已知B_i发生后A的后验概率；
- \(P(B_i | A)\)是已知A发生后B_i的后验概率；
- \(Pr(B)\)【分母】是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

一⚓︎

若事件\(B1, B2, …, Bn\) 是引起事件 \(A\) 发生的 \(n\) 个原因，它们的概率 \(P(Bi) (i=1, 2, …, n)\) 是在对 \(A\) 观察前就已知的，因此通常叫做==先验概率==。

二⚓︎

如果在一次试验中，事件 \(A\)（结果）发生了，那么反过来：\(A\) 的发生==是由第 \(i\)个原因引起的概率 \(P(Bi|A)\) 是==多少？这就是贝叶斯公式解决的问题。通常称 \(P(Bi|A) (i=1, 2, …, n)\)为后验概率。

三⚓︎

全概率公式是“由因导果”的一个过程，贝叶斯公式则是“由果溯因”的一个推断公式。

四⚓︎

贝叶斯推断
- 贝叶斯推断不过是使用贝叶斯定理推理数据的种群分布或概率分布的性质的过程。
如何计算后验概率
- 在某些情形下，我们不能简单地选择简化后验分布计算过程的先验或似然。有时似然和/或先验分布看起来会很吓人，手工计算后验不容易，甚至不可能。在这些情形下，我们可以使用不同的方法计算后验分布。最常用的方法之一是马尔可夫链蒙特卡罗法。Ben Shaver写过一篇很棒的文章无需数学公式就让你明白什么是马尔可夫链蒙特卡罗法，以非常平易近人的方式解释了这一技术。
卡尔曼滤波和贝叶斯滤波
朴素贝叶斯：基于条件独立假设
- 朴素贝叶斯的应用最广的应该就是在文档分类、垃圾文本过滤(如垃圾邮件、垃圾信息等)、情感分析(微博、论坛上的积极、消极等情绪判别)这些方面，除此之外还有多分类实时预测、推荐系统(贝叶斯与协同过滤组合使用)、拼写矫正(当你输入一个错误单词时，可以通过文档库中出现的概率对你的输入进行矫正)

独立性：⚓︎

- $P(AB) = P(A) P(B)$ ，也就是，$P(B | A) = P(B)$
- 两事件共同发生的概率 $= A$发生的概率 $* B $发生的概率，那么两个事件相互独立；
- 事件独立性：对于$A_1, ... ,A_n$，一共n个事件，如果对于其中任意$2/3/4/5.../n$个事件的积事件的概率等于他们发生的概率的积，那么这$n$个事件相互独立；
- 随机变量的独立性：
    - 对于连续的随机变量$(X,Y)$，如果他们的联合分布函数 = X的分布函数 * Y的分布函数，就说他们是相互独立的；
    - 上述同样可以表述为，如果他们的联合概率密度 = X的边缘概率密度 * Y的边缘概率密度，那么说他们相互独立；

区分一下相关性和独立性：⚓︎

独立一定不相关，表明多个随机变量之间没有关系；
但是不相关不一定独立，因为不相关只是说明了两随机变量之间没有线性关系，还有可能有其他关系，比如\(X \sim N(0,1), Y = X^2\)，此时两者不独立，但是他们的相关性系数 = 0；
相关是一种线性关系，而独立是一种一般关系

边缘概率分布/概率密度⚓︎

在多维随机变量中，仅考虑其中部分变量的概率分布；可以起到一个降维的作用。