跳转至

大数定律和中心极限定律⚓︎

约 1349 个字 预计阅读时间 4 分钟

Abstract

这个页面 对本笔记撰写提供了很大帮助,置顶感谢大佬的引路。

伯努利大数定律⚓︎

  • 进行有放回重复实验n次,记录事件A出现的次数,
  • 当n足够大时,事件A在n重伯努利事件中发生的==频率==f无限接近于事件A在一次实验中发生的==概率p==,即频率的稳定性。伯努利大数定律是切比雪夫大数定理的特例。在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率;

弱大数定律(辛钦大数定律)⚓︎

  • n个独立同分布的随机变量,已知他们的期望,(方差没有要求),当\(n\)很大时它们的算术平均值很接近期望值;

Tips

  • 用算数平均代替期望;
  • 应用,弱大数定理是抽样统计的理论基础,比如在一些全国人口平均身高估计上有应用;
  • 保险公司缴费:被保人缴纳的纯保费与其能获得的赔款的期望值是相同的

切比雪夫大数定律(切比雪夫不等式)⚓︎

  • 给定一个分布,已知均值 \mu 和 方差 \sigma^2, 那么随机变量的值与均值\mu的距离小于任意整数 \epsilon 的概率大于等于 1 - \sigma^2 / \epislon^2
  • 含义:表示即使分布未知,随机变量的取值落在期望左右的一定范围内的概率是有界的,该界限和方差有关。DX 越小,落在某范围内的概率就越大,表示 X 取值的概率分布越集中。也就是说,方差 DX 可以表示随机变量 X 取值的离散程度。

作用:① 给出了,在随机变量 X 的分布未知,只知道 E(X) 和 DX 时,估计概率 P{|X-EX|<ε} 的界限。这个估计较为粗糙,如果已知 X 的分布,那么概率可以确切计算时,就无需用此不等式估计。

  • 设随机变量序列\({X_i}\)两两不线性相关,且存在期望,方差存在且有共同有限上界(方差一致有界),那么当n很大的时候,样本的平均数将无限接近总体平均数;

Tips

  • 将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据==样本平均数==估计==总体平均数==提供了理论依据。
  • 重要的是随机变脸不需要是同分布的,所以相比于上述两个更有普遍性;

平均数 ( 均值 )是一个统计学的概念; 期望是一个概率论的概念。 平均数是实验后根据实际结果统计得到的样本的平均值 ; 期望是实验前根据概率分布“预测”的样本平 均值 。

  • 意义1, 用算术平均值代替数学期望,
  • 意义2, 样本均值代替总平均值;
  • 意义3, 频率代替概率

独立同分布的中心极限定律⚓︎

  • 设随机变量序列\({X_i}\)是独立同分布的,期望 \(\mu\), 方差 \(\sigma^2\), 那么\({X_i}\) 是服从中心极限定理的,也就是说,这些==随机变量和==的==标准化变量==是近似服从标准正态分布的;
  • 数学表示:\(\sum \limits^{n}_{k=1} x_k \sim N(n\mu, n\sigma^2)\)

    • 随机变量期望的标准化:\(\dfrac{\sum \limits^{n}_{k = 1} x_k - n\mu }{\sqrt{n} \sigma}\)
    • (也就是:随机变量减去期望再除以标准差)
  • 大量相互独立且同分布随机变量的和经适当标准化后依分布收敛于正态分布。

棣莫弗 - 拉普拉斯中心极限定理⚓︎

  • 随机变量\({X_i}\) 是服从参数 \(n, p\) 的二项分布,那么他以正态分布\(N(np, np(1-p))\)为极限分布;

当样本容量趋向于无穷时,统计量的分布如果会趋近一个确定的分布,就称这个确定分布是该统计量的极限分布 - 该定理为独立同分布的中心极限定理的特殊情况。该定理表明,正态分布是二项分布的极限分布,当试验次数 \(n\) 足够大时,可以用正态分布近似计算二项分布;

Notes

  • 证明方法就是把二项分布看作\(n\)个独立的0-1分布,然后利用独立同分布的中心极限定律来证明;
  • 应用:一本20万字的长篇小说进行排版。假定每个字被错排的概率为10^{-5}。试求这本小说出版后发现有6个以上错字的概率,假定各个字是否被错排是相互独立的。
    • 典型的一个二项分布,但是20w太大了,就只能近似成\(N(np, np(1-p))\)
  • 中心极限定理是随机变量和的分布收敛到正态分布的一类定理,而随机变量的和又和随机变量的均值有密切的联系,而大数定律论证的主要部分就是随机变量均值的收敛性特点,因此,中心极限定理和大数定律之间有千丝万缕的联系。

  • 大数定律是说,\(n\)只要越来越大,把这\(n\)个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值\(u\),但是样本均值的分布是怎样的我们不知道

  • 中心极限定理是说,\(n\)只要越来越大,这\(n\)个数的样本均值会趋近于正态分布,并且这个正态分布以\(\mu\)为均值,\(\sigma^2/n\)为方差

  • 综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于总体均值。中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小;