第 6 章:大数定律与中心极限定理⚓︎
约 1870 个字 预计阅读时间 6 分钟 总阅读量 次
核心要点
本习题集涵盖大数定律与中心极限定理的核心应用。解题关键在于构造标准化变量 \(Z = \frac{\sum X_i - n\mu}{\sqrt{n}\sigma}\),将一般随机变量转化为标准正态分布 \(N(0,1)\),再利用 \(\Phi(x)\) 查表计算。
例 1:加法器噪声电压问题⚓︎
题目:
一加法器同时收到 20 个噪声电压 \(V_k (k=1, 2, \cdots, 20)\),设它们是相互独立的随机变量,且都在区间 \((0, 10)\) 上服从均匀分布。记 \(V = \sum_{k=1}^{20} V_k\),求 \(P\{V > 105\}\) 的近似值。
解答:
易知 \(E(V_k) = 5\),\(D(V_k) = 100/12 (k=1, 2, \cdots, 20)\)。
由独立同分布的中心极限定理知,随机变量:
\[
Z = \frac{V - 20 \times 5}{\sqrt{20 \times 100/12}} \text{ 近似服从正态分布 } N(0, 1)
\]
于是:
\[
\begin{aligned}
P\{V > 105\} &= P\left\{ \frac{V - 20 \times 5}{\sqrt{20 \times 100/12}} > \frac{105 - 20 \times 5}{\sqrt{20 \times 100/12}} \right\} \\
&= P\{ Z > 0.387 \} \\
&= 1 - P\{ Z \le 0.387 \} \\
&= 1 - \Phi(0.387) \\
&\approx 1 - 0.651 \\
&= 0.349
\end{aligned}
\]
即有 \(P\{V > 105\} \approx 0.349\)。
考查思路:
本题考查独立同分布中心极限定理的应用。当独立随机变量数量较多时,其和的分布近似于正态分布。
要点重点:
- 识别随机变量服从均匀分布,计算期望 \(E(V_k)\) 和方差 \(D(V_k)\)
- 构造标准化变量 \(Z = \frac{\sum X_i - n\mu}{\sqrt{n}\sigma}\)
- 利用标准正态分布函数 \(\Phi(x)\) 查表计算概率
例 2:船舶波浪冲击问题⚓︎
题目:
一船舶在某海区航行,已知每遭受一次波浪的冲击,纵摇角大于 \(3^\circ\) 的概率 \(p=1/3\)。若船舶遭受了 90000 次波浪冲击,问其中有 29500~30500 次纵摇角大于 \(3^\circ\) 的概率是多少?
解答:
将船舶每遭受一次波浪冲击看成是一次试验,并假定每次试验是独立的。
在 90000 次波浪冲击中纵摇角度大于 \(3^\circ\) 的次数记为 \(X\),则 \(X\) 是一个随机变量且 \(X \sim b(90000, 1/3)\)。
其分布律为:
\[
P\{X=k\} = C_{90000}^k \left(\frac{1}{3}\right)^k \left(\frac{2}{3}\right)^{90000-k}, \quad k=0, 1, \cdots, 90000
\]
所求概率为 \(P\{29500 < X \le 30500\}\)。
显然,直接计算十分麻烦,利用棣莫佛 - 拉普拉斯定理来近似求解。
其中 \(n=90000, p=1/3\)。即有:
\[
\begin{aligned}
P\{29500 < X \le 30500\} &= P\left\{ \frac{29500 - np}{\sqrt{np(1-p)}} < \frac{X - np}{\sqrt{np(1-p)}} \le \frac{30500 - np}{\sqrt{np(1-p)}} \right\} \\
&\approx \Phi\left( \frac{30500 - np}{\sqrt{np(1-p)}} \right) - \Phi\left( \frac{29500 - np}{\sqrt{np(1-p)}} \right) \\
&= \Phi\left( \frac{30500 - 30000}{\sqrt{20000}} \right) - \Phi\left( \frac{29500 - 30000}{\sqrt{20000}} \right) \\
&= \Phi(5\sqrt{2}/2) - \Phi(-5\sqrt{2}/2) \\
&= 2\Phi(3.536) - 1 \\
&\approx 0.9995
\end{aligned}
\]
考查思路:
本题考查二项分布的正态近似(棣莫佛 - 拉普拉斯定理)。当 \(n\) 很大时,二项分布可以用正态分布近似计算。
要点重点:
- 识别二项分布模型 \(X \sim b(n, p)\)
- 计算 \(np\) 和 \(np(1-p)\) 作为正态近似的均值和方差
- 标准化后利用 \(\Phi(x)\) 计算区间概率
例 3:电话分机外线问题⚓︎
题目:
有 240 台电话分机,独立使用,每台话机约有 5% 的时间使用外线。问总机至少需要多少外线才能 90% 以上的概率保证各分机用外线不必等候。
解答:
设 \(X\) 为 240 台分机中同时需用外线的台数,显然 \(X \sim b(240, 0.05)\)。
即求最小的 \(N\),使得 \(P\{0 \le X \le N\} \ge 0.9\)。
由于 \(n=240\) 很大,而 \(E(X) = np = 240 \times 0.05 = 12\),\(D(X) = npq = 12 \times 0.95 = 11.4\)。
由棣莫佛—拉普拉斯定理知:
\[
\begin{aligned}
P\{0 \le X \le N\} &= P\left\{ \frac{0 - 12}{\sqrt{11.4}} \le \frac{X - 12}{\sqrt{11.4}} \le \frac{N - 12}{\sqrt{11.4}} \right\} \\
&\approx \Phi\left( \frac{N - 12}{\sqrt{11.4}} \right) - \Phi\left( \frac{-12}{\sqrt{11.4}} \right) \\
&\approx \Phi\left( \frac{N - 12}{3.38} \right) \ge 0.9
\end{aligned}
\]
查正态分布表得 \(\Phi(1.28) = 0.8997 < 0.9\),\(\Phi(1.29) = 0.9015 > 0.9\)。
故取 \(\frac{N - 12}{3.38} \ge 1.29\),解得 \(N \ge 16.36\)。
于是 \(N=17\)。
即总机至少需要 17 条外线才可满足要求。
考查思路:
本题是中心极限定理在实际工程中的应用,考查如何根据概率要求反求参数(外线数量)。
要点重点:
- 建立二项分布模型
- 利用中心极限定理将概率不等式转化为标准正态分布函数的不等式
- 查表找到临界值 \(z_{\alpha}\) 并求解 \(N\)
例 4:生产线装箱超载问题⚓︎
题目:
一生产线生产的产品成箱包装,每箱的重量是随机的。假设每箱平均重 50kg,标准差为 5kg。若用最大载重量为 5t 的汽车承运,试利用中心极限定理说明每辆车最多可以装多少箱,才能保障不超载的概率大于 0.977(其中 \(\Phi(x)\) 是标准正态分布函数,\(\Phi(2)=0.977\))。
解答:
设装运的第 \(i\) 箱的重量 \(X_i (i=1, 2, \cdots, n)\),单位:kg,\(n\) 是所求箱数。
由条件可以把 \(X_i\) 视为独立同分布的随机变量,而 \(n\) 箱总重量 \(T_n = \sum_{i=1}^n X_i\) 是独立同分布的随机变量之和。
由条件知 \(E(X_i) = 50\),\(D(X_i) = 5^2 = 25\)。
从而有 \(E(T_n) = 50n\),\(D(T_n) = 25n\)。
根据独立同分布的中心极限定理,\(T_n\) 近似地服从 \(N(50n, 25n)\)。
即 \(\frac{T_n - 50n}{5\sqrt{n}}\) 近似地服从 \(N(0, 1)\)。
由 \(P\{T_n \le 5000\} > 0.977\):
\[
\begin{aligned}
P\{T_n \le 5000\} &= P\left\{ \frac{T_n - 50n}{5\sqrt{n}} \le \frac{5000 - 50n}{5\sqrt{n}} \right\} \\
&\approx \Phi\left( \frac{1000 - 10n}{\sqrt{n}} \right) > 0.977 = \Phi(2)
\end{aligned}
\]
由此可见 \(\frac{1000 - 10n}{\sqrt{n}} > 2\)。
解此不等式,得 \(n < 98.02\)。
从而 \(n \le 98\),即最多可以装 98 箱。
考查思路:
本题考查独立同分布中心极限定理的逆问题,已知概率要求,求样本量 \(n\) 的最大值。
要点重点:
- 确定总和变量 \(T_n\) 的期望和方差与 \(n\) 的关系
- 标准化处理,建立关于 \(n\) 的不等式
- 求解不等式注意取整数解
例 5:家长会家长人数问题⚓︎
题目:
对于一个学生而言,来参加家长会的家长人数是一个随机变量,设一个学生无家长、1 名家长、2 名家长来参加会议的概率分别为 0.05, 0.8, 0.15。若学校共有 400 名学生,设各学生参加会议的家长数相互独立,且服从同一分布。
(1) 求参加会议的家长数 \(X\) 超过 450 人的概率;
(2) 求恰有 1 名家长来参加会议的学生数不多于 340 的概率。
解答:
(1) 家长总数超过 450 人的概率
以 \(X_k (k=1, 2, \cdots, 400)\) 记第 \(k\) 个学生来参加会议的家长数,则 \(X_k\) 的分布律为:
| \(X_k\) | 0 | 1 | 2 |
|---|---|---|---|
| \(p_k\) | 0.05 | 0.8 | 0.15 |
易知 \(E(X_k) = 1.1\),\(D(X_k) = 0.19, (k=1, 2, \cdots, 400)\)。
而 \(X = \sum_{k=1}^{400} X_k\)。由独立同分布的中心极限定理,随机变量
\[
\frac{X - 400 \times 1.1}{\sqrt{400 \times 0.19}} \text{ 近似地服从正态分布 } N(0, 1)
\]
于是:
\[
\begin{aligned}
P\{X > 450\} &= P\left\{ \frac{X - 400 \times 1.1}{\sqrt{400 \times 0.19}} > \frac{450 - 400 \times 1.1}{\sqrt{400 \times 0.19}} \right\} \\
&= 1 - P\left\{ \frac{X - 440}{\sqrt{76}} \le 1.147 \right\} \\
&\approx 1 - \Phi(1.147) \\
&\approx 1 - 0.8743 \\
&= 0.1257
\end{aligned}
\]
(2) 恰有 1 名家长的学生数不多于 340 的概率
以 \(Y\) 记恰有一名家长来参加会议的学生数,则 \(Y \sim b(400, 0.8)\)。
由棣莫佛 - 拉普拉斯定理得:
\[
\begin{aligned}
P\{Y \le 340\} &= P\left\{ \frac{Y - 400 \times 0.8}{\sqrt{400 \times 0.8 \times 0.2}} \le \frac{340 - 400 \times 0.8}{\sqrt{400 \times 0.8 \times 0.2}} \right\} \\
&= P\left\{ \frac{Y - 320}{\sqrt{64}} \le \frac{20}{8} \right\} \\
&= P\{ Z \le 2.5 \} \\
&\approx \Phi(2.5) \\
&= 0.9938
\end{aligned}
\]
考查思路:
本题综合考查了独立同分布中心极限定理(一般随机变量之和)与棣莫佛 - 拉普拉斯定理(二项分布)的区别与应用。
要点重点:
- 第一问是独立同分布随机变量之和,需计算单个变量的期望和方差
- 第二问是计数问题,服从二项分布,直接使用二项分布的正态近似公式
- 注意两问中标准化分母的区别(方差计算不同)
补充例题 1:单边切比雪夫不等式应用(产量问题)⚓︎
题目:
设某周产量 \(X\) 具有均值 \(E(X)=100\) 和有限方差 \(D(X)=400\)。利用单边切比雪夫不等式估计本周产量至少为 120 的概率上界,并与马尔可夫不等式的结果进行比较。
解答:
利用单边切比雪夫不等式:
\[
P\{X \ge a\} \le \frac{\sigma^2}{\sigma^2 + (a - \mu)^2}
\]
这里 \(\mu=100, \sigma^2=400, a=120\)。
\[
\begin{aligned}
P\{X \ge 120\} &= P\{X - 100 \ge 20\} \\
&\le \frac{400}{400 + 20^2} \\
&= \frac{400}{800} \\
&= \frac{1}{2}
\end{aligned}
\]
这说明本周产量至少为 120 的概率不会超过 \(1/2\)。
如果直接利用马尔可夫不等式(\(P\{X \ge a\} \le \frac{E(X)}{a}\)),可得:
\[
P\{X \ge 120\} \le \frac{100}{120} = \frac{5}{6}
\]
这个上界就比较弱(上界越小,结论越强,若上界为 1,这个结论就没有任何意义了)。
考查思路:
本题考查单边切比雪夫不等式的具体应用及其相对于马尔可夫不等式的优越性(更紧的上界)。
要点重点:
- 掌握单边切比雪夫不等式的公式形式
- 理解方差信息如何帮助缩小概率上界
- 对比不同不等式给出的界限强弱
补充例题 2:男女配对问题(切比雪夫不等式应用)⚓︎
题目:
设有 100 名男人和 100 名女人,随机地将他们配成 100 对。设 \(X\) 为男女组的数量(即一男一女配对的对数)。利用切比雪夫不等式估计 \(X \le 30\) 的概率上界。
解答:
对所有男人任意地从 1 至 100 进行编号,对于 \(i=1, 2, \cdots, 100\),令
\[
X_i = \begin{cases} 1, & \text{男人 } i \text{ 所在的组内有女人} \\ 0, & \text{其他} \end{cases}
\]
这样,男女组的数量可以表示为 \(X = \sum_{i=1}^{100} X_i\)。
由已知第 \(i\) 个男人和其他 199 个人配对的概率是相等的,而其中有 100 个人是女人,我们有:
\[
E(X_i) = P\{X_i = 1\} = \frac{100}{199}
\]
类似地,对于 \(i \neq j\):
\[
\begin{aligned}
E(X_i X_j) &= P\{X_i = 1, X_j = 1\} \\
&= P\{X_i = 1\} P\{X_j = 1 \mid X_i = 1\} \\
&= \frac{100}{199} \cdot \frac{99}{197}
\end{aligned}
\]
计算方差:
\[
\begin{aligned}
\text{Var}(X) &= \sum_{i=1}^{100} \text{Var}(X_i) + 2 \sum_{i<j} \text{Cov}(X_i, X_j) \\
&= 100 \cdot \frac{100}{199} \cdot \frac{99}{199} + 2 \cdot C_{100}^2 \left( \frac{100}{199} \cdot \frac{99}{197} - \left(\frac{100}{199}\right)^2 \right) \\
&\approx 25.126
\end{aligned}
\]
期望 \(E(X) = 100 \times \frac{100}{199} \approx 50.25\)。
由切比雪夫不等式可得:
\[
\begin{aligned}
P\{X \le 30\} &= P\{X \le 50.25 - 20.25\} \\
&= P\{50.25 - X \ge 20.25\} \\
&\le \frac{\text{Var}(X)}{\text{Var}(X) + (20.25)^2} \quad (\text{利用单边切比雪夫}) \\
&\approx \frac{25.126}{25.126 + 410.06} \\
&\approx 0.061
\end{aligned}
\]
由此看出,最多对为一男一女的概率上界为 0.061。
考查思路:
本题考查利用指示变量法构造随机变量和,计算期望与方差,并应用切比雪夫不等式进行概率估计。
要点重点:
- 引入指示变量 \(X_i\) 将复杂计数问题转化为随机变量和
- 计算相关系数或协方差以求总方差(因为 \(X_i\) 不独立)
- 应用切比雪夫不等式估计偏离均值的概率
核心公式总结⚓︎
独立同分布中心极限定理
设 \(X_1, X_2, \cdots, X_n\) 是独立同分布的随机变量,\(E(X_i) = \mu\),\(D(X_i) = \sigma^2\),则当 \(n\) 充分大时: $$ \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} \sim N(0, 1) $$
棣莫佛 - 拉普拉斯定理
设 \(X \sim b(n, p)\),则当 \(n\) 充分大时: $$ \frac{X - np}{\sqrt{np(1-p)}} \sim N(0, 1) $$
单边切比雪夫不等式
设随机变量 \(X\) 具有均值 \(\mu\) 和方差 \(\sigma^2\),则对任意 \(a > \mu\): $$ P{X \ge a} \le \frac{\sigma2}{\sigma2 + (a - \mu)^2} $$