第 2 章 随机变量及其分布⚓︎
约 1276 个字 预计阅读时间 4 分钟 总阅读量 次
本章核心
掌握离散型和连续型随机变量的分布规律,理解分布函数与概率密度的关系,熟练运用正态分布标准化变换和随机变量函数的分布求法。
1. 随机变量的概念⚓︎
1.1 定义⚓︎
设随机试验的样本空间为 \(S\),若对于每个样本点 \(e \in S\),都有唯一的实数 \(X(e)\) 与之对应,则称 \(X(e)\) 为随机变量(Random Variable, r.v.),简记为 \(X\)。
1.2 分类⚓︎
- 离散型随机变量:全部可能取值为有限多个或可列无限多个。
- 连续型随机变量:取值充满某个区间。
- 其他类型。
1.3 意义⚓︎
用随机变量表示试验结果及事件,便于进行数学运算,全面揭示随机现象的统计规律。
- 事件表示:\(\{X \in L\}\),\(\{X \le x\}\),\(\{x_1 < X \le x_2\}\) 等。
2. 离散型随机变量及其分布律⚓︎
2.1 分布律(概率分布)⚓︎
设离散型 r.v. \(X\) 所有可能取值为 \(x_k (k=1, 2, \dots)\),则称
\[P\{X = x_k\} = p_k, \quad k=1, 2, \dots\]
为 \(X\) 的分布律。
性质:
- 非负性:\(p_k \ge 0, \quad k=1, 2, \dots\)
- 规范性:\(\sum_{k} p_k = 1\)
2.2 重要的离散型分布⚓︎
(1) 0-1 分布 (两点分布)⚓︎
- 定义:\(X\) 只取 0 和 1 两个值。
- 分布律:\(P\{X=1\}=p, \quad P\{X=0\}=1-p \quad (0<p<1)\)。
- 应用:产品合格与否、射击命中与否等只有两个结果的试验。
(2) 二项分布 \(b(n, p)\)⚓︎
- 背景:\(n\) 重伯努利试验中事件 \(A\) 发生的次数 \(X\)。
- 分布律:
\[P\{X=k\} = C_n^k p^k q^{n-k}, \quad k=0, 1, \dots, n \quad (q=1-p)\]
- 最可能成功次数 (Mode):
使 \(P\{X=k\}\) 达到最大的 \(k\) 值。
- 若 \((n+1)p\) 为整数,则 \(k=(n+1)p\) 和 \(k=(n+1)p-1\) 同时最大。
- 若 \((n+1)p\) 不为整数,则 \(k=[(n+1)p]\) 处最大。
例题 1
20 只元件中一级品率为 0.2,求一级品只数 \(X\) 的分布律及最可能值。
解:\(X \sim b(20, 0.2)\)。\((n+1)p = 21 \times 0.2 = 4.2\),非整数,故最可能值为 \(k=[4.2]=4\)。
(3) 泊松分布 \(\pi(\lambda)\)⚓︎
- 分布律:
\[P\{X=k\} = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0, 1, 2, \dots \quad (\lambda > 0)\]
- 泊松定理 (重要):
当 \(n\) 很大,\(p\) 很小,且 \(\lambda = np\) 适中时,二项分布可用泊松分布近似:
\[C_n^k p^k (1-p)^{n-k} \approx \frac{\lambda^k e^{-\lambda}}{k!}\]
- 应用:电话呼唤次数、印刷错误数、交通事故数等稀有事件。
例题 2
射击命中率 0.02,独立射击 400 次,求至少击中 2 次的概率。
解:\(X \sim b(400, 0.02)\),\(\lambda = np = 8\)。
\(P\{X \ge 2\} = 1 - P\{X=0\} - P\{X=1\} \approx 1 - e^{-8} - 8e^{-8} \approx 0.997\)。
(4) 几何分布⚓︎
- 背景:重复独立试验,直到首次成功为止所需的试验次数 \(X\)。
- 分布律:\(P\{X=k\} = q^{k-1}p, \quad k=1, 2, \dots\)
(5) 超几何分布⚓︎
- 背景:\(N\) 件产品中有 \(M\) 件次品,无放回抽取 \(n\) 件,次品数 \(X\)。
- 分布律:\(P\{X=k\} = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}\)。
(6) 负二项分布⚓︎
- 背景:伯努利试验序列中事件 \(A\) 第 \(r\) 次出现时所需的试验次数 \(X\)。
- 分布律:\(P\{X=k\} = C_{k-1}^{r-1} p^r (1-p)^{k-r}, \quad k=r, r+1, \dots\)
3. 随机变量的分布函数⚓︎
3.1 定义⚓︎
设 \(X\) 为随机变量,\(x \in \mathbb{R}\),称函数
\[F(x) = P\{X \le x\}\]
为 \(X\) 的分布函数 (CDF)。
3.2 性质⚓︎
- 单调性:\(F(x)\) 是单调不减函数。
- 规范性:\(0 \le F(x) \le 1\),且 \(\lim_{x \to -\infty} F(x) = 0\),\(\lim_{x \to +\infty} F(x) = 1\)。
- 右连续性:\(F(x+0) = F(x)\)。
鉴别条件
以上三条是鉴别函数是否为分布函数的充要条件。
3.3 与分布律/概率密度的关系⚓︎
- 离散型:\(F(x) = \sum_{x_k \le x} p_k\),图形呈阶梯状,跳跃度为 \(p_k\)。
- 连续型:\(F(x)\) 是连续函数,\(P\{x_1 < X \le x_2\} = F(x_2) - F(x_1)\)。
4. 连续型随机变量及其概率密度⚓︎
4.1 定义⚓︎
若存在非负函数 \(f(x)\),使得对于任意实数 \(x\),有
\[F(x) = \int_{-\infty}^{x} f(t) dt\]
则称 \(X\) 为连续型随机变量,\(f(x)\) 称为概率密度函数 (PDF)。
4.2 性质⚓︎
- 非负性:\(f(x) \ge 0\)。
- 规范性:\(\int_{-\infty}^{+\infty} f(x) dx = 1\)。
- 概率计算:\(P\{x_1 < X \le x_2\} = \int_{x_1}^{x_2} f(x) dx = F(x_2) - F(x_1)\)。
- 重要结论:连续型 r.v. 取任一指定实数值 \(a\) 的概率为 0,即 \(P\{X=a\} = 0\)。
重要推论
因此区间端点是否包含不影响概率计算。
- 若 \(f(x)\) 在 \(x\) 处连续,则 \(F'(x) = f(x)\)。
4.3 重要的连续型分布⚓︎
(1) 均匀分布 \(U(a, b)\)⚓︎
- 密度:
\[f(x) = \begin{cases} \frac{1}{b-a}, & a < x < b \\ 0, & \text{其它} \end{cases}\]
- 特点:落在 \((a, b)\) 内任意子区间的概率与该子区间长度成正比。
(2) 指数分布 \(e(\theta)\) 或 \(E(\lambda)\)⚓︎
- 密度:
\[f(x) = \begin{cases} \frac{1}{\theta} e^{-x/\theta}, & x > 0 \\ 0, & x \le 0 \end{cases} \quad (\theta > 0)\]
(注:部分教材记 \(\lambda = 1/\theta\),则 \(f(x) = \lambda e^{-\lambda x}\))
- 分布函数:\(F(x) = 1 - e^{-x/\theta}, \quad x > 0\)。
- 无记忆性 (重要):
\[P\{X > s+t \mid X > s\} = P\{X > t\}\]
表明寿命"无老化",常用于寿命分布、服务时间近似。
(3) 正态分布 \(N(\mu, \sigma^2)\)⚓︎
- 密度:
\[f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty\]
- 参数意义:
- \(\mu\):位置参数(均值),决定对称轴。
- \(\sigma\):尺度参数(标准差),决定形状陡峭程度(\(\sigma\) 越小越陡峭)。
- 标准正态分布:\(\mu=0, \sigma=1\),记为 \(N(0, 1)\),密度 \(\varphi(x)\),分布函数 \(\Phi(x)\)。
- 标准化变换 (核心难点):
若 \(X \sim N(\mu, \sigma^2)\),则 \(Z = \frac{X-\mu}{\sigma} \sim N(0, 1)\)。
概率计算:
\[P\{x_1 < X \le x_2\} = \Phi\left(\frac{x_2-\mu}{\sigma}\right) - \Phi\left(\frac{x_1-\mu}{\sigma}\right)\]
- 性质:
- 对称性:\(\Phi(-x) = 1 - \Phi(x)\)。
- \(3\sigma\) 原则:
- \(P\{\mu-\sigma \le X \le \mu+\sigma\} \approx 0.6826\)
- \(P\{\mu-2\sigma \le X \le \mu+2\sigma\} \approx 0.9544\)
- \(P\{\mu-3\sigma \le X \le \mu+3\sigma\} \approx 0.9974\)
例题 3
\(X \sim N(1, 4)\),求 \(P\{0 < X \le 1.6\}\)。
解:\(\mu=1, \sigma=2\)。
\(P = \Phi(\frac{1.6-1}{2}) - \Phi(\frac{0-1}{2}) = \Phi(0.3) - \Phi(-0.5) = \Phi(0.3) - [1-\Phi(0.5)]\)。
查表代入计算即可。
(4) 伽玛分布 \(\Gamma(p, \lambda)\)⚓︎
- 密度:
\[f(x) = \begin{cases} \frac{\lambda^p}{\Gamma(p)} x^{p-1} e^{-\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}\]
- 特例:\(\Gamma(1, \lambda)\) 为指数分布;\(\chi^2\) 分布是伽玛分布的特例。
5. 随机变量的函数分布⚓︎
5.1 离散型 r.v. 的函数分布⚓︎
方法:
- 确定 \(Y=g(X)\) 的所有可能取值 \(y_i = g(x_i)\)。
- 若 \(y_i\) 互不相同,则 \(P\{Y=y_i\} = P\{X=x_i\}\)。
- 若 \(y_i\) 有相等值,合并同类项,概率相加(概率加法公式)。
5.2 连续型 r.v. 的函数分布⚓︎
方法一:分布函数法 (通用)⚓︎
- 求 \(Y\) 的分布函数:\(F_Y(y) = P\{Y \le y\} = P\{g(X) \le y\} = \int_{G} f_X(x) dx\),其中 \(G=\{x|g(x) \le y\}\)。
- 求导得密度:\(f_Y(y) = F_Y'(y)\)。
方法二:公式法 (单调函数)⚓︎
若 \(y=g(x)\) 处处可导且恒有 \(g'(x)>0\) 或 \(g'(x)<0\),反函数为 \(x=h(y)\),则:
\[f_Y(y) = \begin{cases} f_X(h(y)) |h'(y)|, & \alpha < y < \beta \\ 0, & \text{其它} \end{cases}\]
其中 \((\alpha, \beta)\) 是 \(g(x)\) 的值域。
方法三:公式法 (分段单调)⚓︎
若 \(g(x)\) 在不相重叠区间上逐段严格单调,反函数分别为 \(h_1, h_2, \dots\),则:
\[f_Y(y) = \sum_i f_X(h_i(y)) |h_i'(y)|\]
例题 4
\(X \sim N(0, 1)\),求 \(Y=X^2\) 的概率密度。
解:\(y=x^2\) 在 \((-\infty, 0)\) 和 \((0, +\infty)\) 分段单调。
当 \(y>0\) 时,\(x = \pm\sqrt{y}\)。
\(f_Y(y) = f_X(\sqrt{y})|\frac{1}{2\sqrt{y}}| + f_X(-\sqrt{y})|-\frac{1}{2\sqrt{y}}| = \frac{1}{\sqrt{2\pi y}} e^{-y/2}\)。
(即自由度为 1 的 \(\chi^2\) 分布)
例题 5
\(X \sim N(\mu, \sigma^2)\),求 \(Y=aX+b (a>0)\) 的分布。
解:线性变换仍为正态分布。
\(Y \sim N(a\mu+b, a^2\sigma^2)\)。
性质总结⚓︎
知识点总结
离散型:若 \(X\) 的分布律为 \(p_k\),则 \(Y=g(X)\) 的分布律是将相同 \(g(x_k)\) 对应的概率求和。
连续型 (分布函数法):先求 \(F_Y(y) = P(g(X) \le y)\),再求导得到 \(f_Y(y)\)。
单调函数公式法:若 \(y=g(x)\) 严格单调可导,反函数为 \(h(y)\),则:
\[f_Y(y) = f_X(h(y)) \cdot |h'(y)|\]
习题⚓︎
- 例:设 \(X \sim N(\mu, \sigma^2)\),求 \(Y = aX + b\) (\(a \neq 0\)) 的概率密度。
结论:线性变换后的随机变量仍服从正态分布,\(Y \sim N(a\mu+b, a^2\sigma^2)\)。
- 例:设 \(X \sim N(0, 1)\),求 \(Y = X^2\) 的概率密度。
结论:此分布为自由度为 1 的 \(\chi^2\) (卡方) 分布。
补充提示⚓︎
重要提示
正态分布的性质:注意"三倍标准差"原则,\(X\) 的取值几乎全部落在 \([\mu-3\sigma, \mu+3\sigma]\) 范围内。
标准正态转换:若 \(X \sim N(\mu, \sigma^2)\),则 \(Z = \frac{X-\mu}{\sigma} \sim N(0, 1)\)。计算概率时通用公式为 \(P(X \le x) = \Phi(\frac{x-\mu}{\sigma})\)。