跳转至

第 2 章 随机变量及其分布⚓︎

约 1276 个字 预计阅读时间 4 分钟 总阅读量

本章核心

掌握离散型和连续型随机变量的分布规律,理解分布函数与概率密度的关系,熟练运用正态分布标准化变换和随机变量函数的分布求法。


1. 随机变量的概念⚓︎

1.1 定义⚓︎

设随机试验的样本空间为 \(S\),若对于每个样本点 \(e \in S\),都有唯一的实数 \(X(e)\) 与之对应,则称 \(X(e)\)随机变量(Random Variable, r.v.),简记为 \(X\)

1.2 分类⚓︎

  • 离散型随机变量:全部可能取值为有限多个或可列无限多个。
  • 连续型随机变量:取值充满某个区间。
  • 其他类型

1.3 意义⚓︎

用随机变量表示试验结果及事件,便于进行数学运算,全面揭示随机现象的统计规律。

  • 事件表示:\(\{X \in L\}\)\(\{X \le x\}\)\(\{x_1 < X \le x_2\}\) 等。

2. 离散型随机变量及其分布律⚓︎

2.1 分布律(概率分布)⚓︎

设离散型 r.v. \(X\) 所有可能取值为 \(x_k (k=1, 2, \dots)\),则称

\[P\{X = x_k\} = p_k, \quad k=1, 2, \dots\]

\(X\)分布律

性质:

  1. 非负性:\(p_k \ge 0, \quad k=1, 2, \dots\)
  2. 规范性:\(\sum_{k} p_k = 1\)

2.2 重要的离散型分布⚓︎

(1) 0-1 分布 (两点分布)⚓︎

  • 定义\(X\) 只取 0 和 1 两个值。
  • 分布律\(P\{X=1\}=p, \quad P\{X=0\}=1-p \quad (0<p<1)\)
  • 应用:产品合格与否、射击命中与否等只有两个结果的试验。

(2) 二项分布 \(b(n, p)\)⚓︎

  • 背景\(n\) 重伯努利试验中事件 \(A\) 发生的次数 \(X\)
  • 分布律
\[P\{X=k\} = C_n^k p^k q^{n-k}, \quad k=0, 1, \dots, n \quad (q=1-p)\]
  • 最可能成功次数 (Mode)

使 \(P\{X=k\}\) 达到最大的 \(k\) 值。

  • \((n+1)p\) 为整数,则 \(k=(n+1)p\)\(k=(n+1)p-1\) 同时最大。
  • \((n+1)p\) 不为整数,则 \(k=[(n+1)p]\) 处最大。

例题 1

20 只元件中一级品率为 0.2,求一级品只数 \(X\) 的分布律及最可能值。

\(X \sim b(20, 0.2)\)\((n+1)p = 21 \times 0.2 = 4.2\),非整数,故最可能值为 \(k=[4.2]=4\)

(3) 泊松分布 \(\pi(\lambda)\)⚓︎

  • 分布律
\[P\{X=k\} = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0, 1, 2, \dots \quad (\lambda > 0)\]
  • 泊松定理 (重要)

\(n\) 很大,\(p\) 很小,且 \(\lambda = np\) 适中时,二项分布可用泊松分布近似:

\[C_n^k p^k (1-p)^{n-k} \approx \frac{\lambda^k e^{-\lambda}}{k!}\]
  • 应用:电话呼唤次数、印刷错误数、交通事故数等稀有事件。

例题 2

射击命中率 0.02,独立射击 400 次,求至少击中 2 次的概率。

\(X \sim b(400, 0.02)\)\(\lambda = np = 8\)

\(P\{X \ge 2\} = 1 - P\{X=0\} - P\{X=1\} \approx 1 - e^{-8} - 8e^{-8} \approx 0.997\)

(4) 几何分布⚓︎

  • 背景:重复独立试验,直到首次成功为止所需的试验次数 \(X\)
  • 分布律\(P\{X=k\} = q^{k-1}p, \quad k=1, 2, \dots\)

(5) 超几何分布⚓︎

  • 背景\(N\) 件产品中有 \(M\) 件次品,无放回抽取 \(n\) 件,次品数 \(X\)
  • 分布律\(P\{X=k\} = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}\)

(6) 负二项分布⚓︎

  • 背景:伯努利试验序列中事件 \(A\)\(r\) 次出现时所需的试验次数 \(X\)
  • 分布律\(P\{X=k\} = C_{k-1}^{r-1} p^r (1-p)^{k-r}, \quad k=r, r+1, \dots\)

3. 随机变量的分布函数⚓︎

3.1 定义⚓︎

\(X\) 为随机变量,\(x \in \mathbb{R}\),称函数

\[F(x) = P\{X \le x\}\]

\(X\)分布函数 (CDF)。

3.2 性质⚓︎

  1. 单调性\(F(x)\) 是单调不减函数。
  2. 规范性\(0 \le F(x) \le 1\),且 \(\lim_{x \to -\infty} F(x) = 0\)\(\lim_{x \to +\infty} F(x) = 1\)
  3. 右连续性\(F(x+0) = F(x)\)

鉴别条件

以上三条是鉴别函数是否为分布函数的充要条件

3.3 与分布律/概率密度的关系⚓︎

  • 离散型\(F(x) = \sum_{x_k \le x} p_k\),图形呈阶梯状,跳跃度为 \(p_k\)
  • 连续型\(F(x)\) 是连续函数,\(P\{x_1 < X \le x_2\} = F(x_2) - F(x_1)\)

4. 连续型随机变量及其概率密度⚓︎

4.1 定义⚓︎

若存在非负函数 \(f(x)\),使得对于任意实数 \(x\),有

\[F(x) = \int_{-\infty}^{x} f(t) dt\]

则称 \(X\)连续型随机变量\(f(x)\) 称为概率密度函数 (PDF)。

4.2 性质⚓︎

  1. 非负性:\(f(x) \ge 0\)
  2. 规范性:\(\int_{-\infty}^{+\infty} f(x) dx = 1\)
  3. 概率计算:\(P\{x_1 < X \le x_2\} = \int_{x_1}^{x_2} f(x) dx = F(x_2) - F(x_1)\)
  4. 重要结论:连续型 r.v. 取任一指定实数值 \(a\) 的概率为 0,即 \(P\{X=a\} = 0\)

重要推论

因此区间端点是否包含不影响概率计算

  1. \(f(x)\)\(x\) 处连续,则 \(F'(x) = f(x)\)

4.3 重要的连续型分布⚓︎

(1) 均匀分布 \(U(a, b)\)⚓︎

  • 密度
\[f(x) = \begin{cases} \frac{1}{b-a}, & a < x < b \\ 0, & \text{其它} \end{cases}\]
  • 特点:落在 \((a, b)\) 内任意子区间的概率与该子区间长度成正比。

(2) 指数分布 \(e(\theta)\)\(E(\lambda)\)⚓︎

  • 密度
\[f(x) = \begin{cases} \frac{1}{\theta} e^{-x/\theta}, & x > 0 \\ 0, & x \le 0 \end{cases} \quad (\theta > 0)\]

(注:部分教材记 \(\lambda = 1/\theta\),则 \(f(x) = \lambda e^{-\lambda x}\))

  • 分布函数\(F(x) = 1 - e^{-x/\theta}, \quad x > 0\)
  • 无记忆性 (重要)
\[P\{X > s+t \mid X > s\} = P\{X > t\}\]

表明寿命"无老化",常用于寿命分布、服务时间近似。

(3) 正态分布 \(N(\mu, \sigma^2)\)⚓︎

  • 密度
\[f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty\]
  • 参数意义
  • \(\mu\):位置参数(均值),决定对称轴。
  • \(\sigma\):尺度参数(标准差),决定形状陡峭程度(\(\sigma\) 越小越陡峭)。
  • 标准正态分布\(\mu=0, \sigma=1\),记为 \(N(0, 1)\),密度 \(\varphi(x)\),分布函数 \(\Phi(x)\)
  • 标准化变换 (核心难点)

\(X \sim N(\mu, \sigma^2)\),则 \(Z = \frac{X-\mu}{\sigma} \sim N(0, 1)\)

概率计算:

\[P\{x_1 < X \le x_2\} = \Phi\left(\frac{x_2-\mu}{\sigma}\right) - \Phi\left(\frac{x_1-\mu}{\sigma}\right)\]
  • 性质
  • 对称性:\(\Phi(-x) = 1 - \Phi(x)\)
  • \(3\sigma\) 原则
    • \(P\{\mu-\sigma \le X \le \mu+\sigma\} \approx 0.6826\)
    • \(P\{\mu-2\sigma \le X \le \mu+2\sigma\} \approx 0.9544\)
    • \(P\{\mu-3\sigma \le X \le \mu+3\sigma\} \approx 0.9974\)

例题 3

\(X \sim N(1, 4)\),求 \(P\{0 < X \le 1.6\}\)

\(\mu=1, \sigma=2\)

\(P = \Phi(\frac{1.6-1}{2}) - \Phi(\frac{0-1}{2}) = \Phi(0.3) - \Phi(-0.5) = \Phi(0.3) - [1-\Phi(0.5)]\)

查表代入计算即可。

(4) 伽玛分布 \(\Gamma(p, \lambda)\)⚓︎

  • 密度
\[f(x) = \begin{cases} \frac{\lambda^p}{\Gamma(p)} x^{p-1} e^{-\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}\]
  • 特例\(\Gamma(1, \lambda)\) 为指数分布;\(\chi^2\) 分布是伽玛分布的特例。

5. 随机变量的函数分布⚓︎

5.1 离散型 r.v. 的函数分布⚓︎

方法:

  1. 确定 \(Y=g(X)\) 的所有可能取值 \(y_i = g(x_i)\)
  2. \(y_i\) 互不相同,则 \(P\{Y=y_i\} = P\{X=x_i\}\)
  3. \(y_i\) 有相等值,合并同类项,概率相加(概率加法公式)。

5.2 连续型 r.v. 的函数分布⚓︎

方法一:分布函数法 (通用)⚓︎

  1. \(Y\) 的分布函数:\(F_Y(y) = P\{Y \le y\} = P\{g(X) \le y\} = \int_{G} f_X(x) dx\),其中 \(G=\{x|g(x) \le y\}\)
  2. 求导得密度:\(f_Y(y) = F_Y'(y)\)

方法二:公式法 (单调函数)⚓︎

\(y=g(x)\) 处处可导且恒有 \(g'(x)>0\)\(g'(x)<0\),反函数为 \(x=h(y)\),则:

\[f_Y(y) = \begin{cases} f_X(h(y)) |h'(y)|, & \alpha < y < \beta \\ 0, & \text{其它} \end{cases}\]

其中 \((\alpha, \beta)\)\(g(x)\) 的值域。

方法三:公式法 (分段单调)⚓︎

\(g(x)\) 在不相重叠区间上逐段严格单调,反函数分别为 \(h_1, h_2, \dots\),则:

\[f_Y(y) = \sum_i f_X(h_i(y)) |h_i'(y)|\]

例题 4

\(X \sim N(0, 1)\),求 \(Y=X^2\) 的概率密度。

\(y=x^2\)\((-\infty, 0)\)\((0, +\infty)\) 分段单调。

\(y>0\) 时,\(x = \pm\sqrt{y}\)

\(f_Y(y) = f_X(\sqrt{y})|\frac{1}{2\sqrt{y}}| + f_X(-\sqrt{y})|-\frac{1}{2\sqrt{y}}| = \frac{1}{\sqrt{2\pi y}} e^{-y/2}\)

(即自由度为 1 的 \(\chi^2\) 分布)

例题 5

\(X \sim N(\mu, \sigma^2)\),求 \(Y=aX+b (a>0)\) 的分布。

:线性变换仍为正态分布。

\(Y \sim N(a\mu+b, a^2\sigma^2)\)


性质总结⚓︎

知识点总结

离散型:若 \(X\) 的分布律为 \(p_k\),则 \(Y=g(X)\) 的分布律是将相同 \(g(x_k)\) 对应的概率求和。

连续型 (分布函数法):先求 \(F_Y(y) = P(g(X) \le y)\),再求导得到 \(f_Y(y)\)

单调函数公式法:若 \(y=g(x)\) 严格单调可导,反函数为 \(h(y)\),则:

\[f_Y(y) = f_X(h(y)) \cdot |h'(y)|\]

习题⚓︎

  1. :设 \(X \sim N(\mu, \sigma^2)\),求 \(Y = aX + b\) (\(a \neq 0\)) 的概率密度。

结论:线性变换后的随机变量仍服从正态分布,\(Y \sim N(a\mu+b, a^2\sigma^2)\)

  1. :设 \(X \sim N(0, 1)\),求 \(Y = X^2\) 的概率密度。

结论:此分布为自由度为 1 的 \(\chi^2\) (卡方) 分布。


补充提示⚓︎

重要提示

正态分布的性质:注意"三倍标准差"原则,\(X\) 的取值几乎全部落在 \([\mu-3\sigma, \mu+3\sigma]\) 范围内。

标准正态转换:若 \(X \sim N(\mu, \sigma^2)\),则 \(Z = \frac{X-\mu}{\sigma} \sim N(0, 1)\)。计算概率时通用公式为 \(P(X \le x) = \Phi(\frac{x-\mu}{\sigma})\)