跳转至

随机变量及其分布⚓︎

约 1112 个字 预计阅读时间 4 分钟 总阅读量

  • 离散型随机变量
  • 连续型随机变量

0-1分布⚓︎


二项分布 Binomial⚓︎

某试验只有两个结果,A发生和A不发生,在n次独立重复的伯努利实验中,设每次试验中事件A发生的概率为 \(p\)。用 \(X\) 表示 \(n\) 重伯努利试验中事件\(A\)发生的次数,事件 \({X=k}\) 即为“\(n\)次试验中事件A恰好发生 \(k\)次”

  • \(X \sim b(n,p)\)
  • 使得\(P(n=k)\) 最大的数k,称为最可能成功的次数
  • \(E(X) = np\)
  • \(D(X) = np(1-p)\)

e.g. 医学中描述病人是否患病;管理学中估计机器故障概率决定所需要的维修工人数量;经济学保险学中用来估计保险费用...

  • 一大批产品合格率0.2。从一大批中抽取20个,求20个中合格品个数X的分布律;

\(P(X = 20) = (0.2)^{20}; P(X = 19) = (0.2)^{19} \times 0.8 \times C^{1}_{20};\)

\(P(X = n) = C^{n}_{20}(0.2)^n \times (0.8)^{20-n}\)

(单峰式, 先增后减)

\(\dfrac{P(X = k)}{ X = k - 1} = \dfrac{C^k_p p^k q^{n - k}}{C^{k-1}_p p^{k-1}q^{n-k+1}} = \dfrac{(n-k+1)p}{kq} = 1 + \dfrac{(n+1)p - k}{kq}\)

如果\(k < (n + 1)p\),增;否则减小;


泊松分布⚓︎

如果==离散随机变量==的分布为:

  • \(P \{ x = k \} = \dfrac{\lambda^k e^{- \lambda}}{k!}\)
  • \(E(X) = \lambda\)
  • \(D(X) = \lambda\)
  • \(X\sim \pi(\lambda)\)

就称其服从泊松分布。

什么情况可以视作泊松分布: - 事件是独立的; - 在任意相同的时间范围内,事件发生的概率相同。(如第一天中奖的概率与第二天中奖的概率相同。) - 要求解:某个时间范围内,事件发生 X 次的概率有多大;

e.g. 一定时间间隔内电话交换台收到的呼唤次数; 一本书的印刷错误数; 某一地区一个时间间隔内发生的交通事故数等都服从泊松分布;排队的人数;

推导:\(\lim \limits_{n \to \infty} P(X_n = k) = \lim \limits_{n \to \infty} C^k_nP_n^k(1-P_n)^{n-k}\)

\(= \dfrac{n(n-1)(n-2)\dots(n-k+1)}{k!}\dfrac{\lambda}{n}^k(1 - \dfrac{\lambda}{n})^{n-k}\)

\((1 \times (1 - 1/n)(1 - 2/n)\dots (1 - (k-1)/n))(1 - \lambda / n)^{-k} \dfrac{\lambda^k}{k!}(1 - \lambda / n)^n = e^{-\lambda}\)

  • 300台设备故障率0.01,一台故障一人处理,问需要几个人保证发生故障又不及时维修的概率 < 0.01.

  • \(P( X = 8 ) = \dfrac{3^ke^{-3}}{k!} < 0.01\)

二项分布可以通过泊松分布来近似,有泊松定理:【补充】、【意义】


几何分布⚓︎

  • 进行重复独立试验, 设每次试验成功的概率为\(p\), 失败的概率为\(1-p = q\) , 将实验进行到出现一次成功为止,用\(X\)表示所需的试验次数;
  • \(p_k = q^{k-1} p, k = 1,2,...,\)第一次成功在\(k\)次实验的概率
  • \(E(X) = \dfrac{1}{P}\)

  • \(D(X) = \dfrac{1 - P}{P^2}\)

连续型随机变量及其分布⚓︎

对于非离散型 r. v. 已不能用分布律来描述它, 需要考虑 r.v. 的值落入一个区间的概率, 如 \(P\{ x_1 \leq X \leq x_2 \}\), \(P\{ X \leq x \}\) 等,为此引入随机变量的分布函数.

\(\text{r.v. } X\)\(x \in R^1\),则 \(\(F(x) = P\{X \leq x\}\)\) 称为 \(X\)分布函数

\[P\{x_1 < X \leq x_2\} = P\{X \leq x_2\} - P\{X \leq x_1\} = F(x_2) - F(x_1)\]

无论是离散型 \(\text{r.v.}\) 还是非离散型 \(\text{r.v.}\),分布函数都可以描述其统计规律性。

对于 \(\text{r.v. } X\) 的分布函数 \(F(x)\),存在非负函数 \(f(x)\),使对于任意的实数 \(x\),有

\[F(x) = \int_{-\infty}^{x} f(t)  dt\]

则称 \(X\)连续型 \(\text{r.v.}\),其中函数 \(f(x)\) 称为 \(X\)概率密度函数,简称概率密度

连续型 \(\text{r.v.}\) 的分布函数是连续函数,这种 \(\text{r.v.}\) 的取值是充满某个区间的。

(1) 非负性: \(f(x) \geq 0\)

(2) 规范性: \(\int_{-\infty}^{+\infty} f(x) dx = 1\)

连续型随机变量取为某值的概率为0

定理:设 \(X\) 为连续型 \(\text{r.v.}\),它取任一指定的实数值 \(a\) 的概率均为 \(0\)

\(\(P\{X = a\} = 0\)\)

证明:设 \(X\) 的分布函数为 \(F(x)\)\(\Delta x > 0\)

\(\(0 \leq P\{X = a\} \leq P\{a - \Delta x < X \leq a\} = F(a) - F(a - \Delta x)\)\)

\(\Delta x \to 0\),由 \(F(x)\) 的连续性可得 \(\(P\{X = a\} = 0\)\)

所以

\[P\{x_{1} < X < x_{2}\} = P\{x_{1} \leq X \leq x_{2}\}\]
\[= P\{x_{1} \leq X < x_{2}\} = P\{x_{1} < X \leq x_{2}\}\]
\[= F(x_{2}) - F(x_{1})\]

讨论某个点的概率是没有意义的,可以认为是0(无穷小),并不代表该事件不发生。

均匀分布⚓︎

\[f(x) = \left\{ \begin{aligned} \dfrac{1}{b-a} , a \leq x \leq b \\ 0, otherwise   \end{aligned} \right. \]
\[E(x) = \dfrac{a+b}{2}\]

指数分布⚓︎

\[f(x) = \left\{ \begin{aligned} \lambda e^{-\lambda x} , x \geq 0 \\ 0, x < 0 \end{aligned} \right.\]
\[E(x) = \dfrac{1}{\lambda}\]

指数分布具有无记忆的关键性质。这表示如果一个随机变量呈指数分布,当\(s,t>0\)时有\(P(T>t+s|T>t)=P(T>s)\)。即,如果\(T\)是某一元件的寿命,已知元件使用了\(t\)小时,它总共使用至少\(s+t\)小时的条件概率,与从开始使用时算起它使用至少\(s\)小时的概率相等。

正态分布(高斯分布)⚓︎

  • \(f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} e^{-\dfrac{(x-\mu)^2}{2\sigma^2}}\),记作\(X \sim N(\mu, \sigma^2)\)

  • \(E(X) = \mu, \mu\) 也是位置参数;

  • \(D(X) = \sigma^2 , \sigma\) 决定了图像的尖锐程度,\(\sigma\) 越小,图像越尖;

标准正态分布⚓︎

  • 期望为0,方差为1的正态分布
  • \(\Phi(X) = 1 - \Phi(-X)\)
  • \(\alpha\)分位点:设\(X \sim N(0,1)\),如果\(Z_{\alpha}\) 满足 \(P (X > Z_{\alpha}) = \alpha, \alpha \in (0,1)\),那么点 \(Z_{\alpha}\) 就是标准正态分布的上 \(\alpha\) 分位点。 \(Z_{0.05} = 1.645; Z_{0.025} = 1.96\)
    • 考试均分72,96分以上的占比2.3%;求在60~84分之间的概率。

      \(\Phi(\dfrac{96-72}{\sigma}) = 97.7\%\), 求\(\sigma\), 然后概率分布函数直接计算\(\Phi((84 - 72)/\sigma) - \Phi((60 - 72)/\sigma)\)

    • VaR(Value At Risk)是财务核算中的核心概念,投资的VaR可以定义为一个值\(v\),满足投资的损失大于\(v\)的概率只有1%。这个v希望越小越好( 比如,我们同样一个投资,能确保损失大于100元的概率 = 其他投资损失大于10000元的投资,说明这个方案很好 )如果投资收益 X 服从正态分布\(N(\mu, \sigma^2)\),那么,因为损失是收益的相反数,所以损失\(-X \sim N(-\mu, \sigma^2)\)\(0.01 = P(- X > v)\); \(0.01 = P(\dfrac{-X + \mu}{\sigma} > \dfrac{v + \mu}{\sigma}) = 1 - \Phi( \dfrac{v + \mu}{\sigma})\)

      所以 \(v = \Phi^{-1}(0.99) * \sigma - \mu\);最终应该选择所有投资选择中能够使得 \(\mu - \Phi^{-1}(0.99) * \sigma\) 最大的投资


Gamma 分布⚓︎

  • 如果连续型随机变量X的概率密度为: \(\(f(x) = \left\{ \begin{aligned} \dfrac{\lambda^p}{\Gamma(p)}x^{p-1}e^{-\lambda x} , x > 0 \\ 0, x \leq 0 \end{aligned} \right.\)\)

其中 \(\lambda > 0, p > 0\) 为参数,\(\Gamma\) 函数 \(\Gamma(p) = \int^{+\infty}_{0} x^{p-1}e^{-x} dx\),就称\(X\)服从\(\Gamma\)分布,记为 \(X \sim \Gamma(p, \lambda)\)

  • 待补充