概率论与数理统计笔记 - 3月


2021.03.01

  • 离散样本空间(可数集)——有限/可列集
  • 连续样本空间(不可数集)——不可数集

随机事件

  • 基本事件
  • 必然事件
  • 不可能事件

事件关系

  • $A\subset B$
  • $A=B$
  • $A\bigcap B=\emptyset$ A与B不可能同时发生

事件间运算

运算律

  • 交换律
  • 结合律
  • 分配律
  • 对偶律(类似德摩根律)

样本空间(sample space)

实验的一切可能基本结果组成的集合$\Omega$

事件域

事件域的元素应该包括样本空间和空集;其次应该保证事件经过并、交、差、对立各种运算后仍然是事件,即其对集合的运算有封闭性。——百度百科

设$\Omega$为样本空间,$F$是由$\Omega$的子集组成的集合类,若$F$满足以下三点:

  1. $\Omega \in F$
  2. 若$A\in F$,则$\overline{A}\in F$
  3. 若$A _ n\in F$,n=1,2…, 则$\bigcup\limits _ {n=1}^{+\infty}A _ n\in F$

则称$F$为Borel事件域,或$\sigma$事件域或$\sigma$代数

2021.03.05

概率性质

  1. 不可能事件概率为0 $P(\emptyset)=0$

  2. 有限可加性 若$A_iA_j=\emptyset(1\le i\ne j \le n)$,则$P(\bigcup_\limits{i=1}^nA_i)=\sum_\limits{i=1}^nP(A_i)$

  3. $P(\overline{A})=1-P(A)$

  4. 若$A\supset B$,则$P(A-B)=P(A)-P(B)$

    • 推论1 $P(A-B)=P(A)-P(AB)$

    • 推论2 若$A\supset B$,则$P(A)\ge P(B)$

  5. $P(A\bigcup B)=P(A)+P(B)-P(AB)$

  6. 下连续性 $\lim_\limits{n\rightarrow \infty}P(A_n)=P(\lim\limits_{n\rightarrow \infty}A_n)$ 其中$\lim_\limits{n\rightarrow \infty}A_n=\bigcup_\limits{n=1}^{+\infty}A_n$

  7. 上连续性

“三大”公式

  1. 乘法公式 $P(AB)=P(B)P(A|B)$
  2. 全概率公式 $P(A)=\sum_\limits{i=1}^{+\infty }P(B_i)P(A|B_i)$
  3. 贝叶斯公式 $P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(B)P(A|B)}{P(B)P(A|B)+P(\overline{B})P(A|\overline{B})}$

2021.03.08

罐子模型

$A_1$第一个人抽中红球 $A_2$第二个人抽中红球

  • 有放回 独立性
  • 无放回 非独立性

独立性

独立:$P(AB)=P(A)P(B)$

性质:若$A$与$B$独立,则$A与\overline{B}$,$\overline{A}与B$,$\overline{A}与\overline{B}$独立

  • 两两独立
  • 相互独立

性质:若A、B、C相互独立,则$A\cup B$与$C$相互独立

证明:$P((A\cup B)\cap C)=P(A\cup B)P(C)$

$P((A\cup B)\cap C)=P((A\cap C)\cup(B\cap C))=P(AC)+P(BC)-P(AC\cap BC)$

$=P(A)P(C)+P(B)P(C)-P(A)P(B)P(C)=[P(A)+P(B)-P(A)P(B)]P(C)=P(A\cup B)P(C)$

条件独立性

$P(A_1\cap A_2|B)=P(A_1|B)P(A_2|B)$

随机变量

样本空间$\Omega \rightarrow 实数域$(实值函数)

通常用大写$X=X(\omega)$表示随机变量,小写字母表示其取值

$P(X=1)\leftarrow P({\omega|X(\omega=1)})$

变量 vs 随机变量

变量:未知的确定性的数

随机变量:取值随机的变量

累积分布函数

定义$F(x)=P(X\le x)$为累积分布函数

$P(a<x\le b)=P(X\le b) - P(X\le a)=F(b)-F(a)$

$F(x)$性质

  • 单调性
  • 有界性
  • 右连续性

同时以上三个性质是判断函数是否为某个随机变量分布函数的充要条件

例:柯西分布$F(x)=\frac{1}{\pi}(\arctan x + \frac{\pi}{2})$

分布列/概率质量函数PMF

性质:

  • 非负性
  • 正则性

同样可以作为判断PMF函数的充要条件

2021.03.12

二项分布$b(n,p)$

X为n重伯努利试验中成功的次数

分布列:$P(X=k)=C_n^kp^k(1-p)^{n-k}$

二点分布$b(1,p)$

二点分布/0-1分布/伯努利分布

分布列:$P(X=x)=p^x(1-p)^{1-x}$

几何分布$X\sim Ge(p)$

X为事件A首次出现时的试验次数

分布列:$P(X=k)(1-p)^{k-1}p$

几何分布的无记忆性:$P(X>m+n\mid X>m)=\frac{P(X>m+n)}{P(X>m)}=\frac{(1-p)^{m+n}}{(1-p)^m}=(1-p)^n=P(X>n)$

负二项分布$X\sim Nb(r,p)$

X为事件A第r次出现时的试验次数

若$X_i\sim Ge(p)$,此时有$X=X_1+X_2+…+X_r\sim Nb(r,p)$

泊松分布

分布列:$P(X=k)\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,…,$

其和为1:$\sum\limits_{k=0}^\infty \frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum\limits_{k=0}^\infty\frac{\lambda^k}{k!}=e^{-\lambda}e^\lambda=1$(泰勒展开)

泊松定理:在n重伯努利试验中,记事件A在一次试验中发生的概率为$p_n$(与试验次数n有关),如果当$n\rightarrow\infty$时,有$np_n\rightarrow\lambda$,则

即泊松分布可以作为二项分布的一种近似

概率密度函数$p(x)$

概率密度函数$p(x)$虽不是概率,但乘微分元$dx$就可得小区间$(x,x+dx)$上概率的近似值,即$p(x)dx\approx P(x<X<x+dx)$

特别,在$(-\infty,x]$上$p(x)$得积分就是分布函数$F(x)$,即$\int_{-\infty}^xp(t)dt=P(X\le x)=F(x)$

$p(x)$称为$p.d.f$(probability density function)

$F(x)$称为$c.d.f$

连续随机变量$X$,概率密度函数$p(x)$,连续分布函数$F(x)$

2021.03.15

概率密度函数$p(x)$

  1. $p(x)$可积
  2. 已知$p(x)$可推出$F(x)$,反之亦然

理解:$F(x)=\int_{-\infty}^xp(t)dt\rightarrow p(x)=\frac{d}{dx}F(x)$

性质:

  • 非负性
  • 正则性

例:在(0,a)随机取一点把坐标记为X,

均匀分布$X\sim U(a,b)$

均匀分布:定义在$(a,b)$区间上的均匀分布的$r.v X$

其p.d.f为

离散随机变量和连续随机变量的区别?

或者说概率密度函数与分布列的区别(p65)

  • 离散的随机变量分布函数是阶梯状/右连续

右连续性是因为:$F(x+\Delta x)-F(x)=\int_x^{x+\Delta x}p(x)dx\rightarrow 0(\Delta x \rightarrow 0)$

  • 离散随机变量X在其可能取值的点上概率不为0,而连续随机变量X在$(-\infty,\infty)$上任一点的$a$的概率恒为0

这是因为:$P(X=a)=\int_a^ap(x)dx=0$

这表明:不可能事件概率为0,但概率为0的事件不一定是不可能事件

  • 对于连续随机变量X,在事件$\{a\le X \le b\}$中剔除$x=a$或$x=b$,不影响其概率

  • 在若干点上改变密度函数$p(x)$的值并不影响其积分的值,从而不影响其分布函数$F(x)$的值,这意味着一个连续分布的概率函数不唯一

例如:

$p_1(x)$与$p_2(x)$“几乎处处相等”,这两个函数在概率意义上是无差别的

正态分布/高斯分布$X\sim N(\mu, \sigma^2)$

$p(x)=\frac{1}{\sqrt{2\pi \sigma^2}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\},-\infty<x<\infty$

参数$\mu$位置参数,$\sigma$尺度参数

标准正态分布:$\mu=0,\sigma=1$,记$u$表示标准正态分布随机变量,$u\sim N(0,1)$
通常,记标准正态分布的密度函数为$\phi(u)$,分布函数为$\Phi(u)$,即

$\phi(u)=\frac{1}{2\pi}e^{-\frac{u^2}{2}},-\infty<u<\infty$

$\Phi(u)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^ue^{-\frac{t^2}{2}}dt,-\infty<u<\infty$

若$X\sim N(\mu,\sigma^2)$,则$X$与$u$的关系?

正态分布族:$\mathbb{P}=\{N(\mu,\sigma^2):-\infty<\mu<\infty, \sigma^2>0\}$

定理:若$X\sim N(\mu,\sigma^2)$,$u=\frac{x-\mu}{\sigma}$,则$u\sim N(0,1)$

证明见p97

根据该定理可以得到计算公式

3$\sigma$原则

2021.03.19

常见的连续分布

  • 均匀分布$X\sim U(a,b)$
  • 正态分布$X\sim N(\mu,\sigma^2)$

指数分布$X\sim Exp(\lambda)$

指数分布的无记忆性:$P(X>s+t|X>s)=P(X>t)$

泊松分布和指数分布的关系:当某事件再长为$t$的时间$[0,t]$发生次数$N(t)$服从参数为$\lambda t$的泊松分布,则相继两次故障之间的间隔$T$服从指数分布

证:p102,事件$\{T\ge t\}$说明此设备再$[0,t]$时间内没有发生故障,即$\{T\ge t\}=\{N(t)=0\}$,我们得,当$t<0$时$F_T(t)=P(T\le t)=0$,当$t\ge 0$时,有$F_T(t)=P(T\le t)=1-P(T>t)=1-(N(t)=0)=1-e^{-\lambda t}$

泊松分布说明事件间隔为指数分布,指数分布可以刻画寿命(时间)

伽马分布$X\sim Ga(\alpha, \lambda)$

$\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx$

$\Gamma(1)=1, \Gamma(\frac{1}{2})=\sqrt\pi$(利用正态分布计算,正则性,p103)

$\Gamma(\alpha +1)=\alpha\Gamma(\alpha)$ $,\Gamma(n+1)=n\Gamma(n)=n!$(当$\alpha$为自然数n时)

密度函数

其中$\alpha >0$为形状参数,$\lambda >0$为尺度参数

特例:当$\alpha=1$时,伽马分布就是指数分布,即$Ga(1,\lambda)=Exp(\lambda)$

贝塔分布$Be(a,b)$

  • 贝塔函数$B(a,b)=\int_0^1x^{\alpha-1}(1-x)^{b-1}dx$

    性质:

    1. $B(a,b)=B(b,a)$
    2. $B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$

贝塔分布的密度函数:

当$a=1,b=1$时,$Be(1,1)=U(0,1)$,即为均匀分布

数学期望

  • 分赌本问题

分布均值,加权平均

性质:

  • 若$c$为常数,则$E(c)=c$
  • 对任意常数$a$,有$E(aX)=aE(X)$
  • 对任意两个函数$g_1(x)$和$g_2(x)$有$E[g_1(X)\pm g_2(X)]=E(g_1(X)]\pm E[g_2(X)])$

2021.03.22

数学期望

  • 数学期望存在的条件:积分存在/收敛

期望不存在:$p(x)=\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<\infty$(柯西分布)

方差Variance

定义:$Var(X)=E(X-E(X))^2$

  • 离散:$\sum\limits_i(x_i-E(X))^2p(x_i)$
  • 连续:$\int_{-\infty}^\infty(x-E(X))^2p(x)dx$

理解:方差是另一种期望

标准差$\sigma(X)$

$\sigma(X)=\sqrt{Var(X)}$

定义逻辑:先有方差再有标准差

性质:

  • 常数的方差为0,即$Var(c)=0$
  • 若a,b为常数,则$Var(aX+b)=a^2Var(X)$
  • $Var(X)=E(X^2)-E(X)^2$

由性质三得,方差存在性取决于$E(X^2)$的存在性

切比雪夫不等式

对任意常数$\epsilon>0$,有$P(|X-E(X)|\geqslant \epsilon)\leqslant\frac{Var(X)}{\epsilon^2}$

证明(两次放缩):

image-20220226180322074

条件:随机变量X的期望、方差都存在

  • 大偏差:事件$\{|X-E(X)\geqslant\epsilon\}$
  • 大偏差发生概率$P(|X-E(X)\geqslant\epsilon)$

  • 原点矩:$\mu_k=E(X^k)$
  • 中心矩:$\nu_k=E(X-E(X))^k$

期望和方差是特殊的矩

原点矩和中心矩的关系:$\nu_k=E(X-E(X))^k=E(X-\mu_1)^k=\sum\limits_{i=0}^k\binom{k}{i}\mu_i(-\mu_1)^{k-i}$

伽马分布期望和方差

$E(X)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^\infty x^{\alpha}e^{-\lambda x}dx=\frac{\lambda^\alpha}{\Gamma(\alpha)}\frac{\Gamma(\alpha+1)}{\lambda^{\alpha+1}}\int_0^\infty x^{(\alpha+1)-1}e^{-\lambda x}dx=\frac{\alpha}{\lambda}$

$V(X)=\frac{\alpha}{\lambda^2}$ 过程见p103

正态分布的k阶矩

若$X\sim N(0,\sigma^2)$,则$\mu_k=E(X^k)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^\infty x^k exp\{-\frac{x^2}{2\sigma^2}\}dx=\frac{\sigma^k}{\sqrt{2\pi}}\int_{-\infty}^\infty u^kexp\{-\frac{u^2}{2}\}du$(?)

最后一步没看懂,但是这个也可以分部积分算:

$\mu_k=\frac{1}{\sqrt{2\pi \sigma^2}}\int_{-\infty}^\infty x^kexp\{-\frac{x^2}{2\sigma^2}\}dx=\frac{1}{k+1}x^{k+1}e^{-\frac{x^2}{2\sigma^2}}|_{-\infty}^\infty-\int_{-\infty}^\infty\frac{1}{(k+1)\sigma^2}x^{k+2}e^{-\frac{x^2}{2\sigma^2}}dx=\frac{1}{(k+1)\sigma^2}\mu_k$

即得递推式:$\mu_k=\sigma^2(k-1)\mu_k-2$

且$\mu_1=0,\mu_2=\sigma^2$

结论:

$\mu=0$的情况:

k为奇数,奇函数,积分为0

k为偶数,偶函数+变换+伽马函数p116,$\mu_k=\sigma^k(k-1)(k-3)…1,k=2,4,6,…$

$\mu\ne0$的情况:

忘了上课讲了句啥了,书上也没?

变异系数

$C_v(X)=\frac{\sqrt{Var(X)}}{E(X)}=\frac{\sigma(X)}{E(X)}$

变异系数是一个无量纲的波动,从而消除量纲对波动的影响。

偏度系数

设随机变量$X$的前三阶矩存在,则比值$\beta_S=\frac{\nu_3}{\nu^{3/2}}=\frac{E(X-E(X))^3}{[Var(X)]^{3/2}}$称为X的偏度系数,当$\beta_S>0$时,称该分布为正偏,又称右偏;当$\beta_S<0$时,称该分布为负偏,又称左偏

2021.03.29

峰度系数

$\beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-E(X))^4}{[Var(X)]^2}-3$

峰度是描述分布尖峭程度和尾部粗细的一个特征数

由于正态分布$N(\mu,\sigma^2)$中的$\nu_2=\sigma^2,\nu_4=3\sigma^4$,因此对于正态分布来说$\frac{\nu_4}{\nu2^2}=3$,表明峰度$\beta_k$是相对于正态分布而言的超出量

  • 正态检验

    偏度和峰度都是描述分布形状的特征数

分位数

设随机连续变量X的分布函数为$F(x)$,密度函数为$p(x)$,对任意$p\in(0,1)$,称满足条件$F(x_p)=\int_{-\infty}^{x_p}p(x)dx=p$的$x_p$为此分布的p分位数,又称下侧$p$分位数

同理,称满足条件$1-F(x_p’)=\int_{x_p’}^\infty p(x)dx=p$的$x_p’$为此分布的上侧p分位数

  • 中位数:p=0.5时的p分位数$x_{0.5}$

随机变量函数的分布

  • 离散随机变量函数

    1. 列出x的分布列
    2. $Y=g(X)$变换
    3. 合并
  • 连续随机变量函数

    $Y=g(X)$为离散随机变量(g(x)的值域时有限或可列的)

$g(x)$为严格单调函数

  • 定理2.6.1:设X是连续随机变量,其密度函数为$p_x(x).Y=g(X)$是另一个连续随机变量,若$y=g(x)$严格单调,其反函数$h(y)$有连续导函数,则$Y=g(X)$的密度函数为

​ 证明见p110-111

  • 定理2.6.2:设随机变量X服从正态分布$N(\mu, \sigma^2)$,则当$a\ne 0$时,有$Y=aX+b\sim N(a\mu+b,a^2\sigma^2)$

    证明见p111

  • 定理2.6.4:设随机变量X服从伽马分布$Ga(\alpha,\lambda)$,则当k>0时,有$Y=kX\sim Ga(\alpha,\lambda/k)$

    证明见p112

  • 定理2.6.5:若随机变量X的分布函数$F_X(x)$为严格单调增的连续函数(非必要,保证反函数存在即可?),其反函数$F_X^{-1}$存在,则当$Y=F_X(X)$服从(0,1)上的均匀分布$U(0,1)$

    证明见p112-113

  • 定理2.6.3:对数正态分布

蒙特卡洛法

由定理2.6.5,可知任意一个连续随机变量X都可通过其分布函数$F(x)$与均匀分布随机变量U发生关系,即均匀分布 $U(0,1)$的随机数$u_i$可得与连续随机变量分布的随机数$x_i$存在函数关系,而均分分布的随机数易产生,可以随机模拟任意连续随机变量的随机数

2021.03.31

$g(x)$为其他形式

  • 随机变量$X$服从标准正态分布$N(0,1)$,则$Y=X^2$的分布函数为

​ 通过求导得到密度函数

​ 可知$Y\sim Gamma(\frac{1}{2},\frac{1}{2})\sim \Chi^2(1)$,即卡方分布,自由度为1

卡方分布

$Gamma(\frac{n}{2},\frac{1}{2})\sim \Chi^2(n)$

推导得$E(X)=n,Var(X)=2n$

卡方分布可以看成伽马分布的特例

多维随机变量

若$X_1(\omega),X_2(\omega),…,X_n(\omega)$是定义在同一个样本空间$\Omega=\{\omega\}$上的n个随机变量,则称$X(\omega)=(X_1(\omega),X_2(\omega),…,X_n(\omega))$为n维随机变量,或随机向量(r.v)

联合分布函数(joint c.d.f)

$F(x_1,x_2,…,x_n)=P(X_1\leqslant x_1,X_2\leqslant x_2,…,X_n\leqslant x_n)$

性质:

  1. 单调性
  2. 有界性
  3. 右连续性
  4. 非负性

非负性的必要性:前三个性质推导不出非负性

例:

边际分布

已知$F(x,y)$求$F_x(X)$

$F_X(x)=P(\{X\leqslant x\})=P(\{X\leqslant x\}\bigcap \Omega)=P(\{X\leqslant x\}\bigcap\{Y\leqslant \infty\})=F(x,+\infty)$

即$F_X(x)=F(x,+\infty),F_Y(y)=F(+\infty,y)$称为边际分布

联合分布列

性质

  1. 非负性 $p_{ij}\geqslant 0$
  2. 正则性 $\sum\limits_{i=1}^\infty\sum\limits_{j=1}^\infty p_{ij}=1$

联合密度函数

如果存在二元非负函数$p(x,y)$使得二维随机变量$(X,Y)$的分布函数$F(x,y)$可表示为$F(x,y)=\int_{-\infty}^x\int_{-\infty}^yp(u,v)dvdu$,则称$(X,Y)$为二维连续随机变量,称$p(u,v)$为$(X,Y)$的联合密度函数

有$p(x,y)=\frac{\delta^2}{\delta x\delta y}F(x,y)$,求偏导交换次序的条件:偏导数连续

性质

  • 非负性
  • 正则性