Martian148's blog Martian148's blog
首页
  • ICPC 算法笔记
  • ICPC 算法题解
  • 体系结构
  • 高等数学
  • 线性代数
  • 概率论与数理统计
  • 具体数学
  • Martian148的奇思妙想
  • 游记
  • 通识课笔记
关于
  • useful 网站
  • 友情链接
  • 分类
  • 归档

Martian148

一只热爱文科的理科生
首页
  • ICPC 算法笔记
  • ICPC 算法题解
  • 体系结构
  • 高等数学
  • 线性代数
  • 概率论与数理统计
  • 具体数学
  • Martian148的奇思妙想
  • 游记
  • 通识课笔记
关于
  • useful 网站
  • 友情链接
  • 分类
  • 归档
  • 高等数学

  • 线性代数

  • 概率论与数理统计

    • 概率论与数理统计笔记
      • 随机变量
        • 离散型随机变量
        • 连续型随机变量
        • 常见分布
        • 柏松分布
        • 超几何分布
        • 几何分布
        • 负二项分布
        • 均匀分布
        • 指数分布
        • 正态分布
        • 卷积和变量替换
        • 变量替换公式
        • 微分恒等式
      • 多维随机变量
        • 联合分布函数
        • 联合密度函数
        • 常见分布
        • 二维均匀分布
        • 二维正态分布
        • 边缘分布
        • 边缘分布函数
        • 离散型边缘分布律
        • 连续性边缘密度函数
        • 相互独立性
        • 条件分布
        • 离散型条件分布律
        • 连续性条件概率密度
      • 随机变量的数字特征
        • 数学期望和矩
        • 均值和方差
        • 期望的线性性质
        • 均值和方差的性质
        • 协方差和相关系数
      • 统计量
        • 总体、样本和统计量
  • 具体数学

  • 数学建模

  • 数学
  • 概率论与数理统计
martian148
2025-04-15
目录

概率论与数理统计笔记

# 概率论与数理统计笔记

# 随机变量

# 离散型随机变量

先来看一个启发性的例子,我们把一个均匀的硬币投掷了三次,设投出正面为 HHH,反面为 TTT,能很轻松得得到结果空间:

Ω={TTT,TTH,THT,HTT,THH,HTH,HHT,HHH} \Omega = \{TTT,TTH,THT,HTT,THH,HTH,HHT,HHH\} Ω={TTT,TTH,THT,HTT,THH,HTH,HHT,HHH}

Ω\OmegaΩ 中的每个元素的概率都是 18\frac{1}{8}81​,于是我们得到了结果空间和概率函数

如果现在我们提出一个问题:对于一个抛掷序列,我们能否得到一个抛掷序列,求出它正面出现的次数

这可以用一个函数来表示,我们定义一个从 Ω\OmegaΩ 到实数集 R\RR 的函数 XXX,其中 X(w)X(w)X(w) 等于 w∈Ωw\in \Omegaw∈Ω 中正面出现的次数,例如:X(HHT)=2X(HHT)=2X(HHT)=2,X(TTT)=0X(TTT)=0X(TTT)=0

同理,我们也可以定义反面出现的次数 Y(w)Y(w)Y(w) ,一个比较显然的结论就是 X(w)+Y(w)=3X(w)+Y(w)=3X(w)+Y(w)=3 因为我们一共抛掷了 333 次

我们可以同时定义三个简单函数来构造 XXX,定义 XiX_iXi​,表示如果第 iii 次掷出的正面,那么 Xi(w)=1X_i(w)=1Xi​(w)=1,否则为 000,例如 X1(HHT)=1,X2(HHT)=1,X3(HHT)=0X_1(HHT)=1,X_2(HHT)=1,X_3(HHT)=0X1​(HHT)=1,X2​(HHT)=1,X3​(HHT)=0,于是可以得出等式

X(w)=X1(w)+X2(w)+X3(w) X(w)=X_1(w)+X_2(w)+X_3(w) X(w)=X1​(w)+X2​(w)+X3​(w)

这个例子体现了我们可以用较简单的函数来构造复杂的函数,接下来给出随机变量的定义

定义

离散型随机变量 XXX 是定义在一个离散的结果空间 Ω\OmegaΩ 上的实质函数,具体地说,我们为每个元素 w∈Ωw\in \Omegaw∈Ω 指定了一个实数 X(w)X(w)X(w)

(这里的离散型也叫概率密度函数,在中国也叫分布律)

我们通过一个函数 XXX 把结果空间上的值映射到了实数域上,一个很自然的问题就是求 P(X=x)P(X=x)P(X=x),随机变量的值恰好是 xxx 的概率是多少

在上面的例子中,由于都是等概率的,所以我们只需要数出 X=xX=xX=x 出现了几次,除以 888 就是概率,可以得到

P(X=0)=18P(X=1)=38P(X=2)=38P(X=3)=18 \begin{aligned} P(X=0)=\frac{1}{8}\\ P(X=1)=\frac{3}{8}\\ P(X=2)=\frac{3}{8}\\ P(X=3)=\frac{1}{8} \end{aligned} P(X=0)=81​P(X=1)=83​P(X=2)=83​P(X=3)=81​​

除了这四个值,其他地方的概率都是 000,于是我们引出了 概率密度函数(probability density function, PDF)的定义

定义

设 XXX 是一个随机变量,它定义在离散结果空间 Ω\OmegaΩ 上,那么 XXX 的概率密度函数就是 XXX 取某个特定值的概率:

fX(x)=P(ω∈Ω:X(ω)=x) f_X(x)=P(\omega\in \Omega:\ X(\omega)=x) fX​(x)=P(ω∈Ω: X(ω)=x)

另外一个重要的概念是 累积分布函数(cumulative distribution function, CDF),虽然这个在概念对连续型随机变量更有用, 但它在离散型随机变量方面仍有些用途

定义

设 XXX 是一个随机变量,它定义在离散结果空间 Ω\OmegaΩ 上,那么 XXX 的累积分布函数就是 XXX 不超过特定值的概率:

FX(x)=P(ω∈Ω:X(ω)≤x) F_X(x)=P(\omega\in \Omega:\ X(\omega)\le x) FX​(x)=P(ω∈Ω: X(ω)≤x)

# 连续型随机变量

和离散型随机变量相似,我们尝试在结果空间里面定义一个随机变量,但实际上这比结果空间 是有限的或可数的情况要更困难一些

一个概率空间由三部分组成:结果空间 Ω\OmegaΩ ,概率函数 PPP,以及 PPP 有定义的子集构成的 σ\sigmaσ 代数,(PPP 在其他子集上无定义)

定义

设 XXX 是一个随机变量,如果存在一个实值函数 fXf_XfX​ 满足:

  • fXf_XfX​ 是一个连续分段函数
  • fX(x)≥0f_X(x)\ge 0fX​(x)≥0
  • ∫−∞+∞fX(t)dt=1\int_{-\infty}^{+\infty}f_X(t)\text{d}t=1∫−∞+∞​fX​(t)dt=1

那么 XXX 是一个连续性随机变量,fXf_XfX​ 是 XXX 的概率密度函数

XXX 的累计分布函数 FX(x)F_X(x)FX​(x) 就是 XXX 不大于 xxx 的概率:

Fx=P(X≤x)=∫−∞xfX(t)dt F_x=P(X\le x)=\int_{-\infty}^x f_X(t)\text{d}t Fx​=P(X≤x)=∫−∞x​fX​(t)dt

下面来看一个例子,尝试验证它是否满足连续性随机变量的三个条件:分段连续、非负性,积分为 111

fX(x)={2+3x−5x2 若 0⩽x⩽10 其他;  f_{X}(x)=\left\{\begin{array}{ll} 2+3 x-5 x^{2} & \text { 若 } 0 \leqslant x \leqslant 1 \\ 0 & \text { 其他; } \end{array}\right. fX​(x)={2+3x−5x20​若0⩽x⩽1其他; ​

分段连续:这个函数显然是分段连续的

非负性:

fX(x)=2+3x−5x2=(1−x)(2+5x) f_X(x)=2+3x-5x^2=(1-x)(2+5x) fX​(x)=2+3x−5x2=(1−x)(2+5x)

由于 0≤x≤10\le x \le 10≤x≤1 ,(1−x)≥0,(2+5x)≥0⇒(1−x)(2+5x)≥0(1-x)\ge 0,(2+5x)\ge 0\Rightarrow (1-x)(2+5x)\ge 0(1−x)≥0,(2+5x)≥0⇒(1−x)(2+5x)≥0

积分:

∫−∞∞fX(x)dx=∫01(2+3x−5x2)=2x∣01+3x22∣01−5x33∣01=2+32−53=116 \begin{aligned} \int_{-\infty}^{\infty} f_{X}(x) \mathrm{d} x & = \int_{0}^{1}\left(2+3 x-5 x^{2}\right) \\ & = \left.2 x\right|_{0} ^{1}+\left.\frac{3 x^{2}}{2}\right|_{0} ^{1}-\left.\frac{5 x^{3}}{3}\right|_{0} ^{1} \\ & = 2+\frac{3}{2}-\frac{5}{3} \\ &= \frac{11}{6} \end{aligned} ∫−∞∞​fX​(x)dx​=∫01​(2+3x−5x2)=2x∣01​+23x2​∣∣∣∣∣​01​−35x3​∣∣∣∣∣​01​=2+23​−35​=611​​

可以看出积分不为 111,所以 fX(x)f_X(x)fX​(x) 不是一个概率密度函数

很容易想到用一个常数对他进行缩放,使它积分值为 111

gX(x)=611fX(x) g_X(x)=\frac{6}{11}f_X(x) gX​(x)=116​fX​(x)

那么 gX(x)g_X(x)gX​(x) 的就是一个概率密度函数

# 常见分布

# 柏松分布

定义

设随机变量 XXX 的取值为 0,1,2,⋯,n,⋯0,1,2,\cdots,n,\cdots0,1,2,⋯,n,⋯ 对应的分布律是:

P(X=k)=λkk!e−λ,λ>0,k=0,1,2,⋯.n,⋯ P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda},\lambda >0,k=0,1,2,\cdots.n,\cdots P(X=k)=k!λk​e−λ,λ>0,k=0,1,2,⋯.n,⋯

则称随机变量 XXX 服从参数为 λ\lambdaλ 的柏松分布,记为 X∼P(λ)X\sim P(\lambda)X∼P(λ)

泊松分布还有一个非常有用的性质,即它可以作为二项分布的一种近似,在二项分布计算中,当 n 较大时计算结果非常不理想,如果 ppp 比较小,而 np=λnp=\lambdanp=λ 适中时,我们常用柏松分布的概率值近似取代二项分布的概率值,因为柏松分布要好算很多

柏松定理

当 n→+∞n\rightarrow + \inftyn→+∞,有 np→λ(>0)np\to \lambda(>0)np→λ(>0) ,则

lim⁡x→∞(nk)pk(1−p)n−k=λkk!e−λ \lim_{x \to \infty} \binom{n}{k} p^k(1-p)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda} x→∞lim​(kn​)pk(1−p)n−k=k!λk​e−λ

# 超几何分布

定义

设有 NNN 件产品,其中 MMM 件是不合格品,若从中不放回地抽取 n(n≤N)n(n\le N)n(n≤N) 件,设其中含有的不合格品的件数为 XXX,则 XXX 的分布律为:

P(X=k)=(Mk)(N−Mn−k)(Nn),k=max⁡(0,n+M−N),⋯,min⁡(n,M) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}},k=\max(0,n+M-N),\cdots,\min(n,M) P(X=k)=(nN​)(kM​)(n−kN−M​)​,k=max(0,n+M−N),⋯,min(n,M)

则称 XXX 服从参数为 N,MN,MN,M 和 nnn 的超几何分布,记为 X∼H(N,M,n)X\sim H(N,M,n)X∼H(N,M,n)

若将不放回改为有放回,那就变成 nnn 重伯努利试验了,就是二项分布,当 nnn 非常大时,有放回和不放回的分布相差很小,所以可以证明:当 p=MNp=\frac{M}{N}p=NM​

lim⁡N→∞(Mk)(N−Mn−k)(Nn)=(nk)pk(1−p)n−k \lim_{N\to \infty}\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}=\binom{n}{k}p^k(1-p)^{n-k} N→∞lim​(nN​)(kM​)(n−kN−M​)​=(kn​)pk(1−p)n−k

# 几何分布

在伯努利试验中,记每次试验中 AAA 事件发生的概率 P(A)=p(0<p<1)P(A)=p(0<p<1)P(A)=p(0<p<1)

定义

设随机变量 XXX 表示 AAA 事件首次出现时已经试验的次数,则 XXX 的取值为 1,2,⋯1,2,\cdots1,2,⋯ ,对应的分布律为:

P(X=k)=p(1−p)k−1,0<p<1,k=1,2,⋯ P(X=k)=p(1-p)^{k-1},0<p<1,k=1,2,\cdots P(X=k)=p(1−p)k−1,0<p<1,k=1,2,⋯

则称随机变量 XXX 服从参数为 ppp 的几何分布,记为 X∼Ge(p)X\sim Ge(p)X∼Ge(p)

# 负二项分布

定义

在伯努利试验中,记每次试验中 AAA 事件的概率 P(A)=p(0<p<1)P(A)=p(0<p<1)P(A)=p(0<p<1),设随机变量 XXX 表示 AAA 事件第 rrr 次出现时已经试验的次数,则 XXX 的取值为 r,r+1,⋯,r+n,⋯r,r+1,\cdots,r+n,\cdotsr,r+1,⋯,r+n,⋯,对应的分布律为:

P(X=k)=(k−1r−1)pr(1−p)k−r,0<p<1,k=r,r+1,⋯,r+n,⋯ P(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r},0<p<1,k=r,r+1,\cdots,r+n,\cdots P(X=k)=(r−1k−1​)pr(1−p)k−r,0<p<1,k=r,r+1,⋯,r+n,⋯

则称随机变量 XXX 服从参数 r,pr,pr,p 的负二项分布,记为 X∼NB(r,p)X\sim NB(r,p)X∼NB(r,p),当 r=1r=1r=1 时,就是几何分布

这个式子可以理解为,前 r−1r-1r−1 次,出现了 k−1k-1k−1 次事件 AAA,最后一次是事件 AAA,乘上概率

# 均匀分布

定义

设 XXX 为随机变量,对任意两个实数 a,b(a<b)a,b(a<b)a,b(a<b),概率密度函数为:

f(x)={1b−a,a<x<b0,others f(x)=\begin{cases} \frac{1}{b-a},\ a<x<b \\ 0,\ others \end{cases} f(x)={b−a1​, a<x<b0, others​

# 指数分布

定义

设 XXX 为随机变量,概率密度函数为:

f(x)={λe−λx,x≥0,0,x<0,λ>0 f(x)=\begin{cases} \lambda e^{-\lambda x}, x\ge 0,\\ 0,\ x<0, \end{cases} \ \lambda >0 f(x)={λe−λx,x≥0,0, x<0,​ λ>0

则称随机变量 XXX 服从参数为 λ\lambdaλ 的指数分布,记为 X∼E(λ)X\sim E(\lambda)X∼E(λ)

相对应的分布函数为:

F(x)={0,x<01−e−λx,x≥0 F(x)=\begin{cases} 0, x<0\\ 1-e^{-\lambda x},x\ge 0 \end{cases} F(x)={0,x<01−e−λx,x≥0​
image.png

指数分布同几何分布相似, 也具有无记忆性

# 正态分布

定义

设 XXX 为随机变量,概率密度函数为:

f(x)=12πσe−(x−μ)22σ2,−∞<0<+∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<0<+\infty f(x)=2π​σ1​e−2σ2(x−μ)2​,−∞<0<+∞

则称随机变量 XXX 服从参数为 μ\muμ 和 σ2\sigma^2σ2 的正态分布,记为 X∼N(μ,σ2)X\sim N(\mu, \sigma^2)X∼N(μ,σ2)

相应的分布函数为

F(x)=∫−∞x12πσe−(x−μ)22σ2dt F(x)=\int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2} {2\sigma^2}} d t F(x)=∫−∞x​2π​σ1​e−2σ2(x−μ)2​dt

image.png

  • 正态分布是一个倒钟形曲线,左右两边关于 x=μx=\mux=μ 对称
  • 当 x=μx=\mux=μ 时,f(x)f(x)f(x) 取得最大值 12πσ\frac{1}{\sqrt{2\pi}\sigma}2π​σ1​ 这个值随着 σ\sigmaσ 增大而减小
  • 固定 σ\sigmaσ,改变 μ\muμ 曲线沿着 xxx 平移,但不改变形状,所以 μ\muμ 又被称为位置参数
  • 固定 μ\muμ,改变 σ\sigmaσ 的值,曲线的位置不变,随着 σ\sigmaσ 越小,曲线越陡峭,参数 σ\sigmaσ 又被称为尺度参数

image.png

特别的,当 μ=0,σ=1\mu =0,\sigma=1μ=0,σ=1 时,对应的正态分布被称为标准正态分布,记为 X∼N(0,1)X\sim N(0,1)X∼N(0,1) 概率密度函数和分布函数为:

f(x)=12πe−x22 f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} f(x)=2π​1​e−2x2​
F(x)=∫−∞xf(x)=12πe−x22dt F(x)=\int_{-\infty}^{x} f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} dt F(x)=∫−∞x​f(x)=2π​1​e−2x2​dt

一般来说,对于标准正态分布可以通过查表得到值。

当 x≥0x\ge0x≥0 时,标准正态分布函数 Φ(x)\Phi(x)Φ(x),利用正态分布的概率密度函数 φ(x)\varphi(x)φ(x) 是偶函数的性质得:Φ(x)=1−Φ(−x)\Phi(x)=1-\Phi(-x)Φ(x)=1−Φ(−x)

对于任意的两个实数 a,b(a<b)a,b(a<b)a,b(a<b) 可得

P(a<X≤b)=Φ(b)−Φ(a) P(a<X\le b)=\Phi(b)-\Phi(a) P(a<X≤b)=Φ(b)−Φ(a)

若随机变量 X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),则 X−μσ∼N(0,1)\frac{X-\mu}{\sigma}\sim N(0,1)σX−μ​∼N(0,1),所以,对任意两个实数 a,b(a<b)a,b(a<b)a,b(a<b),有:

P(a<X≤b)=Φ(b−μσ)−Φ(a−μσ) P(a<X\le b)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma}) P(a<X≤b)=Φ(σb−μ​)−Φ(σa−μ​)

# 卷积和变量替换

如果我们想要把随机变量之间进行运算,例如我们想把 XXX 和 YYY 的概率密度函数过渡到 X+YX+YX+Y 的密度并不容易

如果我们有两个随机变量 XXX 和另外一个随机变量 YYY,我们想知道 Z=X+YZ=X+YZ=X+Y 的概率密度是多少,给出 XXX 和 YYY 的概率密度函数

fX(x)={1 若 −1/2⩽x⩽1/20 其他 fY(y)={1 若 −1/2⩽y⩽1/20 其他.  \begin{aligned} f_{X}(x) & = \left\{\begin{array}{ll} 1 & \text { 若 }-1 / 2 \leqslant x \leqslant 1 / 2 \\ 0 & \text { 其他 } \end{array}\right. \\ f_{Y}(y) & = \left\{\begin{array}{ll} 1 & \text { 若 }-1 / 2 \leqslant y \leqslant 1 / 2 \\ 0 & \text { 其他. } \end{array}\right. \end{aligned} fX​(x)fY​(y)​={10​若−1/2⩽x⩽1/2其他​={10​若−1/2⩽y⩽1/2其他. ​​

如果我们有 Y=−XY=-XY=−X,那么 Z=X+YZ=X+YZ=X+Y 就始终为 000,如果 Y=XY=XY=X 那么 Z=X+Y=2XZ=X+Y=2XZ=X+Y=2X

f2X(z)={1/2 若 −1⩽z⩽10 其他.  f_{2 X}(z)=\left\{\begin{array}{ll} 1 / 2 & \text { 若 }-1 \leqslant z \leqslant 1 \\ 0 & \text { 其他. } \end{array}\right. f2X​(z)={1/20​若−1⩽z⩽1其他. ​

于是可以得出一个启示:只知道 fXf_XfX​ 和 fYf_YfY​ 是不足以确定 fX+Yf_{X+Y}fX+Y​ 的,但如果 XXX 和 YYY 是独立的,那么就可以得出来

定义

设 XXX 和 YYY 是定义在 R\RR 上的两个 相互独立 的连续性随机变量,它们的概率密度函数分别是 fXf_XfX​ 和 fYf_YfY​,XXX 和 YYY 的卷积记作 fX∗fYf_{X}*f_YfX​∗fY​,表达式为

(fX∗fY)(z)=∫−∞∞fX(t)fY(z−t)dt \left(f_{X} * f_{Y}\right)(z)=\int_{-\infty}^{\infty} f_{X}(t) f_{Y}(z-t) \mathrm{d} t (fX​∗fY​)(z)=∫−∞∞​fX​(t)fY​(z−t)dt

如果 XXX 和 YYY 都是离散型随机变量,那么

(fX∗fY)(z)=∑fX(xn)fY(z−xn) \left(f_{X} * f_{Y}\right)(z)=\sum f_{X}\left(x_{n}\right) f_{Y}\left(z-x_{n}\right) (fX​∗fY​)(z)=∑fX​(xn​)fY​(z−xn​)

通过卷积,就可以求得 Z=X+YZ=X+YZ=X+Y 的 PDF

定理

设 XXX 和 YYY 是定义在 R\RR 上的两个相互独立的随机变量,它们的概率密度函数分别是 fXf_XfX​ 和 fYf_YfY​ 如果 Z=X+YZ=X+YZ=X+Y,那么

fZ(z)=(fX∗fY)(z) f_Z(z)=(f_X * f_Y)(z) fZ​(z)=(fX​∗fY​)(z)

另外卷积是可以交换的,也就是说:fX∗fY=fY∗fXf_X * f_Y=f_Y * f_XfX​∗fY​=fY​∗fX​

证明 这里给出连续性的证明

我们的思路是通过求累积分布函数来求出概率密度函数,有

FZ(z)=P(Z≤z) F_Z(z)=P(Z\le z) FZ​(z)=P(Z≤z)

不妨设 XXX 的值是 ttt,我们要求 Z=X+Y≤z⇒Y≤z−tZ=X+Y\le z\Rightarrow Y\le z-tZ=X+Y≤z⇒Y≤z−t 也就是 FY(z−t)=P(Y≤z−t)F_Y(z-t)=P(Y\le z-t)FY​(z−t)=P(Y≤z−t)

让 ttt 取遍 XXX 的所有可能值,有

FZ(z)=∫t=−∞∞fX(t)FY(z−t)dt F_{Z}(z)=\int_{t=-\infty}^{\infty} f_{X}(t) F_{Y}(z-t) \mathrm{d} t FZ​(z)=∫t=−∞∞​fX​(t)FY​(z−t)dt

然后对累积分布函数求导得到概率密度函数

fZ(z)=ddz∫t=−∞∞fX(t)FY(z−t)dt=∫t=−∞∞ddz[fX(t)FY(z−t)]dt=∫t=−∞∞fX(t)ddzFY(z−t)dt=∫t=−∞∞fX(t)fY(z−t)dt=(fX∗fY)(z) \begin{aligned} f_{Z}(z) & = \frac{\mathrm{d}}{\mathrm{~d} z} \int_{t = -\infty}^{\infty} f_{X}(t) F_{Y}(z-t) \mathrm{d} t \\& = \int_{t = -\infty}^{\infty} \frac{\mathrm{d}}{\mathrm{~d} z}\left[f_{X}(t) F_{Y}(z-t)\right] \mathrm{d} t \\ & = \int_{t = -\infty}^{\infty} f_{X}(t) \frac{\mathrm{d}}{\mathrm{~d} z} F_{Y}(z-t) \mathrm{d} t \\ & = \int_{t = -\infty}^{\infty} f_{X}(t) f_{Y}(z-t) \mathrm{d} t \\ & = \left(f_{X} * f_{Y}\right)(z) \end{aligned} fZ​(z)​= dzd​∫t=−∞∞​fX​(t)FY​(z−t)dt=∫t=−∞∞​ dzd​[fX​(t)FY​(z−t)]dt=∫t=−∞∞​fX​(t) dzd​FY​(z−t)dt=∫t=−∞∞​fX​(t)fY​(z−t)dt=(fX​∗fY​)(z)​

观察一些卷积的例子

例题

抛掷两颗均匀的骰子,假设两颗骰子掷出的结果是相对独立的,让 XXX 表示第一颗骰子掷出的数字,YYY 表示第二颗骰子掷出的数字,有:

fX(k)=fY(k)={1/6 若 k∈{1,2,3,4,5,6}0 其他.  f_{X}(k)=f_{Y}(k)=\left\{\begin{array}{ll} 1 / 6 & \text { 若 } k \in\{1,2,3,4,5,6\} \\ 0 & \text { 其他. } \end{array}\right. fX​(k)=fY​(k)={1/60​若k∈{1,2,3,4,5,6}其他. ​

求 X+YX+YX+Y 的概率密度函数

根据卷积的定义可知,Z=X+YZ=X+YZ=X+Y,那么

fZ(z)=(fX∗fY)(z)=∑fX(k)fY(z−k) f_Z(z)=(f_X*f_Y)(z)=\sum f_X(k)f_Y(z-k) fZ​(z)=(fX​∗fY​)(z)=∑fX​(k)fY​(z−k)

考虑范围

k∈{1,⋯,6} 且 z−k∈{1,⋯,6}.  k \in\{1, \cdots, 6\} \quad \text { 且 } z-k \in\{1, \cdots, 6\} \text {. } k∈{1,⋯,6}且z−k∈{1,⋯,6}. 

我们可以把 zzz 在这里看出常数,所以 kkk 的有效取之范围是

{z−6,z−5,z−4,z−3,z−2,z−1}∩{1,2,3,4,5,6} \{z-6, z-5, z-4, z-3, z-2, z-1\} \cap\{1,2,3,4,5,6\} {z−6,z−5,z−4,z−3,z−2,z−1}∩{1,2,3,4,5,6}

例如,当 z=8z=8z=8,那么 kkk 当值可能的取值是 2,3,4,5,62,3,4,5,62,3,4,5,6

fZ(8)=∑k=26fX(k)fY(8−k)=∑k=2616⋅16=536. f_{Z}(8)=\sum_{k=2}^{6} f_{X}(k) f_{Y}(8-k)=\sum_{k=2}^{6} \frac{1}{6} \cdot \frac{1}{6}=\frac{5}{36} . fZ​(8)=k=2∑6​fX​(k)fY​(8−k)=k=2∑6​61​⋅61​=365​.

所以得到答案

fZ(k)={∑k=1z−1136=z−136 若 z∈{2,⋯,7}∑k=z−66136=13−z36 若 z∈{7,⋯,12}0 其他.  f_{Z}(k) = \left\{\begin{array}{ll} \sum_{k = 1}^{z-1} \frac{1}{36} = \frac{z-1}{36} & \text { 若 } z \in\{2, \cdots, 7\} \\ \sum_{k = z-6}^{6} \frac{1}{36} = \frac{13-z}{36} & \text { 若 } z \in\{7, \cdots, 12\} \\ 0 & \text { 其他. } \end{array}\right. fZ​(k)=⎩⎪⎨⎪⎧​∑k=1z−1​361​=36z−1​∑k=z−66​361​=3613−z​0​若z∈{2,⋯,7}若z∈{7,⋯,12}其他. ​

现在考虑多变量的卷积,能不能求出 fX1+⋯+Xnf_{X_1+\cdots+X_n}fX1​+⋯+Xn​​?

定理

设 X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​ 是相互独立的随机变量,他们的概率密度函数分别是 fX1,⋯,fXnf_{X_1},\cdots,f_{X_n}fX1​​,⋯,fXn​​,那么有

fX1+⋯+Xn(z)=(fX1∗fX2∗⋯∗fXn)(z) f_{X_{1}+\cdots+X_{n}}(z)=\left(f_{X_{1}} * f_{X_{2}} * \cdots * f_{X_{n}}\right)(z) fX1​+⋯+Xn​​(z)=(fX1​​∗fX2​​∗⋯∗fXn​​)(z)

其中

(f1∗f2∗⋯∗fn)(z)=(f1∗(f2∗⋯∗(fn−2∗(fn−1∗fn))⋯))(z) \left(f_{1} * f_{2} * \cdots * f_{n}\right)(z)=\left(f_{1} *\left(f_{2} * \cdots *\left(f_{n-2} *\left(f_{n-1} * f_{n}\right)\right) \cdots\right)\right)(z) (f1​∗f2​∗⋯∗fn​)(z)=(f1​∗(f2​∗⋯∗(fn−2​∗(fn−1​∗fn​))⋯))(z)

我们已经证明了卷积是可交换的,也就是说 f∗g=g∗ff*g=g*ff∗g=g∗f,另外卷积是满足结合律的:(f∗g)∗h=f∗(g∗h)(f*g)*h=f*(g*h)(f∗g)∗h=f∗(g∗h)

需要注意,卷积需要用两个函数作为输入,并返回一个函数作为输出,对于 f∗g∗hf*g*hf∗g∗h 就需要小心了,我们不能直接对三个函数求卷积,我们需要说明是:(f∗g)∗h(f*g)*h(f∗g)∗h 或者是 f∗(g∗h)f*(g*h)f∗(g∗h) ,幸运是的,由于结合律,这两个值相同,但是仍要说明运算顺序

下面来看一下上面那个定义的证明

证明:我们只考虑 n=3n=3n=3 的情况,一般情况下可以类似得证明

我们假设 Z=X1+X2+X3=(X1+X2)+X3Z=X_1+X_2+X_3=(X_1+X_2)+X_3Z=X1​+X2​+X3​=(X1​+X2​)+X3​,由于 X3X_3X3​ 分别和 X1,X2X_1,X_2X1​,X2​ 独立,所以 X3X_3X3​ 和 X1+X2X_1+X_2X1​+X2​ 独立,于是有

fZ(z)=(fX1+X2∗fX3)(z)=((fX1∗fX2)∗fX3)(z) f_{Z}(z)=\left(f_{X_{1}+X_{2}} * f_{X_{3}}\right)(z)=((f_{X_1}*f_{X_2})*f_{X_3})(z) fZ​(z)=(fX1​+X2​​∗fX3​​)(z)=((fX1​​∗fX2​​)∗fX3​​)(z)

当然 ZZZ 可以写成 Z=X1+(X2+X3)Z=X_1+(X_2+X_3)Z=X1​+(X2​+X3​),得到

fZ(z)=(fX1∗fX2+X3)(z)=(fX1∗(fX2∗fX3))(z) f_{Z}(z)=\left(f_{X_{1}} * f_{X_{2}+X_{3}}\right)(z)=(f_{X_1}*(f_{X_2}*f_{X_3}))(z) fZ​(z)=(fX1​​∗fX2​+X3​​)(z)=(fX1​​∗(fX2​​∗fX3​​))(z)

这里还是利用了加法的交换律来证明结合律

# 变量替换公式

假设有一个连续性随机变量 XXX,它的概率密度函数是 fXf_XfX​,如果 ggg 是一个合适的函数,那么我们能求出 Y=g(X)Y=g(X)Y=g(X) 的概率密度函数

定理

设 XXX 是一个概率密度函数为 fXf_XfX​ 的连续性随机变量,并存在一个区间 I⊂RI\subset \RI⊂R 使得当 x∉Ix\notin Ix∈/​I 时,fX(x)=0f_X(x)=0fX​(x)=0

设 g:I→Rg: I\rightarrow \Rg:I→R 是一个可微函数,其反函数是 hhh,除了在有限多个点的导数值可能为 000 外,ggg 的导数在 III 中始终为正或始终为负,如果 Y=g(X)Y=g(X)Y=g(X),那么

fY(y)=fX(h(y))⋅∣h′(y)∣ f_{Y}(y)=f_{X}(h(y)) \cdot\left|h^{\prime}(y)\right| fY​(y)=fX​(h(y))⋅∣h′(y)∣

来再解释一下这个定理

  • I⊂RI\subset \RI⊂R 使得当 x∉Ix\notin Ix∈/​I 时,fX(x)=0f_X(x)=0fX​(x)=0 其实是在缩小研究范围,当 XXX 在 III 中取值的时候,概率函数不为 000,我们需要的函数只需要在研究范围 III 内有良好的性质,不需要在 R\RR 上有良好的性质
  • 其次要满足 ggg 是可微的,例如 I=[−1,1],g(X)=∣X∣I=[-1,1],g(X)=|X|I=[−1,1],g(X)=∣X∣ 就不行,但是如果把 I=[2,3]I=[2,3]I=[2,3] 就满足条件了
  • 最后要求除了在个别点能为 000 外,ggg 的导数值要么始终为正,要么始终为负,就是说明要么单增,要么单减

回顾一下反函数,如果 hhh 是 ggg 的反函数,满足:h(g(x))=xh(g(x))=xh(g(x))=x,且 g(h(y))=yg(h(y))=yg(h(y))=y,后面那个式子对 yyy 求微分可以得到

g′(h(y))⋅h′(y)=1⇒h′(y)=1g′(h(y)) g'(h(y))\cdot h'(y)=1\Rightarrow h'(y)=\frac{1}{g'(h(y))} g′(h(y))⋅h′(y)=1⇒h′(y)=g′(h(y))1​

也就是说我们需要求 ggg 的导数然后把 h(y)h(y)h(y) 带入就好了

例题

设 XXX 的概率密度函数是:

fX(x)={1/2 若 0⩽x⩽20 其他 , f_{X}(x)=\left\{\begin{array}{ll} 1 / 2 & \text { 若 } 0 \leqslant x \leqslant 2 \\ 0 & \text { 其他 }, \end{array}\right. fX​(x)={1/20​若0⩽x⩽2其他,​

并设

g(X)=X2 g(X)=X^2 g(X)=X2
  1. 区间 I=[0,2]I=[0,2]I=[0,2]
  2. 除了 000 点以外,ggg 单增
  3. h(y)=yh(y)=\sqrt{y}h(y)=y​,h′(y)=12y−12h'(y)=\frac{1}{2}y^{-\frac{1}{2}}h′(y)=21​y−21​

套用公式 fY(y)=fX(h(y))⋅∣h′(y)∣f_{Y}(y)=f_{X}(h(y)) \cdot\left|h^{\prime}(y)\right|fY​(y)=fX​(h(y))⋅∣h′(y)∣ 得到

fY(y)={14y 若 0⩽y⩽40 其他.  f_{Y}(y)=\left\{\begin{array}{ll} \frac{1}{4 \sqrt{y}} & \text { 若 } 0 \leqslant y \leqslant 4 \\ 0 & \text { 其他. } \end{array}\right. fY​(y)={4y​1​0​若0⩽y⩽4其他. ​

检验一下,显然这个函数是非负的,查看积分是否为 111

∫04fY(y)dy=∫04dy4y=y2∣04=1 \int_{0}^{4} f_{Y}(y) \mathrm{d} y=\int_{0}^{4} \frac{\mathrm{~d} y}{4 \sqrt{y}}=\left.\frac{\sqrt{y}}{2}\right|_{0} ^{4}=1 ∫04​fY​(y)dy=∫04​4y​ dy​=2y​​∣∣∣∣∣​04​=1

考虑证明变量替换公式

证明 思路还是先求累积分布函数,然后对累积分布函数求导得到概率密度函数

情形一: 假设 g′g'g′ 是正的,所以 III 被映射成 [g(a),g(b)][g(a),g(b)][g(a),g(b)] 那么,由 g(a)≤g(X)≤yg(a)\le g(X)\le yg(a)≤g(X)≤y 等价于 a≤g−1(g(X))≤g−1(y)a\le g^{-1}(g(X))\le g^{-1}(y)a≤g−1(g(X))≤g−1(y) 可知

FY(y)=P⁡(Y⩽y)=P⁡(g(a)⩽Y⩽y)=P⁡(g(a)⩽g(X)⩽y)=P⁡(a⩽X⩽g−1(y)), \begin{aligned} F_{Y}(y) & =\operatorname{P}(Y \leqslant y) \\ & =\operatorname{P}(g(a) \leqslant Y \leqslant y) \\ & =\operatorname{P}(g(a) \leqslant g(X) \leqslant y) \\ & =\operatorname{P}\left(a \leqslant X \leqslant g^{-1}(y)\right), \end{aligned} FY​(y)​=P(Y⩽y)=P(g(a)⩽Y⩽y)=P(g(a)⩽g(X)⩽y)=P(a⩽X⩽g−1(y)),​

于是,有

FY(y)=P(a≤X≤h(y))=FX(h(y)) F_Y(y)=P(a\leq X\leq h(y))=F_X(h(y)) FY​(y)=P(a≤X≤h(y))=FX​(h(y))

使用链式法则对 FYF_YFY​ 求导

fY(y)=FX′(h(y))⋅h′(y)=fX(h(y))⋅h′(y) f_{Y}(y)=F_{X}^{\prime}(h(y)) \cdot h^{\prime}(y)=f_{X}(h(y)) \cdot h^{\prime}(y) fY​(y)=FX′​(h(y))⋅h′(y)=fX​(h(y))⋅h′(y)

情形二: 假设 g′g'g′ 是负的,所以 III 被映射成 [g(b),g(a)][g(b),g(a)][g(b),g(a)],此时,Y≤yY\le yY≤y 变成了 g(b)≤Y≤yg(b)\le Y\le yg(b)≤Y≤y,有

FY(y)=P⁡(Y⩽y)=P⁡(g(b)⩽Y⩽y)=P⁡(g(b)⩽g(X)⩽y)=P⁡(g−1(y)⩽X⩽b), \begin{aligned} F_{Y}(y) & =\operatorname{P}(Y \leqslant y) \\ & =\operatorname{P}(g(b) \leqslant Y \leqslant y) \\ & =\operatorname{P}(g(b) \leqslant g(X) \leqslant y) \\ & =\operatorname{P}\left(g^{-1}(y) \leqslant X \leqslant b\right), \end{aligned} FY​(y)​=P(Y⩽y)=P(g(b)⩽Y⩽y)=P(g(b)⩽g(X)⩽y)=P(g−1(y)⩽X⩽b),​

设 h(x)=g−1(y)h(x)=g^{-1}(y)h(x)=g−1(y),得到

FY(y)=P⁡(h(y)⩽X⩽b)=P⁡(a⩽X⩽b)−P⁡(a⩽X⩽h(y))=1−FX(h(y)) \begin{aligned} F_{Y}(y) & =\operatorname{P}(h(y) \leqslant X \leqslant b) \\ & =\operatorname{P}(a \leqslant X \leqslant b)-\operatorname{P}(a \leqslant X \leqslant h(y)) \\ & =1-F_{X}(h(y)) \quad \end{aligned} FY​(y)​=P(h(y)⩽X⩽b)=P(a⩽X⩽b)−P(a⩽X⩽h(y))=1−FX​(h(y))​

用链式法则对 FY(y)F_Y(y)FY​(y) 求导

fY(y)=−FX′(h(y))⋅h′(y)=−fX(h(y))⋅h′(y); f_{Y}(y)=-F_{X}^{\prime}(h(y)) \cdot h^{\prime}(y)=-f_{X}(h(y)) \cdot h^{\prime}(y) ; fY​(y)=−FX′​(h(y))⋅h′(y)=−fX​(h(y))⋅h′(y);

这里 g′g'g′ 是负的,所以 h′h'h′ 也是负的

所以结合情况一,能得到总的式子

fY(y)=fX(h(y))⋅∣h′(y)∣ f_Y(y)=f_X(h(y))\cdot |h'(y)| fY​(y)=fX​(h(y))⋅∣h′(y)∣

证毕

这样一个通用的累积函数的方法也可以作为求变量替换的通法

# 微分恒等式

假设我们需要求:

12+24+38+⋯+=∑n=0∞n2n \frac{1}{2}+\frac{2}{4}+\frac{3}{8}+\cdots+=\sum_{n=0}^{\infty}\frac{n}{2^n} 21​+42​+83​+⋯+=n=0∑∞​2nn​

的值

我们发现这个和几何级数很像,但不完全相同,一个的分子是 nnn 一个分子是 111

我们有几何级数的公式,我们可以对等式两端进行一些运算,从而得出新的恒等式

我们已知几何级数恒等式

1+12+14+18+116+⋯+=∑n=0∞12n=11−1/2=2 1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\frac{1}{16}+\cdots+=\sum_{n=0}^{\infty} \frac{1}{2^{n}}=\frac{1}{1-1 / 2}=2 1+21​+41​+81​+161​+⋯+=n=0∑∞​2n1​=1−1/21​=2

我们再抽象一层,把这个 1/21/21/2 换成 xxx ,考虑更一般的情形,也就是要求 ∑n=0∞n⋅xn\sum\limits_{n=0}^{\infty} n\cdot x^nn=0∑∞​n⋅xn

我们有几何恒等式

∑n=0∞xn=11−x \sum_{n=0}^{\infty} x^{n}=\frac{1}{1-x} n=0∑∞​xn=1−x1​

在两边乘上 ddx\frac{\text{d}}{\text{d}x}dxd​,得到

ddx∑n=0∞xn=ddx11−x∑n=0∞ddxxn=1(1−x)2∑n=0∞nxn−1=1(1−x)2 \begin{aligned} \frac{\mathrm{d}}{\mathrm{~d} x} \sum_{n=0}^{\infty} x^{n} & =\frac{\mathrm{d}}{\mathrm{~d} x} \frac{1}{1-x} \\ \sum_{n=0}^{\infty} \frac{\mathrm{d}}{\mathrm{~d} x} x^{n} & =\frac{1}{(1-x)^{2}} \\ \sum_{n=0}^{\infty} n x^{n-1} & =\frac{1}{(1-x)^{2}} \end{aligned}  dxd​n=0∑∞​xnn=0∑∞​ dxd​xnn=0∑∞​nxn−1​= dxd​1−x1​=(1−x)21​=(1−x)21​​

想要得到 ∑n=0∞n⋅xn\sum\limits_{n=0}^{\infty} n\cdot x^nn=0∑∞​n⋅xn,只需要在等式两边乘 xxx 得到

∑n=0∞nxn=x(1−x)2 \sum_{n=0}^{\infty}nx^n=\frac{x}{(1-x)^2} n=0∑∞​nxn=(1−x)2x​

带入 x=1/2x=1/2x=1/2 可以得到和就是 222

然后思考另外一个问题,如何求

∑n=0∞n22n \sum_{n=0}^{\infty} \frac{n^2}{2^n} n=0∑∞​2nn2​

还是从几何级数开始,两边乘上 xddxx\frac{\text{d}}{\text{d}x}xdxd​,得到

∑n=0∞nxn=x(1−x)2 \sum\limits_{n=0}^{\infty} nx^n=\frac{x}{(1-x)^2} n=0∑∞​nxn=(1−x)2x​

然后再在两边乘上 xddxx\frac{\text{d}}{\text{d}x}xdxd​,得到

∑n=0∞n2xn=x(1+x)(1−x)3 \sum_{n=0}^{\infty}n^2x^n=\frac{x(1+x)}{(1-x)^3} n=0∑∞​n2xn=(1−x)3x(1+x)​

下面给出定义:

定义:微分恒等式法

设 $\alpha,\beta,\gamma,\cdots, \omega $ 是一些参数,设

∑n=nmin⁡nmax⁡f(n;α,β,⋯,ω)=g(α,β,⋯,ω) \sum_{n=n_{\min }}^{n_{\max }} f(n ; \alpha, \beta, \cdots, \omega)=g(\alpha, \beta, \cdots, \omega) n=nmin​∑nmax​​f(n;α,β,⋯,ω)=g(α,β,⋯,ω)

其中,fff 和 ggg 都是 α\alphaα 的可微函数,如果 fff 退化到求和与微分次序可以交换,那么

∑n=nmin⁡nmax⁡∂f(n;α,β,⋯,ω)∂α=∂g(α,β,⋯,ω)∂α. \sum_{n=n_{\min }}^{n_{\max }} \frac{\partial f(n ; \alpha, \beta, \cdots, \omega)}{\partial \alpha}=\frac{\partial g(\alpha, \beta, \cdots, \omega)}{\partial \alpha} . n=nmin​∑nmax​​∂α∂f(n;α,β,⋯,ω)​=∂α∂g(α,β,⋯,ω)​.

使用微分恒等式能给我们更多解题思路

来看一下微分恒等式在二项分布随机变量上的应用,有二项分布

Prob⁡(X=k)={(nk)pk(1−p)n−k 若 k∈{0,1,⋯,n}0 其他.  \operatorname{Prob}(X=k)=\left\{\begin{array}{ll} \binom{n}{k} p^{k}(1-p)^{n-k} & \text { 若 } k \in\{0,1, \cdots, n\} \\ 0 & \text { 其他. } \end{array}\right. Prob(X=k)={(kn​)pk(1−p)n−k0​若k∈{0,1,⋯,n}其他. ​

我们设 q=1−pq=1-pq=1−p ,于是二项分布就变成

(p+q)n=∑k=0n(nk)pkqn−k (p+q)^{n}=\sum_{k=0}^{n}\binom{n}{k} p^{k} q^{n-k} (p+q)n=k=0∑n​(kn​)pkqn−k

这里我们把 q,pq,pq,p 看称相互独立的变量,以为如果把 q=1−pq=1-pq=1−p 限定死的话,和就恒为 111,他的导数就是 000,没有研究的意义了

假设现在我们需要求

E[X]=∑k=0nk⋅(nk)pk(1−p)n−k \mathbb{E}[X]=\sum_{k=0}^{n} k \cdot\binom{n}{k} p^{k}(1-p)^{n-k} E[X]=k=0∑n​k⋅(kn​)pk(1−p)n−k

我们在等式两端乘上 p∂∂pp\frac{\partial}{\partial p}p∂p∂​ 得到

p∂∂p(∑k=0n(nk)pkqn−k)=p∂∂p(p+q)np∑k=0n(nk)kpk−1qn−k=p⋅n(p+q)n−1∑k=0nk(nk)pkqn−k=np(p+q)n−1 \begin{aligned} p \frac{\partial}{\partial p}\left(\sum_{k=0}^{n}\binom{n}{k} p^{k} q^{n-k}\right) & =p \frac{\partial}{\partial p}(p+q)^{n} \\ p \sum_{k=0}^{n}\binom{n}{k} k p^{k-1} q^{n-k} & =p \cdot n(p+q)^{n-1} \\ \sum_{k=0}^{n} k\binom{n}{k} p^{k} q^{n-k} & =n p(p+q)^{n-1} \end{aligned} p∂p∂​(k=0∑n​(kn​)pkqn−k)pk=0∑n​(kn​)kpk−1qn−kk=0∑n​k(kn​)pkqn−k​=p∂p∂​(p+q)n=p⋅n(p+q)n−1=np(p+q)n−1​

现在回代 q=1−pq=1-pq=1−p,得到

∑k=0nk(nk)pk(1−p)n=np \sum_{k=0}^{n} k\binom{n}{k} p^{k}(1-p)^{n}=n p k=0∑n​k(kn​)pk(1−p)n=np

现在我们需要计算方差

Var⁡(X)=E[X2]−E[X]2=∑nk2⋅(nk)pk(1−p)n−k−(np)2 \operatorname{Var}(X)=\mathbb{E}\left[X^{2}\right]-\mathbb{E}[X]^{2}=\sum^{n} k^{2} \cdot\binom{n}{k} p^{k}(1-p)^{n-k}-(n p)^{2} Var(X)=E[X2]−E[X]2=∑n​k2⋅(kn​)pk(1−p)n−k−(np)2

后面一个均值我们已经得到了,现在需要得到 E[X2]\mathbb{E}[X^2]E[X2] 的值

我们从二项展开那个等式开始

∑k=0n(nk)pkqn−k=(p+q)n \sum_{k=0}^{n}\binom{n}{k} p^{k} q^{n-k}=(p+q)^{n} k=0∑n​(kn​)pkqn−k=(p+q)n

在两边乘上 p∂∂pp\frac{\partial}{\partial p}p∂p∂​ 得到

∑k=0nk(nk)pkqn−k=np(p+q)n−1 \sum_{k=0}^{n} k\binom{n}{k} p^{k} q^{n-k} =n p(p+q)^{n-1} k=0∑n​k(kn​)pkqn−k=np(p+q)n−1

再次乘上 p∂∂pp\frac{\partial}{\partial p}p∂p∂​ 得到

∑k=0nk2(nk)pkqn−k=p[1⋅n(p+q)n−1+p⋅n(n−1)(p+q)n−2] \sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k} q^{n-k}=p\left[1 \cdot n(p+q)^{n-1}+p \cdot n(n-1)(p+q)^{n-2}\right] k=0∑n​k2(kn​)pkqn−k=p[1⋅n(p+q)n−1+p⋅n(n−1)(p+q)n−2]

另 q=1−pq=1-pq=1−p,上式就变成了

∑k=0nk2(nk)pk(1−p)n−k=np+n(n−1)p2=E[X2] \sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k}(1-p)^{n-k}=n p+n(n-1) p^{2}=\mathbb{E}[X^2] k=0∑n​k2(kn​)pk(1−p)n−k=np+n(n−1)p2=E[X2]

于是我们能算出方差了

Var⁡(X)=E[X2]−E[X]2=∑k=0nk2(nk)pkqn−k−(np)2=np+n2p2−np2−n2p2=np−np2=np(1−p). \begin{aligned} \operatorname{Var}(X) & =\mathbb{E}\left[X^{2}\right]-\mathbb{E}[X]^{2} \\ & =\sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k} q^{n-k}-(n p)^{2} \\ & =n p+n^{2} p^{2}-n p^{2}-n^{2} p^{2} \\ & =n p-n p^{2}=n p(1-p) . \end{aligned} Var(X)​=E[X2]−E[X]2=k=0∑n​k2(kn​)pkqn−k−(np)2=np+n2p2−np2−n2p2=np−np2=np(1−p).​

现在再来观察一下在正态分布随机变量上的应用 / X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2) 表示 XXX 服从均值为 μ\muμ,方差为 σ2\sigma^2σ2 的正态分布,概率密度函数是

fX(x)=12πσ2e−(x−μ)2/2σ2 f_{X}(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}} fX​(x)=2πσ2​1​e−(x−μ)2/2σ2

我们现在只考虑标准正态分布

f(x)=12πe−x2/2 f(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} f(x)=2π​1​e−x2/2

那么他的 kkk 阶矩为

M(k)=∫−∞∞xk⋅12πe−x2/2dx M(k)=\int_{-\infty}^{\infty} x^{k} \cdot \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} \mathrm{~d} x M(k)=∫−∞∞​xk⋅2π​1​e−x2/2 dx

显然,当 kkk 为奇数的时候,这是一个奇函数,积分为 000,我们必须要考虑 kkk 为偶数的情况,处理方法至少有两种:直接积分和微分恒等式

直接积分

考虑方差,由于均值是 000,所以方差为

∫−∞∞x2⋅12πe−x2/2dx \int_{-\infty}^{\infty} x^{2} \cdot \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} \mathrm{~d} x ∫−∞∞​x2⋅2π​1​e−x2/2 dx

令

u=x,dv=12πe−x2/2xdx u=x, \quad \mathrm{~d} v=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} x \mathrm{~d} x u=x, dv=2π​1​e−x2/2x dx

得到了,du=dx\mathrm{d}u=\mathrm{d}xdu=dx 和 v=12πe−x2/2dxv=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} \mathrm{~d} xv=2π​1​e−x2/2 dx,于是有

M(2)=uv∣−∞∞+∫−∞∞12πe−x2/2dx=1. M(2)=\left.u v\right|_{-\infty} ^{\infty}+\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2} \mathrm{~d} x=1 . M(2)=uv∣−∞∞​+∫−∞∞​2π​1​e−x2/2 dx=1.

于是我们证明了二阶矩为 111

微分恒等式法

我们从这个事实开始

1=∫−∞∞12πσ2e−x2/2σ2dx 1=\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^{2}}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x 1=∫−∞∞​2πσ2​1​e−x2/2σ2 dx

把 σ\sigmaσ 移动到另外一遍得到

σ=∫−∞∞12πe−x2/2σ2dx \sigma=\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x σ=∫−∞∞​2π​1​e−x2/2σ2 dx

我们把 σ3ddσ\sigma^3\frac{\mathrm{~d}}{\mathrm{~d\sigma}}σ3dσd​ 用于上式两端,为什么要乘上 σ3\sigma^3σ3 因为微分会对 −x22σ2-\frac{x^2}{2\sigma^2}−2σ2x2​ 产生影响,从而产生 1σ3\frac{1}{\sigma^3}σ31​ 的因子,所以需要乘上 σ3\sigma^3σ3

σ3ddσσ=σ3ddσ∫−∞∞12πe−x2/2σ2dx \sigma^{3} \frac{\mathrm{~d}}{\mathrm{~d} \sigma} \sigma=\sigma^{3} \frac{\mathrm{~d}}{\mathrm{~d} \sigma} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x σ3 dσ d​σ=σ3 dσ d​∫−∞∞​2π​1​e−x2/2σ2 dx
σ3⋅1=∫−∞∞x2⋅12πe−x2/2σ2dx \sigma^{3} \cdot 1=\int_{-\infty}^{\infty} x^{2} \cdot \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x σ3⋅1=∫−∞∞​x2⋅2π​1​e−x2/2σ2 dx

令

I(k;σ)=∫−∞∞xk⋅12πe−x2/2σ2dx I(k ; \sigma)=\int_{-\infty}^{\infty} x^{k} \cdot \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x I(k;σ)=∫−∞∞​xk⋅2π​1​e−x2/2σ2 dx

这样我们就得出了

σ3=I(2;σ) \sigma^{3}=I(2 ; \sigma) σ3=I(2;σ)

此外,积分 I(k;σ)I(k ;\sigma)I(k;σ) 与标准正态分布的矩 M(k)M(k)M(k) 之间存在一种简单的关系:

I(k,1)=M(k) I(k,1)=M(k) I(k,1)=M(k)

这里可以看出 I(k;σ)I(k;\sigma)I(k;σ) 是均值为 000 且方差为 σ2\sigma^2σ2 的正态分布的 kkk 阶矩

我们证明了

1⋅σ3=I(2;σ)和I(k;1)=M(k) 1\cdot \sigma^3=I(2;\sigma) \quad \text{和} \quad I(k;1)=M(k) 1⋅σ3=I(2;σ)和I(k;1)=M(k)

我们在上面那个积分两端再乘上 σ3ddσ\sigma^3 \frac{\mathrm{d}}{\mathrm{d}\sigma}σ3dσd​ 得

σ3⋅3⋅1σ2=∫−∞∞x2⋅x212πe−x2/2σ2dx=I(4;σ) \sigma^{3} \cdot 3 \cdot 1 \sigma^{2}=\int_{-\infty}^{\infty} x^{2} \cdot x^{2} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-x^{2} / 2 \sigma^{2}} \mathrm{~d} x=I(4 ; \sigma) σ3⋅3⋅1σ2=∫−∞∞​x2⋅x22π​1​e−x2/2σ2 dx=I(4;σ)

等价于

3⋅1⋅σ5=I(4;σ) 3 \cdot 1 \cdot \sigma^{5}=I(4 ; \sigma) 3⋅1⋅σ5=I(4;σ)

将 σ3ddσ\sigma^3 \frac{\mathrm{d}}{\mathrm{d}\sigma}σ3dσd​ 再次乘在式子两端,我们有

σ3⋅5⋅3⋅1σ4=5⋯3⋯1⋯σ7=I(6;σ) \sigma^{3} \cdot 5 \cdot 3 \cdot 1 \sigma^{4}=5 \cdots 3 \cdots 1 \cdots \sigma^{7}=I(6 ; \sigma) σ3⋅5⋅3⋅1σ4=5⋯3⋯1⋯σ7=I(6;σ)

令 σ=1\sigma=1σ=1 可以得到标准正态分布的矩的公式

∏k=1n2−12k+1=M(n),n为偶数 \textstyle \prod\limits_{k=1}^{\frac{n}{2}-1}2k+1=M(n),\quad \text{n为偶数} k=1∏2n​−1​2k+1=M(n),n为偶数

# 多维随机变量

定义

设有随机试验 EEE,其样本空间为 Ω\OmegaΩ,若 Ω\OmegaΩ 中的每一个样本点 ω\omegaω 都有一对实数 (X(ω),Y(ω))(X(\omega),Y(\omega))(X(ω),Y(ω)) 与其对应,则称 (X,Y)(X,Y)(X,Y) 为二维数组随机变量

# 联合分布函数

可以理解为前缀和

定义

设 (X,Y)(X,Y)(X,Y) 为二维随机变量,对任意的 (x,y)∈R2(x,y)\in R^2(x,y)∈R2,称

F(x,y)=P(X≤x,Y≤y) F(x,y)=P(X\le x, Y\le y) F(x,y)=P(X≤x,Y≤y)

为随机变量 (X,Y)(X,Y)(X,Y) 的联合分布函数

image-20250401203421350

# 联合密度函数

定义

设二位变量 (X,Y)(X,Y)(X,Y) 的联合分布函数为 F(x,y)F(x,y)F(x,y),如果存在一个二元非负实值函数 f(x,y)f(x,y)f(x,y),使得对于任意 (x,y)∈R2(x,y)\in R^2(x,y)∈R2 有

F(x,y)=∫−∞x∫−∞yf(u,v)dudv F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^y f(u,v)\mathrm{d}u\mathrm{d}v F(x,y)=∫−∞x​∫−∞y​f(u,v)dudv

成立,则称 (X,Y)(X,Y)(X,Y) 为二维连续性随机变量,f(x,y)f(x,y)f(x,y) 为二维连续性随机变量 (X,Y)(X,Y)(X,Y) 的联合密度函数

几何意义就是左前侧阴影部分的体积

image-20250401224320908

# 常见分布

# 二维均匀分布

定义

设二维随机变量 (X,Y)(X,Y)(X,Y) 的联合密度函数为

f(x,y)={1SG,(x,y)∈G0,others f(x,y)=\begin{cases} \frac{1}{S_G}, & (x,y)\in G \\ 0, & \text{others} \end{cases} f(x,y)={SG​1​,0,​(x,y)∈Gothers​

其中 GGG 是 xoyxoyxoy 平面上的某个区域,SGS_GSG​ 为 GGG 的面积,则称 (X,Y)(X,Y)(X,Y) 服从区域 GGG 上的二维均匀分布

# 二维正态分布

定义

如果 (X,Y)(X,Y)(X,Y) 的联合密度函数为

f(x,y)=12πσ1σ21−ρ2⋅exp⁡{−12(1−p2)[(x−μ1)2σ12−2ρ(x−μ1)(x−μ2)σ1σ2+(y−μ2)2σ22]} f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\cdot\exp\{{-\frac{1}{2(1-p^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(x-\mu2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]}\} f(x,y)=2πσ1​σ2​1−ρ2​1​⋅exp{−2(1−p2)1​[σ12​(x−μ1​)2​−2ρσ1​σ2​(x−μ1​)(x−μ2)​+σ22​(y−μ2​)2​]}

则称 (X,Y)(X,Y)(X,Y) 服从二维正态分布,记为 (X,Y)∼N(μ1,μ2,σ12,σ22.ρ)(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2.\rho)(X,Y)∼N(μ1​,μ2​,σ12​,σ22​.ρ)

# 边缘分布

如果知道二维随机变量 (X,Y)(X,Y)(X,Y) 的联合分布,那么其中一个变量的分布肯定也能知道

# 边缘分布函数

定义

设二维随机变量 (X,Y)(X,Y)(X,Y) 的联合分布函数为 F(x,y)F(x,y)F(x,y),称

FX(x)=P(X≤x)=P(X≤x,Y≤+∞)=F(x,∞) F_X(x)=P(X\le x)=P(X\le x,Y\le +\infty)=F(x,\infty) FX​(x)=P(X≤x)=P(X≤x,Y≤+∞)=F(x,∞)

为随机变量 XXX 的边缘分布函数,随机变量 YYY 的边缘分布函数同理

# 离散型边缘分布律

求 XXX 的边缘分布律即为求 (X,Y)(X,Y)(X,Y) 联合分布律表格中的行和,YYY 的边缘分布律即为求 (X,Y)(X,Y)(X,Y) 联合分布律表格中的列和

image-20250402162317491

XXX 的边缘分布律为

image-20250402162342440

YYY 的边缘分布律为

image-20250402162435667

# 连续性边缘密度函数

定义 设二维连续型随机变量 (X,Y)(X,Y)(X,Y) 的联合密度函数 f(x,y)f(x,y)f(x,y),则 XXX 的边缘密度函数为 $$ f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\text{d}y $$

YYY 的边缘密度函数类似

# 相互独立性

定义

设 (X,Y)(X,Y)(X,Y) 为二维随机变量,若对任意的 x,y∈Rx,y\in Rx,y∈R,有:

F(x,y)=FX(x)FY(y) F(x,y)=F_X(x)F_Y(y) F(x,y)=FX​(x)FY​(y)

成立,则称随机变量 XXX 与 YYY 相互独立

定理

设 (X,Y)(X,Y)(X,Y) 为二维离散型随机变量,XXX 和 YYY 相互独立的充分必要条件是,对任意的 i,j=1,2,⋯i,j=1,2,\cdotsi,j=1,2,⋯,都有:

pij=pi⋅pj p_{ij}=p_i\cdot p_j pij​=pi​⋅pj​

成立

# 条件分布

# 离散型条件分布律

定义

设二维随机变量 (X,Y)(X,Y)(X,Y),其联合分布律为:

Pij=P{X=xi,Y=yi},i=1,2,⋯ P_{ij}=P\{X=x_i,Y=y_i\},\ i=1,2,\cdots Pij​=P{X=xi​,Y=yi​}, i=1,2,⋯

关于 YYY 的边缘分布律为 P{Y=yi}=∑i=1+∞pij=pj,j=1,2,⋯P\{Y=y_i\}=\sum\limits_{i=1}^{+\infty} p_{ij}=p_j,\ j=1,2,\cdotsP{Y=yi​}=i=1∑+∞​pij​=pj​, j=1,2,⋯,称

Pi∣j=P{X=xi∣Y=yi}=P{X=xi,Y=yi}P{Y=yi}=pijp⋅j,i=1,2,⋯ P_{i|j}=P\{X=x_i|Y=y_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}}=\frac{p_{ij}}{p_{\cdot j}},\ i=1,2,\cdots Pi∣j​=P{X=xi​∣Y=yi​}=P{Y=yi​}P{X=xi​,Y=yi​}​=p⋅j​pij​​, i=1,2,⋯

为在 Y=yjY=y_jY=yj​ 的条件下随机变量 XXX 的条件分布律

同理,关于 XXX 的边缘分布律为 P{X=xi}=∑j=1+∞pij=pi⋅,i=1,2,⋯P\{X=x_i\}=\sum\limits_{j=1}^{+\infty} p_{ij}=p_i\cdot,\ i=1,2,\cdotsP{X=xi​}=j=1∑+∞​pij​=pi​⋅, i=1,2,⋯,称

Pj∣i=P{Y=yj∣X=xi}=P{X=xi,Y=yi}P{X=xi}=pijpi⋅,j=1,2,⋯ P_{j|i}=P\{Y=y_j|X=x_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{X=x_i\}}=\frac{p_{ij}}{p_{i\cdot}},\ j=1,2,\cdots Pj∣i​=P{Y=yj​∣X=xi​}=P{X=xi​}P{X=xi​,Y=yi​}​=pi⋅​pij​​, j=1,2,⋯

为在 X=xiX=x_iX=xi​ 的条件下随机变量 YYY 的条件分布律

# 连续性条件概率密度

先来看一个例子,二维随机变量 (X,Y)(X,Y)(X,Y) 的概率密度为

f(x,y)={3x,0<x<1,0<y<x,0,others f(x,y)=\begin{cases} 3x, & 0 < x <1,0<y<x,\\ 0, & others \end{cases} f(x,y)={3x,0,​0<x<1,0<y<x,others​

求概率 P{Y≤18∣X=14}P\{Y\le \frac{1}{8}|X=\frac{1}{4}\}P{Y≤81​∣X=41​}

如果强行使用离散型的分析方法 P{Y≤18∣X=14}=P{X=14,Y≤18}P{X=14}P\{Y\le \frac{1}{8}|X=\frac{1}{4}\}=\frac{P\{X=\frac{1}{4},Y\le \frac{1}{8}\}}{P\{X=\frac{1}{4}\}}P{Y≤81​∣X=41​}=P{X=41​}P{X=41​,Y≤81​}​ 会发现 P{X=14}=0P\{X=\frac{1}{4}\}=0P{X=41​}=0,除数不能为 000,肯定有问题

所以不能直接带入条件概率公式,需要先求得概率密度函数,然后通过概率密度函数求条件概率密度函数

定义

设二维连续性随机变量 (X,Y)(X,Y)(X,Y) 的联合概率密度为 f(x,y)f(x,y)f(x,y),其关于 X,YX,YX,Y 的边缘概率密度分别为 fX(x)f_X(x)fX​(x) 和 fY(y)f_Y(y)fY​(y),则称

fX∣Y=f(x,y)fY(y) f_{X|Y}=\frac{f(x,y)}{f_Y(y)} fX∣Y​=fY​(y)f(x,y)​

为给定 YYY 的条件下,XXX 的概率密度函数

FX∣Y=∫−∞xf(u,y)f(y)du F_{X|Y}=\int_{-\infty}^x\frac{f(u,y)}{f(y)}\text{d}u FX∣Y​=∫−∞x​f(y)f(u,y)​du

为给定 YYY 的条件下, XXX 的概率分布函数

# 随机变量的数字特征

# 数学期望和矩

定义

设 XXX 是定义在 R\mathbb{R}R 上的随机变量,他的概率密度函数是 fXf_XfX​,函数 g(X)g(X)g(X) 的期望值是

E[g(X)]={∫−∞∞g(x)⋅fX(x)dx 若 X 是连续的 ∑ng(xn)⋅fX(xn) 若 X 是离散的.  \mathbb{E}[g(X)]=\left\{\begin{array}{ll} \int_{-\infty}^{\infty} g(x) \cdot f_{X}(x) \mathrm{d} x & \text { 若 } X \text { 是连续的 } \\ \sum_{n} g\left(x_{n}\right) \cdot f_{X}\left(x_{n}\right) & \text { 若 } X \text { 是离散的. } \end{array}\right. E[g(X)]={∫−∞∞​g(x)⋅fX​(x)dx∑n​g(xn​)⋅fX​(xn​)​若X是连续的若X是离散的. ​

最重要的情形是 g(x)=xrg(x)=x^rg(x)=xr,我们把 E[Xr]\mathbb{E}[X^r]E[Xr] 称为 XXX 的 rrr 阶矩,把 E[(X−E[X])r]\mathbb{E}[(X-\mathbb{E}[X])^r]E[(X−E[X])r] 称为 XXX 的 rrr 阶中心矩

只要能算出和或积分, 就可以求出期望值和矩

最重要的两个矩:

  • 均值是一阶矩
  • 方差是二阶中心矩

例题

fX(x)={611(2+3x−5x2) 若 0⩽x⩽10 其他  f_{X}(x) = \begin{cases} \frac{6}{11}\left(2+3 x-5 x^{2}\right) & \text { 若 } 0 \leqslant x \leqslant 1 \\ 0 & \text { 其他 } \end{cases} fX​(x)={116​(2+3x−5x2)0​若0⩽x⩽1其他​
  1. 求 rrr 阶矩
  2. g(X)=eXg(X)=e^Xg(X)=eX 的期望
  3. g(X)=1/Xg(X)=1/Xg(X)=1/X 的期望
  1. 求 r≥0r\ge 0r≥0 时候的 rrr 阶矩,就是求 E[Xr]\mathbb{E}[X^r]E[Xr]
E[Xr]=∫01xr⋅611(2+3x−5x2)dx=611∫01(2xr+3xr+1−5xr+2)dx=611(2xr+1r+1∣01+3xr+2r+2∣01−5xr+3r+3∣01)=6117r+11(r+1)(r+2)(r+3) \begin{aligned} \mathbb{E}\left[X^{r}\right] & =\int_{0}^{1} x^{r} \cdot \frac{6}{11}\left(2+3 x-5 x^{2}\right) \mathrm{d} x \\ & =\frac{6}{11} \int_{0}^{1}\left(2 x^{r}+3 x^{r+1}-5 x^{r+2}\right) \mathrm{d} x \\ & =\frac{6}{11}\left(\left.\frac{2 x^{r+1}}{r+1}\right|_{0} ^{1}+\left.\frac{3 x^{r+2}}{r+2}\right|_{0} ^{1}-\left.\frac{5 x^{r+3}}{r+3}\right|_{0} ^{1}\right) \\ & =\frac{6}{11} \frac{7 r+11}{(r+1)(r+2)(r+3)} \end{aligned} E[Xr]​=∫01​xr⋅116​(2+3x−5x2)dx=116​∫01​(2xr+3xr+1−5xr+2)dx=116​(r+12xr+1​∣∣∣∣∣​01​+r+23xr+2​∣∣∣∣∣​01​−r+35xr+3​∣∣∣∣∣​01​)=116​(r+1)(r+2)(r+3)7r+11​​
  1. 求 eXe^XeX 的期望,就是计算积分
E[eX]=∫01ex⋅611(2+3x−5x2)dx=611(2∫01exdx+3∫01xexdx−5∫01x2exdx) \begin{aligned} \mathbb{E}\left[\mathrm{e}^{X}\right] & =\int_{0}^{1} \mathrm{e}^{x} \cdot \frac{6}{11}\left(2+3 x-5 x^{2}\right) \mathrm{d} x \\ & =\frac{6}{11}\left(2 \int_{0}^{1} \mathrm{e}^{x} \mathrm{d} x+3 \int_{0}^{1} x \mathrm{e}^{x} \mathrm{~d} x-5 \int_{0}^{1} x^{2} \mathrm{e}^{x} \mathrm{~d} x\right) \end{aligned} E[eX]​=∫01​ex⋅116​(2+3x−5x2)dx=116​(2∫01​exdx+3∫01​xex dx−5∫01​x2ex dx)​

这里有三个积分,我们需要一一处理

第一个积分就是:

2∫01exdx=2ex∣01=2(e−1) 2\int_0^1 e^x\mathrm{d}x=2\left.e^x\right|_{0}^{1}=2(e-1) 2∫01​exdx=2ex∣01​=2(e−1)

第二个积分需要使用分部积分法

∫01xexdx=xex∣01−∫01exdx=e−(e−1)=1 \int_{0}^{1} x \mathrm{e}^{x} \mathrm{~d} x = \left.x \mathrm{e}^{x}\right|_{0} ^{1}-\int_{0}^{1} \mathrm{e}^{x} \mathrm{~d} x = \mathrm{e}-(\mathrm{e}-1) = 1 ∫01​xex dx=xex∣01​−∫01​ex dx=e−(e−1)=1

第三个积分同样也适用分部积分法

∫01x2exdx=x2ex∣01−2∫01xexdx=e−2 \int_{0}^{1} x^{2} \mathrm{e}^{x} \mathrm{~d} x=\left.x^{2} \mathrm{e}^{x}\right|_{0} ^{1}-2 \int_{0}^{1} x \mathrm{e}^{x} \mathrm{~d} x=\mathrm{e}-2 ∫01​x2ex dx=x2ex∣∣∣​01​−2∫01​xex dx=e−2

最后把三个积分结合在一起

E[eX]=611(2⋅(e−1)+3⋅1−5⋅(e−2))=6−18e11 \mathbb{E}\left[\mathrm{e}^{X}\right]=\frac{6}{11}(2 \cdot(\mathrm{e}-1)+3 \cdot 1-5 \cdot(\mathrm{e}-2))=6-\frac{18 \mathrm{e}}{11} E[eX]=116​(2⋅(e−1)+3⋅1−5⋅(e−2))=6−1118e​
  1. 求 g(X)=1/Xg(X)=1/Xg(X)=1/X 的期望,也是积分
E[1X]=∫011x⋅611(2+3x−5x2)dx=611(2∫01dxx+3∫01dx−5∫01xdx) \begin{aligned} \mathbb{E}\left[\frac{1}{X}\right] & =\int_{0}^{1} \frac{1}{x} \cdot \frac{6}{11}\left(2+3 x-5 x^{2}\right) \mathrm{d} x \\ & =\frac{6}{11}\left(2 \int_{0}^{1} \frac{\mathrm{~d} x}{x}+3 \int_{0}^{1} \mathrm{~d} x-5 \int_{0}^{1} x \mathrm{~d} x\right) \end{aligned} E[X1​]​=∫01​x1​⋅116​(2+3x−5x2)dx=116​(2∫01​x dx​+3∫01​ dx−5∫01​x dx)​

但是积分 ∫01dxx\int_{0}^1\frac{\mathrm{d}x}{x}∫01​xdx​ 不存在,所以这个期望也不存在

# 均值和方差

一阶矩和二阶中心距是最重要的两个矩. 这两个重要的矩分别有自己的名称:均值和方差

定义

设 XXX 是一个随机变量,它的概率密度函数是 fXf_XfX​

  • XXX 的 均值 是一阶矩,我们把他称为 E[X]\mathbb{E}[X]E[X] 或 μX\mu_XμX​
μ={∫−∞∞x⋅fX(x)dx 若 X 是连续的 ∑nxn⋅fX(xn) 若 X 是离散的.  \mu = \left\{\begin{array}{ll} \int_{-\infty}^{\infty} x \cdot f_{X}(x) \mathrm{d} x & \text { 若 } X \text { 是连续的 } \\ \sum_{n} x_{n} \cdot f_{X}\left(x_{n}\right) & \text { 若 } X \text { 是离散的. } \end{array}\right. μ={∫−∞∞​x⋅fX​(x)dx∑n​xn​⋅fX​(xn​)​若X是连续的若X是离散的. ​
  • XXX 的 方差 是二阶中心矩,计作 σX2\sigma_X^2σX2​ 或 Var(X)\text{Var}(X)Var(X),也可以说是 g(X)=(X−μX)2g(X)=(X-\mu_X)^2g(X)=(X−μX​)2 的期望
σX2={∫−∞∞(x−μX)2fX(x)dx 若 X 是连续的 ∑n(x−μX)2fX(xn) 若 X 是离散的.  \sigma_{X}^{2}=\left\{\begin{array}{ll} \int_{-\infty}^{\infty}\left(x-\mu_{X}\right)^{2} f_{X}(x) \mathrm{d} x & \text { 若 } X \text { 是连续的 } \\ \sum_{n}\left(x-\mu_{X}\right)^{2} f_{X}\left(x_{n}\right) & \text { 若 } X \text { 是离散的. } \end{array}\right. σX2​={∫−∞∞​(x−μX​)2fX​(x)dx∑n​(x−μX​)2fX​(xn​)​若X是连续的若X是离散的. ​
  • XXX 的 标准差 的平方根,即 σX=σX2\sigma_X=\sqrt{\sigma_X^2}σX​=σX2​​

为了保证均值存在,我们希望 ∫−∞+∞∣x∣fX(x)dx\int_{-\infty}^{+\infty} |x|f_X(x)\text{d}x∫−∞+∞​∣x∣fX​(x)dx 或 ∑n∣xn∣fX(xn)\sum_n|x_n|f_X(x_n)∑n​∣xn​∣fX​(xn​) 是有限的

均值就是期望值或平均值,如果从分布中不断地取出很多值,然后对得到的结果求平均值,那么这个平均值应该非常接近于 μX\mu_XμX​

标准差可以预测出结果与均值之间差距的波动程度,标准差越小,结果就越容易分布在均值附近

与方差相比,标准差的优势在于它和均值有相同的单位,因此,标准差是衡量结果在均值附近波动幅度的自然尺度

例题

抛掷两颗均匀的骰子,随机变量 RRR 表示掷出的数字之和,我们给出 RRR 的 PDF(概率密度函数)

P⁡(R=r)={6−∣r−7∣36 若 r∈{2,3,⋯,12}0 其他.  \operatorname{P}(R=r)=\left\{\begin{array}{ll} \frac{6-|r-7|}{36} & \text { 若 } r \in\{2,3, \cdots, 12\} \\ 0 & \text { 其他. } \end{array}\right. P(R=r)={366−∣r−7∣​0​若r∈{2,3,⋯,12}其他. ​

求均值,方差,标准差

就是套公式

μR=∑r=212r6−∣r−7∣36=2⋅136+3⋅236+⋯+12⋅136=7 \mu_{R}=\sum_{r=2}^{12} r \frac{6-|r-7|}{36}=2 \cdot \frac{1}{36}+3 \cdot \frac{2}{36}+\cdots+12 \cdot \frac{1}{36}=7 μR​=r=2∑12​r366−∣r−7∣​=2⋅361​+3⋅362​+⋯+12⋅361​=7
σR2=∑r=212(r−7)2⋅6−∣r−7∣36=(−5)2⋅136+(−4)2⋅236+⋯+52⋅136=356 \begin{aligned} \sigma_{R}^{2} & =\sum_{r=2}^{12}(r-7)^{2} \cdot \frac{6-|r-7|}{36} \\ & =(-5)^{2} \cdot \frac{1}{36}+(-4)^{2} \cdot \frac{2}{36}+\cdots+5^{2} \cdot \frac{1}{36}=\frac{35}{6} \end{aligned} σR2​​=r=2∑12​(r−7)2⋅366−∣r−7∣​=(−5)2⋅361​+(−4)2⋅362​+⋯+52⋅361​=635​​
σ=σ2≈2.42 \sigma = \sqrt{\sigma^2}\approx 2.42 σ=σ2​≈2.42

# 期望的线性性质

有一个最重要且最实用的事实:期望是线性的

定理

设 X1,⋯,XnX_1,\cdots,X_nX1​,⋯,Xn​ 是随机变量,并设 g1,⋯,gng_1,\cdots,g_ng1​,⋯,gn​ 是满足条件:E[∣gi(X)∣]\mathbb{E}[|g_i(X)|]E[∣gi​(X)∣] 有限

令 a1,⋯,ana_1,\cdots, a_na1​,⋯,an​ 表示任意实数,那么

E[a1g1(X1)+⋯+angn(Xn)]=a1E[g1(X1)]+⋯+anE[gn(Xn)]. \mathbb{E}\left[a_{1} g_{1}\left(X_{1}\right)+\cdots+a_{n} g_{n}\left(X_{n}\right)\right]=a_{1} \mathbb{E}\left[g_{1}\left(X_{1}\right)\right]+\cdots+a_{n} \mathbb{E}\left[g_{n}\left(X_{n}\right)\right] . E[a1​g1​(X1​)+⋯+an​gn​(Xn​)]=a1​E[g1​(X1​)]+⋯+an​E[gn​(Xn​)].

注意:这里的随机变量不一定是相互独立的

用文字来描述,就是 “和的期望等于期望的和”

下面有几个利用这个性质推理出的几条关键结果

定理

设 XXX 是一个随机变量,它的均值为 μX\mu_XμX​,方差为 σX2\sigma_X^2σX2​,如果 aaa 和 bbb 是任意两个固定的常数,那么随机变量 Y=aX+bY=aX+bY=aX+b 有如下结果

μY=aμX+b \mu_Y=a\mu_X+b μY​=aμX​+b
σY2=a2σX2 \sigma_Y^2=a^2\sigma_X^2 σY2​=a2σX2​

感性理解上也很对,如果随机变量缩放 aaa 倍,那么均值也被缩放 aaa 倍,标准差被缩放 ∣a∣|a|∣a∣ 倍,方差被缩放 a2a^2a2 倍

定理

设 XXX 是一个随机变量,那么

σ2=E[X2]−E[X]2 \sigma^2=\mathbb{E}[X^2]-\mathbb{E}[X]^2 σ2=E[X2]−E[X]2

证明:由于期望具有线性性质

Var⁡(X)=E[(X−μX)2]=E[X2−2μXX+μX2]=E[X2]−E[2μXX]+E[μX2]=E[X2]−2μXE[X]+μX2=E[X2]−2μX⋅μX+μX2=E[X2]−μX2=E[X2]−E[X]2, \begin{aligned} \operatorname{Var}(X) & =\mathbb{E}\left[\left(X-\mu_{X}\right)^{2}\right] \\ & =\mathbb{E}\left[X^{2}-2 \mu_{X} X+\mu_{X}^{2}\right] \\ & =\mathbb{E}\left[X^{2}\right]-\mathbb{E}\left[2 \mu_{X} X\right]+\mathbb{E}\left[\mu_{X}^{2}\right] \\ & =\mathbb{E}\left[X^{2}\right]-2 \mu_{X} \mathbb{E}[X]+\mu_{X}^{2} \\ & =\mathbb{E}\left[X^{2}\right]-2 \mu_{X} \cdot \mu_{X}+\mu_{X}^{2} \\ & =\mathbb{E}\left[X^{2}\right]-\mu_{X}^{2}=\mathbb{E}\left[X^{2}\right]-\mathbb{E}[X]^{2}, \end{aligned} Var(X)​=E[(X−μX​)2]=E[X2−2μX​X+μX2​]=E[X2]−E[2μX​X]+E[μX2​]=E[X2]−2μX​E[X]+μX2​=E[X2]−2μX​⋅μX​+μX2​=E[X2]−μX2​=E[X2]−E[X]2,​

这是一个很好的公式,能让我们在已知一阶矩和二阶矩的前提下,利用这个公式得出二阶中心矩

# 均值和方差的性质

我们先称述一个重要的有用的事实

定理

如果 XXX 和 YYY 是相互独立的随机变量,那么

E[XY]=E[X][Y] \mathbb{E}[XY]=\mathbb{E}[X][Y] E[XY]=E[X][Y]

一种特殊的情况是

E[(X−μX)(Y−μY)]=E[X−μX]E[Y−μY]=0 \mathbb{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right]=\mathbb{E}\left[X-\mu_{X}\right] \mathbb{E}\left[Y-\mu_{Y}\right]=0 E[(X−μX​)(Y−μY​)]=E[X−μX​]E[Y−μY​]=0

证明:前面的线性性质讲的是和,但这里是积

如果两个相互独立的随机变量,那么联合概率密度函数就等于它们边缘概率密度函数之积,即

fX,Y(x,y)=fX(x)fY(y) f_{X,Y}(x,y)=f_X(x)f_Y(y) fX,Y​(x,y)=fX​(x)fY​(y)

把上面这个式子应用到二重积分中

E[XY]=∫x=−∞∞∫y=−∞∞xyfX(x)fY(y)dydx=∫x=−∞∞xfX(x)dx∫y=−∞∞yfY(y)dy=E[X]E[Y] \begin{aligned} \mathbb{E}[X Y] & =\int_{x=-\infty}^{\infty} \int_{y=-\infty}^{\infty} x y f_{X}(x) f_{Y}(y) \mathrm{d} y \mathrm{~d} x \\ & =\int_{x=-\infty}^{\infty} x f_{X}(x) \mathrm{d} x \int_{y=-\infty}^{\infty} y f_{Y}(y) \mathrm{d} y=\mathbb{E}[X] \mathbb{E}[Y] \end{aligned} E[XY]​=∫x=−∞∞​∫y=−∞∞​xyfX​(x)fY​(y)dy dx=∫x=−∞∞​xfX​(x)dx∫y=−∞∞​yfY​(y)dy=E[X]E[Y]​

证毕

再来看一个很好的性质

定理

设 X1,⋯,XnX_1, \cdots,X_nX1​,⋯,Xn​ 是 nnn 个随机变量,它们的均值是 μX1,⋯,μXn\mu_{X_1},\cdots,\mu_{X_n}μX1​​,⋯,μXn​​,方差是 σX12,⋯σXn2\sigma_{X_1}^2,\cdots \sigma_{X_n}^2σX1​2​,⋯σXn​2​,如果 X=X1+⋯+XnX=X_1+\cdots+X_nX=X1​+⋯+Xn​,那么

μX=μX1+⋯+μXn \mu_{X}=\mu_{X_{1}}+\cdots+\mu_{X_{n}} μX​=μX1​​+⋯+μXn​​

如果随机变量是 相互独立 的,那么有:

σX2=σX12+⋯+σXn2 \sigma_{X}^{2}=\sigma_{X_{1}}^{2}+\cdots+\sigma_{X_{n}}^{2} σX2​=σX1​2​+⋯+σXn​2​

这里需要特别注意第二个性质成立的条件,相互独立,很容易忘记

下面给出一个这个定理的应用

假设有两只收益可变的股票,它们每股的价值是 111,两支股票的平均收益是 333 ,它们的方差都是 222,我们的目标是建立一个收益尽可能多且风险尽可能少的投资组合,我们假设这两只股票是相对独立的

假设我们一共投资 111 元,其中的 www 元来买第一支股票,剩下的 1−w1-w1−w 来买第二只,设 S=wX1+(1−w)X2S=wX_1+(1-w)X_2S=wX1​+(1−w)X2​

先来看期望:

E[S]=E[wX1+(1−w)X2]=wE[X1]+(1−w)E[X2]=w⋅3+(1−w)⋅3=3 \begin{aligned} \mathbb{E}[S] & =\mathbb{E}\left[w X_{1}+(1-w) X_{2}\right]=w \mathbb{E}\left[X_{1}\right]+(1-w) \mathbb{E}\left[X_{2}\right] \\ & =w \cdot 3+(1-w) \cdot 3= 3 \end{aligned} E[S]​=E[wX1​+(1−w)X2​]=wE[X1​]+(1−w)E[X2​]=w⋅3+(1−w)⋅3=3​

www 的变化显然不能提升我们的期望收益

再考虑方差:

Var⁡(S)=Var⁡(wX1+(1−w)X2)=w2Var⁡(X1)+(1−w)2Var⁡(X2)=(w2+(1−w)2)⋅2 \begin{aligned} \operatorname{Var}(S) & =\operatorname{Var}\left(w X_{1}+(1-w) X_{2}\right) \\ & =w^{2} \operatorname{Var}\left(X_{1}\right)+(1-w)^{2} \operatorname{Var}\left(X_{2}\right) \\ & =\left(w^{2}+(1-w)^{2}\right) \cdot 2 \end{aligned} Var(S)​=Var(wX1​+(1−w)X2​)=w2Var(X1​)+(1−w)2Var(X2​)=(w2+(1−w)2)⋅2​

这里可以看出,投资的方差取决于 www,当 w=1/2w=1/2w=1/2 时,方差取到最小值为 111

# 协方差和相关系数

定义 协方差

设 XXX 和 YYY 是两个随机变量,XXX 和 YYY 的协方差记做 σXY\sigma_{XY}σXY​ 或者 Cov(X,Y)\text{Cov(X,Y)}Cov(X,Y)

σXY=E[(X−μX)(Y−μy)] \sigma_{XY}=\mathbb{E}[(X-\mu_X)(Y-\mu_y)] σXY​=E[(X−μX​)(Y−μy​)]

当 X1,⋯,XnX_1,\cdots, X_nX1​,⋯,Xn​ 都是随机变量,而且 X=X1,⋯,XnX=X_1,\cdots,X_nX=X1​,⋯,Xn​,那么

Var⁡(X)=∑i=1nVar⁡(Xi)+2∑1⩽i<j⩽nCov⁡(Xi,Xj). \operatorname{Var}(X)=\sum_{i=1}^{n} \operatorname{Var}\left(X_{i}\right)+2 \sum_{1 \leqslant i<j \leqslant n} \operatorname{Cov}\left(X_{i}, X_{j}\right) . Var(X)=i=1∑n​Var(Xi​)+21⩽i<j⩽n∑​Cov(Xi​,Xj​).

和前面那个定理不同的是,我们没有选择用独立性把交叉项消去,而是保留下来,它们就是协方差

与协方差密切相关的术语是相关系数,相关系数

ρ=Cov⁡(X,Y)σXσY \rho=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}} ρ=σX​σY​Cov(X,Y)​

相关系数是对协方差的标准化,我们有 ρ∈[−1,1]\rho\in[-1,1]ρ∈[−1,1],相关系数越接近 −1-1−1 或 111,线性相关性就越强

对于任意两个随机变量 XXX 和 YYY,如果它们的均值分别是 μX\mu_XμX​ 和 μY\mu_YμY​,那么 XXX 和 YYY 的协方差可以写成

Cov⁡(X,Y)=E[XY]−μXμY \operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mu_X\mu_Y Cov(X,Y)=E[XY]−μX​μY​

这个式子和求方差的公式非常像,可以利用期望的线性性质证明

Cov⁡(X,Y)=E[(X−μX)(Y−μY)]=E[XY−μYX−μXY+μYμX]=E[XY]−μXE[X]−μXE[Y]+E[μXμY]=E[XY]−μXμY−μXμY+μXμY=E[XY]−μXμY. \begin{aligned} \operatorname{Cov}(X, Y) & =\mathbb{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ & =\mathbb{E}\left[X Y-\mu_{Y} X-\mu_{X} Y+\mu_{Y} \mu_{X}\right] \\ & =\mathbb{E}[X Y]-\mu_{X} \mathbb{E}[X]-\mu_{X} \mathbb{E}[Y]+\mathbb{E}\left[\mu_{X} \mu_{Y}\right] \\ & =\mathbb{E}[X Y]-\mu_{X} \mu_{Y}-\mu_{X} \mu_{Y}+\mu_{X} \mu_{Y} \\ & =\mathbb{E}[X Y]-\mu_{X} \mu_{Y} . \end{aligned} Cov(X,Y)​=E[(X−μX​)(Y−μY​)]=E[XY−μY​X−μX​Y+μY​μX​]=E[XY]−μX​E[X]−μX​E[Y]+E[μX​μY​]=E[XY]−μX​μY​−μX​μY​+μX​μY​=E[XY]−μX​μY​.​

# 统计量

# 总体、样本和统计量

在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体

比如,研究某学校的身高情况,全体身高就是总体,每个学生的身高就是个体

定义 样本

若样本 X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​ 为所考察的总体具体相同的分布,且 X1,X2,⋯,XnX_1,X_2,\cdots, X_nX1​,X2​,⋯,Xn​ 相互独立,则称 X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​ 为来自总体 XXX,容量为 nnn 的简单随机样本,简称样本

上次更新: 2025/04/08, 18:03:31
MIT18.06Linear Algebra 笔记
第一章:递归问题

← MIT18.06Linear Algebra 笔记 第一章:递归问题→

最近更新
01
Java基础语法
05-26
02
开发环境配置
05-26
03
pink 老师 JavaScript 学习笔记
05-26
更多文章>
Theme by Vdoing | Copyright © 2024-2025 Martian148 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式