概率论与数理统计笔记

随机变量

离散型随机变量

先来看一个启发性的例子,我们把一个均匀的硬币投掷了三次,设投出正面为 H,反面为 T,能很轻松得得到结果空间:

Ω={TTT,TTH,THT,HTT,THH,HTH,HHT,HHH}

Ω 中的每个元素的概率都是 18,于是我们得到了结果空间和概率函数

如果现在我们提出一个问题:对于一个抛掷序列,我们能否得到一个抛掷序列,求出它正面出现的次数

这可以用一个函数来表示,我们定义一个从 Ω 到实数集 R 的函数 X,其中 X(w) 等于 wΩ 中正面出现的次数,例如:X(HHT)=2X(TTT)=0

同理,我们也可以定义反面出现的次数 Y(w) ,一个比较显然的结论就是 X(w)+Y(w)=3 因为我们一共抛掷了 3

我们可以同时定义三个简单函数来构造 X,定义 Xi,表示如果第 i 次掷出的正面,那么 Xi(w)=1,否则为 0,例如 X1(HHT)=1,X2(HHT)=1,X3(HHT)=0,于是可以得出等式

X(w)=X1(w)+X2(w)+X3(w)

这个例子体现了我们可以用较简单的函数来构造复杂的函数,接下来给出随机变量的定义

::: tip 定义

离散型随机变量 X 是定义在一个离散的结果空间 Ω 上的实质函数,具体地说,我们为每个元素 wΩ 指定了一个实数 X(w)

:::

(这里的离散型也叫概率密度函数,在中国也叫分布律)

我们通过一个函数 X 把结果空间上的值映射到了实数域上,一个很自然的问题就是求 P(X=x),随机变量的值恰好是 x 的概率是多少

在上面的例子中,由于都是等概率的,所以我们只需要数出 X=x 出现了几次,除以 8 就是概率,可以得到

P(X=0)=18P(X=1)=38P(X=2)=38P(X=3)=18

除了这四个值,其他地方的概率都是 0,于是我们引出了 概率密度函数(probability density function, PDF)的定义

::: tip 定义

X 是一个随机变量,它定义在离散结果空间 Ω 上,那么 X 的概率密度函数就是 X 取某个特定值的概率:

fX(x)=P(ωΩ: X(ω)=x)

:::

另外一个重要的概念是 累积分布函数(cumulative distribution function, CDF),虽然这个在概念对连续型随机变量更有用, 但它在离散型随机变量方面仍有些用途

::: tip 定义

X 是一个随机变量,它定义在离散结果空间 Ω 上,那么 X 的累积分布函数就是 X 不超过特定值的概率:

FX(x)=P(ωΩ: X(ω)x)

:::

连续型随机变量

和离散型随机变量相似,我们尝试在结果空间里面定义一个随机变量,但实际上这比结果空间 是有限的或可数的情况要更困难一些

一个概率空间由三部分组成:结果空间 Ω ,概率函数 P,以及 P 有定义的子集构成的 σ 代数,(P 在其他子集上无定义)

::: tip 定义

X 是一个随机变量,如果存在一个实值函数 fX 满足:

那么 X 是一个连续性随机变量,fXX 的概率密度函数

X 的累计分布函数 FX(x) 就是 X 不大于 x 的概率:

Fx=P(Xx)=xfX(t)dt

:::

下面来看一个例子,尝试验证它是否满足连续性随机变量的三个条件:分段连续、非负性,积分为 1

fX(x)={2+3x5x2 若 0x10 其他; 

分段连续:这个函数显然是分段连续的

非负性:

fX(x)=2+3x5x2=(1x)(2+5x)

由于 0x1(1x)0,(2+5x)0(1x)(2+5x)0

积分:

fX(x)dx=01(2+3x5x2)=2x|01+3x22|015x33|01=2+3253=116

可以看出积分不为 1,所以 fX(x) 不是一个概率密度函数

很容易想到用一个常数对他进行缩放,使它积分值为 1

gX(x)=611fX(x)

那么 gX(x) 的就是一个概率密度函数

常见分布

柏松分布

::: tip 定义

设随机变量 X 的取值为 0,1,2,,n, 对应的分布律是:

P(X=k)=λkk!eλ,λ>0,k=0,1,2,.n,

则称随机变量 X 服从参数为 λ 的柏松分布,记为 XP(λ)

:::

泊松分布还有一个非常有用的性质,即它可以作为二项分布的一种近似,在二项分布计算中,当 n 较大时计算结果非常不理想,如果 p 比较小,而 np=λ 适中时,我们常用柏松分布的概率值近似取代二项分布的概率值,因为柏松分布要好算很多

::: tip 柏松定理

n+,有 npλ(>0) ,则

limx(nk)pk(1p)nk=λkk!eλ

:::

超几何分布

::: tip 定义

设有 N 件产品,其中 M 件是不合格品,若从中不放回地抽取 n(nN) 件,设其中含有的不合格品的件数为 X,则 X 的分布律为:

P(X=k)=(Mk)(NMnk)(Nn),k=max(0,n+MN),,min(n,M)

则称 X 服从参数为 N,Mn 的超几何分布,记为 XH(N,M,n)

:::

若将不放回改为有放回,那就变成 n 重伯努利试验了,就是二项分布,当 n 非常大时,有放回和不放回的分布相差很小,所以可以证明:当 p=MN

limN(Mk)(NMnk)(Nn)=(nk)pk(1p)nk

几何分布

在伯努利试验中,记每次试验中 A 事件发生的概率 P(A)=p(0<p<1)

::: tip 定义

设随机变量 X 表示 A 事件首次出现时已经试验的次数,则 X 的取值为 1,2, ,对应的分布律为:

P(X=k)=p(1p)k1,0<p<1,k=1,2,

则称随机变量 X 服从参数为 p 的几何分布,记为 XGe(p)

:::

负二项分布

::: tip 定义

在伯努利试验中,记每次试验中 A 事件的概率 P(A)=p(0<p<1),设随机变量 X 表示 A 事件第 r 次出现时已经试验的次数,则 X 的取值为 r,r+1,,r+n,,对应的分布律为:

P(X=k)=(k1r1)pr(1p)kr,0<p<1,k=r,r+1,,r+n,

则称随机变量 X 服从参数 r,p 的负二项分布,记为 XNB(r,p),当 r=1 时,就是几何分布

:::

这个式子可以理解为,前 r1 次,出现了 k1 次事件 A,最后一次是事件 A,乘上概率

均匀分布

::: tip 定义

X 为随机变量,对任意两个实数 a,b(a<b),概率密度函数为:

f(x)={1ba, a<x<b0, others

:::

指数分布

::: tip 定义

X 为随机变量,概率密度函数为:

f(x)={λeλxx0,0, x<0, λ>0

则称随机变量 X 服从参数为 λ 的指数分布,记为 XE(λ)

相对应的分布函数为:

F(x)={0,x<01eλxx0

:::

image.png

指数分布同几何分布相似, 也具有无记忆性

正态分布

::: tip 定义

X 为随机变量,概率密度函数为:

f(x)=12πσe(xμ)22σ2<0<+

则称随机变量 X 服从参数为 μσ2 的正态分布,记为 XN(μ,σ2)

相应的分布函数为

F(x)=x12πσe(xμ)22σ2dt

:::

image.png

image.png

特别的,当 μ=0,σ=1 时,对应的正态分布被称为标准正态分布,记为 XN(0,1) 概率密度函数和分布函数为:

f(x)=12πex22F(x)=xf(x)=12πex22dt

一般来说,对于标准正态分布可以通过查表得到值。

x0 时,标准正态分布函数 Φ(x),利用正态分布的概率密度函数 φ(x) 是偶函数的性质得:Φ(x)=1Φ(x)

对于任意的两个实数 a,b(a<b) 可得

P(a<Xb)=Φ(b)Φ(a)

若随机变量 XN(μ,σ2),则 XμσN(0,1),所以,对任意两个实数 a,b(a<b),有:

P(a<Xb)=Φ(bμσ)Φ(aμσ)

卷积和变量替换

如果我们想要把随机变量之间进行运算,例如我们想把 XY 的概率密度函数过渡到 X+Y 的密度并不容易

如果我们有两个随机变量 X 和另外一个随机变量 Y,我们想知道 Z=X+Y 的概率密度是多少,给出 XY 的概率密度函数

fX(x)={1 若 1/2x1/20 其他 fY(y)={1 若 1/2y1/20 其他. 

如果我们有 Y=X,那么 Z=X+Y 就始终为 0,如果 Y=X 那么 Z=X+Y=2X

f2X(z)={1/2 若 1z10 其他. 

于是可以得出一个启示:只知道 fXfY 是不足以确定 fX+Y 的,但如果 XY 是独立的,那么就可以得出来

::: tip 定义

XY 是定义在 R 上的两个 相互独立 的连续性随机变量,它们的概率密度函数分别是 fXfYXY 的卷积记作 fXfY,表达式为

(fXfY)(z)=fX(t)fY(zt)dt

如果 XY 都是离散型随机变量,那么

(fXfY)(z)=fX(xn)fY(zxn)

:::

通过卷积,就可以求得 Z=X+Y 的 PDF

::: tip 定理

XY 是定义在 R 上的两个相互独立的随机变量,它们的概率密度函数分别是 fXfY 如果 Z=X+Y,那么

fZ(z)=(fXfY)(z)

另外卷积是可以交换的,也就是说:fXfY=fYfX

:::

证明 这里给出连续性的证明

我们的思路是通过求累积分布函数来求出概率密度函数,有

FZ(z)=P(Zz)

不妨设 X 的值是 t,我们要求 Z=X+YzYzt 也就是 FY(zt)=P(Yzt)

t 取遍 X 的所有可能值,有

FZ(z)=t=fX(t)FY(zt)dt

然后对累积分布函数求导得到概率密度函数

fZ(z)=d dzt=fX(t)FY(zt)dt=t=d dz[fX(t)FY(zt)]dt=t=fX(t)d dzFY(zt)dt=t=fX(t)fY(zt)dt=(fXfY)(z)

观察一些卷积的例子

::: note 例题

抛掷两颗均匀的骰子,假设两颗骰子掷出的结果是相对独立的,让 X 表示第一颗骰子掷出的数字,Y 表示第二颗骰子掷出的数字,有:

fX(k)=fY(k)={1/6 若 k{1,2,3,4,5,6}0 其他. 

X+Y 的概率密度函数

:::

根据卷积的定义可知,Z=X+Y,那么

fZ(z)=(fXfY)(z)=fX(k)fY(zk)

考虑范围

k{1,,6} 且 zk{1,,6}

我们可以把 z 在这里看出常数,所以 k 的有效取之范围是

{z6,z5,z4,z3,z2,z1}{1,2,3,4,5,6}

例如,当 z=8,那么 k 当值可能的取值是 2,3,4,5,6

fZ(8)=k=26fX(k)fY(8k)=k=261616=536.

所以得到答案

fZ(k)={k=1z1136=z136 若 z{2,,7}k=z66136=13z36 若 z{7,,12}0 其他. 

现在考虑多变量的卷积,能不能求出 fX1++Xn

::: tip 定理

X1,X2,,Xn 是相互独立的随机变量,他们的概率密度函数分别是 fX1,,fXn,那么有

fX1++Xn(z)=(fX1fX2fXn)(z)

其中

(f1f2fn)(z)=(f1(f2(fn2(fn1fn))))(z)

:::

我们已经证明了卷积是可交换的,也就是说 fg=gf,另外卷积是满足结合律的:(fg)h=f(gh)

需要注意,卷积需要用两个函数作为输入,并返回一个函数作为输出,对于 fgh 就需要小心了,我们不能直接对三个函数求卷积,我们需要说明是:(fg)h 或者是 f(gh) ,幸运是的,由于结合律,这两个值相同,但是仍要说明运算顺序

下面来看一下上面那个定义的证明

证明:我们只考虑 n=3 的情况,一般情况下可以类似得证明

我们假设 Z=X1+X2+X3=(X1+X2)+X3,由于 X3 分别和 X1,X2 独立,所以 X3X1+X2 独立,于是有

fZ(z)=(fX1+X2fX3)(z)=((fX1fX2)fX3)(z)

当然 Z 可以写成 Z=X1+(X2+X3),得到

fZ(z)=(fX1fX2+X3)(z)=(fX1(fX2fX3))(z)

这里还是利用了加法的交换律来证明结合律

变量替换公式

假设有一个连续性随机变量 X,它的概率密度函数是 fX,如果 g 是一个合适的函数,那么我们能求出 Y=g(X) 的概率密度函数

::: tip 定理

X 是一个概率密度函数为 fX 的连续性随机变量,并存在一个区间 IR 使得当 xI 时,fX(x)=0

g:IR 是一个可微函数,其反函数是 h,除了在有限多个点的导数值可能为 0 外,g 的导数在 I 中始终为正或始终为负,如果 Y=g(X),那么

fY(y)=fX(h(y))|h(y)|

:::

来再解释一下这个定理

回顾一下反函数,如果 hg 的反函数,满足:h(g(x))=x,且 g(h(y))=y,后面那个式子对 y 求微分可以得到

g(h(y))h(y)=1h(y)=1g(h(y))

也就是说我们需要求 g 的导数然后把 h(y) 带入就好了

::: note 例题

X 的概率密度函数是:

fX(x)={1/2 若 0x20 其他 ,

并设

g(X)=X2

:::

  1. 区间 I=[0,2]
  2. 除了 0 点以外,g 单增
  3. h(y)=yh(y)=12y12

套用公式 fY(y)=fX(h(y))|h(y)| 得到

fY(y)={14y 若 0y40 其他. 

检验一下,显然这个函数是非负的,查看积分是否为 1

04fY(y)dy=04 dy4y=y2|04=1

考虑证明变量替换公式

证明 思路还是先求累积分布函数,然后对累积分布函数求导得到概率密度函数

情形一: 假设 g 是正的,所以 I 被映射成 [g(a),g(b)] 那么,由 g(a)g(X)y 等价于 ag1(g(X))g1(y) 可知

FY(y)=P(Yy)=P(g(a)Yy)=P(g(a)g(X)y)=P(aXg1(y)),

于是,有

FY(y)=P(aXh(y))=FX(h(y))

使用链式法则对 FY 求导

fY(y)=FX(h(y))h(y)=fX(h(y))h(y)

情形二: 假设 g 是负的,所以 I 被映射成 [g(b),g(a)],此时,Yy 变成了 g(b)Yy,有

FY(y)=P(Yy)=P(g(b)Yy)=P(g(b)g(X)y)=P(g1(y)Xb),

h(x)=g1(y),得到

FY(y)=P(h(y)Xb)=P(aXb)P(aXh(y))=1FX(h(y))

用链式法则对 FY(y) 求导

fY(y)=FX(h(y))h(y)=fX(h(y))h(y);

这里 g 是负的,所以 h 也是负的

所以结合情况一,能得到总的式子

fY(y)=fX(h(y))|h(y)|

证毕

这样一个通用的累积函数的方法也可以作为求变量替换的通法

微分恒等式

假设我们需要求:

12+24+38++=n=0n2n

的值

我们发现这个和几何级数很像,但不完全相同,一个的分子是 n 一个分子是 1

我们有几何级数的公式,我们可以对等式两端进行一些运算,从而得出新的恒等式

我们已知几何级数恒等式

1+12+14+18+116++=n=012n=111/2=2

我们再抽象一层,把这个 1/2 换成 x ,考虑更一般的情形,也就是要求 n=0nxn

我们有几何恒等式

n=0xn=11x

在两边乘上 ddx,得到

d dxn=0xn=d dx11xn=0d dxxn=1(1x)2n=0nxn1=1(1x)2

想要得到 n=0nxn,只需要在等式两边乘 x 得到

n=0nxn=x(1x)2

带入 x=1/2 可以得到和就是 2

然后思考另外一个问题,如何求

n=0n22n

还是从几何级数开始,两边乘上 xddx,得到

n=0nxn=x(1x)2

然后再在两边乘上 xddx,得到

n=0n2xn=x(1+x)(1x)3

下面给出定义:

::: tip 定义:微分恒等式法

α,β,γ,,ω 是一些参数,设

n=nminnmaxf(n;α,β,,ω)=g(α,β,,ω)

其中,fg 都是 α 的可微函数,如果 f 退化到求和与微分次序可以交换,那么

n=nminnmaxf(n;α,β,,ω)α=g(α,β,,ω)α.

:::

使用微分恒等式能给我们更多解题思路

来看一下微分恒等式在二项分布随机变量上的应用,有二项分布

Prob(X=k)={(nk)pk(1p)nk 若 k{0,1,,n}0 其他. 

我们设 q=1p ,于是二项分布就变成

(p+q)n=k=0n(nk)pkqnk

这里我们把 q,p 看称相互独立的变量,以为如果把 q=1p 限定死的话,和就恒为 1,他的导数就是 0,没有研究的意义了

假设现在我们需要求

E[X]=k=0nk(nk)pk(1p)nk

我们在等式两端乘上 pp 得到

pp(k=0n(nk)pkqnk)=pp(p+q)npk=0n(nk)kpk1qnk=pn(p+q)n1k=0nk(nk)pkqnk=np(p+q)n1

现在回代 q=1p,得到

k=0nk(nk)pk(1p)n=np

现在我们需要计算方差

Var(X)=E[X2]E[X]2=nk2(nk)pk(1p)nk(np)2

后面一个均值我们已经得到了,现在需要得到 E[X2] 的值

我们从二项展开那个等式开始

k=0n(nk)pkqnk=(p+q)n

在两边乘上 pp 得到

k=0nk(nk)pkqnk=np(p+q)n1

再次乘上 pp 得到

k=0nk2(nk)pkqnk=p[1n(p+q)n1+pn(n1)(p+q)n2]

q=1p,上式就变成了

k=0nk2(nk)pk(1p)nk=np+n(n1)p2=E[X2]

于是我们能算出方差了

Var(X)=E[X2]E[X]2=k=0nk2(nk)pkqnk(np)2=np+n2p2np2n2p2=npnp2=np(1p).

现在再来观察一下在正态分布随机变量上的应用
/
XN(μ,σ2) 表示 X 服从均值为 μ,方差为 σ2 的正态分布,概率密度函数是

fX(x)=12πσ2e(xμ)2/2σ2

我们现在只考虑标准正态分布

f(x)=12πex2/2

那么他的 k 阶矩为

M(k)=xk12πex2/2 dx

显然,当 k 为奇数的时候,这是一个奇函数,积分为 0,我们必须要考虑 k 为偶数的情况,处理方法至少有两种:直接积分和微分恒等式

直接积分

考虑方差,由于均值是 0,所以方差为

x212πex2/2 dx

u=x, dv=12πex2/2x dx

得到了,du=dxv=12πex2/2 dx,于是有

M(2)=uv|+12πex2/2 dx=1.

于是我们证明了二阶矩为 1

微分恒等式法

我们从这个事实开始

1=12πσ2ex2/2σ2 dx

σ 移动到另外一遍得到

σ=12πex2/2σ2 dx

我们把 σ3 d dσ 用于上式两端,为什么要乘上 σ3 因为微分会对 x22σ2 产生影响,从而产生 1σ3 的因子,所以需要乘上 σ3

σ3 d dσσ=σ3 d dσ12πex2/2σ2 dxσ31=x212πex2/2σ2 dx

I(k;σ)=xk12πex2/2σ2 dx

这样我们就得出了

σ3=I(2;σ)

此外,积分 I(k;σ) 与标准正态分布的矩 M(k) 之间存在一种简单的关系:

I(k,1)=M(k)

这里可以看出 I(k;σ) 是均值为 0 且方差为 σ2 的正态分布的 k 阶矩

我们证明了

1σ3=I(2;σ)I(k;1)=M(k)

我们在上面那个积分两端再乘上 σ3ddσ

σ331σ2=x2x212πex2/2σ2 dx=I(4;σ)

等价于

31σ5=I(4;σ)

σ3ddσ 再次乘在式子两端,我们有

σ3531σ4=531σ7=I(6;σ)

σ=1 可以得到标准正态分布的矩的公式

k=1n212k+1=M(n),n为偶数

多维随机变量

::: tip 定义

设有随机试验 E,其样本空间为 Ω,若 Ω 中的每一个样本点 ω 都有一对实数 (X(ω),Y(ω)) 与其对应,则称 (X,Y) 为二维数组随机变量

:::

联合分布函数

可以理解为前缀和

::: tip 定义

(X,Y) 为二维随机变量,对任意的 (x,y)R2,称

F(x,y)=P(Xx,Yy)

为随机变量 (X,Y) 的联合分布函数

:::

image-20250401203421350

联合密度函数

::: tip 定义

设二位变量 (X,Y) 的联合分布函数为 F(x,y),如果存在一个二元非负实值函数 f(x,y),使得对于任意 (x,y)R2

F(x,y)=xyf(u,v)dudv

成立,则称 (X,Y) 为二维连续性随机变量,f(x,y) 为二维连续性随机变量 (X,Y) 的联合密度函数

:::

几何意义就是左前侧阴影部分的体积

image-20250401224320908

常见分布

二维均匀分布

::: tip 定义

设二维随机变量 (X,Y) 的联合密度函数为

f(x,y)={1SG,(x,y)G0,others

其中 Gxoy 平面上的某个区域,SGG 的面积,则称 (X,Y) 服从区域 G 上的二维均匀分布

:::

二维正态分布

::: tip 定义

如果 (X,Y) 的联合密度函数为

f(x,y)=12πσ1σ21ρ2exp{12(1p2)[(xμ1)2σ122ρ(xμ1)(xμ2)σ1σ2+(yμ2)2σ22]}

则称 (X,Y) 服从二维正态分布,记为 (X,Y)N(μ1,μ2,σ12,σ22.ρ)

:::

边缘分布

如果知道二维随机变量 (X,Y) 的联合分布,那么其中一个变量的分布肯定也能知道

边缘分布函数

::: tip 定义

设二维随机变量 (X,Y) 的联合分布函数为 F(x,y),称

FX(x)=P(Xx)=P(Xx,Y+)=F(x,)

为随机变量 X 的边缘分布函数,随机变量 Y 的边缘分布函数同理

:::

离散型边缘分布律

X 的边缘分布律即为求 (X,Y) 联合分布律表格中的行和,Y 的边缘分布律即为求 (X,Y) 联合分布律表格中的列和

image-20250402162317491

X 的边缘分布律为

image-20250402162342440

Y 的边缘分布律为

image-20250402162435667

连续性边缘密度函数

定义 设二维连续型随机变量 (X,Y) 的联合密度函数 f(x,y),则 X 的边缘密度函数为

fX(x)=+f(x,y)dy

Y 的边缘密度函数类似

相互独立性

::: tip 定义

(X,Y) 为二维随机变量,若对任意的 x,yR,有:

F(x,y)=FX(x)FY(y)

成立,则称随机变量 XY 相互独立

:::

::: tip 定理

(X,Y) 为二维离散型随机变量,XY 相互独立的充分必要条件是,对任意的 i,j=1,2,,都有:

pij=pipj

成立

:::

条件分布

离散型条件分布律

::: tip 定义

设二维随机变量 (X,Y),其联合分布律为:

Pij=P{X=xi,Y=yi}, i=1,2,

关于 Y 的边缘分布律为 P{Y=yi}=i=1+pij=pj, j=1,2,,称

Pi|j=P{X=xi|Y=yi}=P{X=xi,Y=yi}P{Y=yi}=pijpj, i=1,2,

为在 Y=yj 的条件下随机变量 X 的条件分布律

同理,关于 X 的边缘分布律为 P{X=xi}=j=1+pij=pi, i=1,2,,称

Pj|i=P{Y=yj|X=xi}=P{X=xi,Y=yi}P{X=xi}=pijpi, j=1,2,

为在 X=xi 的条件下随机变量 Y 的条件分布律

:::

连续性条件概率密度

先来看一个例子,二维随机变量 (X,Y) 的概率密度为

f(x,y)={3x,0<x<1,0<y<x,0,others

求概率 P{Y18|X=14}

如果强行使用离散型的分析方法 P{Y18|X=14}=P{X=14,Y18}P{X=14} 会发现 P{X=14}=0,除数不能为 0,肯定有问题

所以不能直接带入条件概率公式,需要先求得概率密度函数,然后通过概率密度函数求条件概率密度函数

::: tip 定义

设二维连续性随机变量 (X,Y) 的联合概率密度为 f(x,y),其关于 X,Y 的边缘概率密度分别为 fX(x)fY(y),则称

fX|Y=f(x,y)fY(y)

为给定 Y 的条件下,X 的概率密度函数

FX|Y=xf(u,y)f(y)du

为给定 Y 的条件下, X 的概率分布函数

:::

随机变量的数字特征

数学期望和矩

::: tip 定义

X 是定义在 R 上的随机变量,他的概率密度函数是 fX,函数 g(X) 的期望值是

E[g(X)]={g(x)fX(x)dx 若 X 是连续的 ng(xn)fX(xn) 若 X 是离散的. 

最重要的情形是 g(x)=xr,我们把 E[Xr] 称为 Xr 阶矩,把 E[(XE[X])r] 称为 Xr 阶中心矩

:::

只要能算出和或积分, 就可以求出期望值和矩

最重要的两个矩:

::: note 例题

fX(x)={611(2+3x5x2) 若 0x10 其他 
  1. r 阶矩
  2. g(X)=eX 的期望
  3. g(X)=1/X 的期望

:::

  1. r0 时候的 r 阶矩,就是求 E[Xr]
E[Xr]=01xr611(2+3x5x2)dx=61101(2xr+3xr+15xr+2)dx=611(2xr+1r+1|01+3xr+2r+2|015xr+3r+3|01)=6117r+11(r+1)(r+2)(r+3)
  1. eX 的期望,就是计算积分
E[eX]=01ex611(2+3x5x2)dx=611(201exdx+301xex dx501x2ex dx)

这里有三个积分,我们需要一一处理

第一个积分就是:

201exdx=2ex|01=2(e1)

第二个积分需要使用分部积分法

01xex dx=xex|0101ex dx=e(e1)=1

第三个积分同样也适用分部积分法

01x2ex dx=x2ex|01201xex dx=e2

最后把三个积分结合在一起

E[eX]=611(2(e1)+315(e2))=618e11
  1. g(X)=1/X 的期望,也是积分
E[1X]=011x611(2+3x5x2)dx=611(201 dxx+301 dx501x dx)

但是积分 01dxx 不存在,所以这个期望也不存在

均值和方差

一阶矩和二阶中心距是最重要的两个矩. 这两个重要的矩分别有自己的名称:均值和方差

::: tip 定义

X 是一个随机变量,它的概率密度函数是 fX

μ={xfX(x)dx 若 X 是连续的 nxnfX(xn) 若 X 是离散的.  σX2={(xμX)2fX(x)dx 若 X 是连续的 n(xμX)2fX(xn) 若 X 是离散的. 

为了保证均值存在,我们希望 +|x|fX(x)dxn|xn|fX(xn) 是有限的

:::

均值就是期望值或平均值,如果从分布中不断地取出很多值,然后对得到的结果求平均值,那么这个平均值应该非常接近于 μX

标准差可以预测出结果与均值之间差距的波动程度,标准差越小,结果就越容易分布在均值附近

与方差相比,标准差的优势在于它和均值有相同的单位,因此,标准差是衡量结果在均值附近波动幅度的自然尺度

::: note 例题

抛掷两颗均匀的骰子,随机变量 R 表示掷出的数字之和,我们给出 R 的 PDF(概率密度函数)

P(R=r)={6|r7|36 若 r{2,3,,12}0 其他. 

求均值,方差,标准差

:::

就是套公式

μR=r=212r6|r7|36=2136+3236++12136=7σR2=r=212(r7)26|r7|36=(5)2136+(4)2236++52136=356σ=σ22.42

期望的线性性质

有一个最重要且最实用的事实:期望是线性的

::: tip 定理

X1,,Xn 是随机变量,并设 g1,,gn 是满足条件:E[|gi(X)|] 有限

a1,,an 表示任意实数,那么

E[a1g1(X1)++angn(Xn)]=a1E[g1(X1)]++anE[gn(Xn)].

注意:这里的随机变量不一定是相互独立的

:::

用文字来描述,就是 “和的期望等于期望的和”

下面有几个利用这个性质推理出的几条关键结果

::: tip 定理

X 是一个随机变量,它的均值为 μX,方差为 σX2,如果 ab 是任意两个固定的常数,那么随机变量 Y=aX+b 有如下结果

μY=aμX+bσY2=a2σX2

:::

感性理解上也很对,如果随机变量缩放 a 倍,那么均值也被缩放 a 倍,标准差被缩放 |a| 倍,方差被缩放 a2

::: tip 定理

X 是一个随机变量,那么

σ2=E[X2]E[X]2

:::

证明:由于期望具有线性性质

Var(X)=E[(XμX)2]=E[X22μXX+μX2]=E[X2]E[2μXX]+E[μX2]=E[X2]2μXE[X]+μX2=E[X2]2μXμX+μX2=E[X2]μX2=E[X2]E[X]2,

这是一个很好的公式,能让我们在已知一阶矩和二阶矩的前提下,利用这个公式得出二阶中心矩

均值和方差的性质

我们先称述一个重要的有用的事实

::: tip 定理

如果 XY 是相互独立的随机变量,那么

E[XY]=E[X][Y]

一种特殊的情况是

E[(XμX)(YμY)]=E[XμX]E[YμY]=0

:::

证明:前面的线性性质讲的是和,但这里是积

如果两个相互独立的随机变量,那么联合概率密度函数就等于它们边缘概率密度函数之积,即

fX,Y(x,y)=fX(x)fY(y)

把上面这个式子应用到二重积分中

E[XY]=x=y=xyfX(x)fY(y)dy dx=x=xfX(x)dxy=yfY(y)dy=E[X]E[Y]

证毕

再来看一个很好的性质

::: tip 定理

X1,,Xnn 个随机变量,它们的均值是 μX1,,μXn,方差是 σX12,σXn2,如果 X=X1++Xn,那么

μX=μX1++μXn

如果随机变量是 相互独立 的,那么有:

σX2=σX12++σXn2

:::

这里需要特别注意第二个性质成立的条件,相互独立,很容易忘记

下面给出一个这个定理的应用

假设有两只收益可变的股票,它们每股的价值是 1,两支股票的平均收益是 3 ,它们的方差都是 2,我们的目标是建立一个收益尽可能多且风险尽可能少的投资组合,我们假设这两只股票是相对独立的

假设我们一共投资 1 元,其中的 w 元来买第一支股票,剩下的 1w 来买第二只,设 S=wX1+(1w)X2

先来看期望:

E[S]=E[wX1+(1w)X2]=wE[X1]+(1w)E[X2]=w3+(1w)3=3

w 的变化显然不能提升我们的期望收益

再考虑方差:

Var(S)=Var(wX1+(1w)X2)=w2Var(X1)+(1w)2Var(X2)=(w2+(1w)2)2

这里可以看出,投资的方差取决于 w,当 w=1/2 时,方差取到最小值为 1

协方差和相关系数

::: tip 定义 协方差

XY 是两个随机变量,XY 的协方差记做 σXY 或者 Cov(X,Y)

σXY=E[(XμX)(Yμy)]

X1,,Xn 都是随机变量,而且 X=X1,,Xn,那么

Var(X)=i=1nVar(Xi)+21i<jnCov(Xi,Xj).

:::

和前面那个定理不同的是,我们没有选择用独立性把交叉项消去,而是保留下来,它们就是协方差

与协方差密切相关的术语是相关系数,相关系数

ρ=Cov(X,Y)σXσY

相关系数是对协方差的标准化,我们有 ρ[1,1],相关系数越接近 11,线性相关性就越强

对于任意两个随机变量 XY,如果它们的均值分别是 μXμY,那么 XY 的协方差可以写成

Cov(X,Y)=E[XY]μXμY

这个式子和求方差的公式非常像,可以利用期望的线性性质证明

Cov(X,Y)=E[(XμX)(YμY)]=E[XYμYXμXY+μYμX]=E[XY]μXE[X]μXE[Y]+E[μXμY]=E[XY]μXμYμXμY+μXμY=E[XY]μXμY.

统计量

总体、样本和统计量

在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体

比如,研究某学校的身高情况,全体身高就是总体,每个学生的身高就是个体

::: tip 定义 样本

若样本 X1,X2,,Xn 为所考察的总体具体相同的分布,且 X1,X2,,Xn 相互独立,则称 X1,X2,,Xn 为来自总体 X,容量为 n 的简单随机样本,简称样本

:::

设总体 X 是一个离散型的随机变量,分布律为 P(X=x),样本 X1,X2,,Xn 的联合分布律为

(x1,x2,,xn;θ)=P(X1=x1,X2=x2,,Xn=xn;θ)=i=1nP(Xi=xi;θ).

就是各个部分乘起来,连续性的概率也是一样的

一旦给执行随机抽样之后,样本就是一组数据,用小写的英文字母 (x1,x2,,xn) 表示,也称之为样本观测值,样本观测值 (x1,x2,,xn) 就是样本 (X1,X2,,Xn) 的一组特定的观测值

::: tip 定义 统计量

(X1,X2,,Xn) 为取自总体的一个样本,样本 (X1,X2,,Xn) 的函数为 g(X1,X2,,Xn),若 g 中不直接包含总体分布中的如何未知参数,则称 g(X1,X2,,Xn) 为统计量

:::

常见的统计量