随机变量之和的期望

随机变量,作为其他随机变量的出现或可表示为其他随机变量的,在概率论中扮演着重要角色。在本节中,我们将推导随机变量之和的均值、均方、方差以及矩母函数的公式。

X 1 , X 2 , , X n n 个联合分布的随机变量。利用期望运算的线性性质,我们立即得到以下关于和的均值、均方和方差的公式:

方程 (4.2) 和 (4.3) 源于以下事实:

如果随机变量 X 1 , X 2 , , X n 不相关的(即对于每个 k j ,有 Cov [ X k , X j ] = 0 ),则方程 (4.3) 会大大简化。此时,随机变量之和的方差等于各随机变量方差之和;用符号表示为:

对于 

如果随机变量 X 1 , X 2 , , X n 独立的,那么我们可以给出它们之和的矩母函数公式;对于任意实数 t  

 

用文字表述就是:独立随机变量之和的矩母函数等于它们各自矩母函数的乘积。矩母函数在概率论中的重要性,既源于 (4.7) 式的成立,也源于矩母函数可用于计算矩这一事实。一旦我们用期望的形式显式地重写 (4.7),其证明便可立即得出:

 

方程 (4.1)-(4.3) 对于求一个随机变量 Y 的均值和方差(在不知道 Y 的概率律的情况下)非常有用,只要能将 Y 表示为随机变量 X 1 , X 2 , , X n 的和,且这些随机变量的均值、方差和协方差是已知的。

例 4A. 二项随机变量作为和。在 n 次独立重复伯努利试验中,每次试验成功概率为 p ,成功的次数是一个随机变量。我们将其记为 S n 。已证明 S n 服从参数为 n p 的二项概率律。因此,

 

我们现在证明 (4.8) 是 (4.1)、(4.6) 和 (4.7) 的直接结果。定义随机变量 X 1 , X 2 , , X n ,其中 X k = 1 或 0,取决于第 k 次试验的结果是成功还是失败。可以验证:(i) S n = X 1 + X 2 + + X n ;(ii) X 1 , , X n 是独立的随机变量;(iii) 对于 k = 1 , 2 , , n , X k 是一个伯努利随机变量,其均值 E [ X k ] = p ,方差 Var [ X k ] = p q ,矩母函数 ψ X k ( t ) = p e t + q 。由此可推出所需结论。

例 4B. 超几何随机变量作为和。从一个装有 N 个球的罐子中不放回地抽取一个大小为 n 的样本,其中有 a = N p 个白球,抽到的白球数是一个随机变量。我们将其记为 S n 。已证明 S n 服从超几何概率律。因此,

 

我们现在证明,无需知道 S n 的概率律,即可通过 (4.1) 和 (4.3) 推导出 (4.9)。定义随机变量 X 1 , X 2 , , X n : X k = 1 或 0,取决于第 k 次抽取是否抽到白球。验证:(i) S n = X 1 + X 2 + + X n ;(ii) 对于 k = 1 , 2 , , n , X k 是一个伯努利随机变量,其均值 E [ X k ] = p ,方差 Var [ X k ] = p q 。然而,随机变量 X 1 , , X n 不是独立的,我们需要计算对于任意 j k 的乘积矩 E [ X j X k ] 和协方差 Cov [ X j , X k ] 。现在, E [ X j X k ] = P [ X j = 1 , X k = 1 ] ,所以 E [ X j X k ] 等于第 j 次和第 k 次抽取都抽到白球的概率,该概率等于 [ a ( a 1 ) ] / [ N ( N 1 ) ] 。因此,

Cov [ X j , X k ] = E [ X j X k ] E [ X j ] E [ X k ] = a ( a 1 ) N ( N 1 ) p 2 = p q N 1

因此, Var [ S n ] = n p q + n ( n 1 ) ( p q N 1 ) = n p q ( 1 n 1 N 1 ) . 由此可推出所需结论。

例 4C. 被占用的罐子数作为和。如果将 n 个可区分的球分配到 M 个可区分的罐子中,且每个球落入任一罐子的可能性相同,那么被占用的罐子的期望数量是多少?

 

对于 k = 1 , 2 , , M ,令 X k = 1 或 0,取决于第 k 个罐子是否被占用。那么 S = X 1 + X 2 + + X M 就是被占用的罐子数,而 E [ S ] 就是被占用的罐子的期望数量。某个特定罐子被占用的概率等于 1 [ 1 ( 1 / M ) ] n 。因此, E [ X k ] = 1 [ 1 ( 1 / M ) ] n E [ S ] = M { 1 [ 1 ( 1 / M ) ] n }

 

理论习题

4.1. 收集优惠券的等待时间。假设某品牌香烟的每包都包含一套 N 张卡片中的一张,且这些卡片随机分布在各个烟包中(假设可用的烟包数量是无限的)。令 S N 为收集到一整套 N 张卡片所需购买的最少烟包数。证明 E [ S N ] = N k = 1 N ( 1 / k ) ,该值可通过以下公式计算(参见 H . Cramér, Mathematical Methods of Statistics , Princeton University Press, 1946, p. 125)

k = 1 N 1 k = 0.57722 + log e N + 1 2 N + R N ,  

其中 0 < R N < 1 / 8 N 2 。验证当 N = 52 时, E [ S 52 ] 236 提示:对于 k = 0 , 1 , , N 1 ,令 X k 为在收集到 k 张不同卡片后,为收集到第 ( k + 1 ) 张不同卡片所需购买的烟包数。利用 X k 服从几何分布这一事实,证明 E [ X k ] = N / ( N k )

4.2 . (4.1) 的延续。对于 r = 1 , 2 , , N ,令 S r 为获得 r 张不同卡片所需购买的最少烟包数。证明

证明近似地(对于大的 N )有

E [ S r ] N log N N r + 1 .  

进一步证明 S r 的矩母函数由下式给出

ψ S r ( t ) = k = 0 r 1 ( N k ) e t ( N k e t ) .  

4.3. (4.1) 的延续。对于预先指定的 r 张卡片,令 T r 为获得所有 r 张卡片所需购买的最少烟包数。证明

E [ T r ] = k = 1 r N r k + 1 , Var [ T r ] = k = 1 r N ( N r + k 1 ) ( r k + 1 ) 2 .  

4.4 . 匹配数的均值和方差。令 S M 为将 M 个编号为 1 到 M 的球,每个罐子放一个,分配到 M 个编号为 1 到 M 的罐子中所得到的匹配数。在第 5 章的理论习题 3.3 中已证明 E [ S M ] = 1 Var [ S M ] = 1 。利用 S M = X 1 + + X M 这一事实来证明,其中 X k = 1 或 0,取决于第 k 个罐子是否包含编号为 k 的球。提示:证明 Cov [ X j , X k ] = ( M 1 ) / M 2 1 / M 2 ( M 1 ) ,取决于 j = k 还是 j k

4.5 . 证明如果 X 1 , , X n 是均值为零且具有有限四阶矩的独立随机变量,那么和 S n = X 1 + + X n 的三阶矩和四阶矩由下式给出

E [ S n 3 ] = k = 1 n E [ X k 3 ] , E [ S n 4 ] = k = 1 n E [ X k 4 ] + 6 k = 1 n E [ X k 2 ] j = k + 1 n E [ X j 2 ] .  

如果随机变量 X 1 , , X n 是独立同分布的,服从随机变量 X 的分布,那么

E [ S n 3 ] = n E [ X 3 ] , E [ S n 4 ] = n E [ X 4 ] + 3 n ( n 1 ) E 2 [ X 2 ]  

4.6 . 设 X 1 , X 2 , , X n 是来自随机变量 X 的一个随机样本。定义样本均值 X ¯ 和样本方差 S 2 如下

X ¯ = 1 n k = 1 n X k , S 2 = 1 n 1 k = 1 n ( X k X ¯ ) 2 .  

(i) 证明 E [ S 2 ] = σ 2 , Var [ S 2 ] = ( σ 4 / n ) [ ( μ 4 / σ 4 ) ( n 3 / n 1 ) ] ,其中 σ 2 = Var [ X ] , μ 4 = E [ ( X E [ X ] ) 4 ] 提示:证明

k = 1 n ( X k E [ X ] ) 2 = k = 1 n ( X k X ¯ ) 2 + n ( X ¯ E [ X ] ) 2 .  

(ii) 证明对于 i j ,有 ρ ( X i X ¯ , X j X ¯ ) = 1 n 1

习题

4.1 . 设 X 1 , X 2 X 3 是独立的正态分布随机变量,每个均值为 1,方差为 3。求 P [ X 1 + X 2 + X 3 > 0 ]

 

答案

0.8413。

 

4.2 . 考虑一系列独立重复的伯努利试验,每次试验成功的概率为 p = 5 16

(i) 令 S n 为达到第 n 次成功所需的试验次数。求 E [ S n ] Var [ S n ]

提示:将 S n 写成一个和, S n = X 1 + + X n ,其中 X k 是第 k 1 次成功与第 k 次成功之间的试验次数。随机变量 X 1 , , X n 是独立同分布的。

(ii) 令 T n 为在达到第 n 次成功之前遇到的失败次数。求 E [ T n ] Var [ T n ]

4.3 . 一枚公平的硬币抛掷 n 次。令 T n 为在 n 次抛掷中,反面之后紧跟着正面的次数。证明 E [ T n ] = ( n 1 ) / 4 E [ T n 2 ] = ( n 1 ) / 4 + [ ( n 2 ) ( n 3 ) ] / 16 。求 Var [ T n ]

4.4 . 一个有 n 把钥匙的人想打开他的门。他独立且随机地尝试这些钥匙。令 N n 为打开门所需的尝试次数。求 E [ N n ] Var [ N n ] ,如果 (i) 不成功的钥匙不会从后续选择中排除,(ii) 会排除。假设恰好只有一把钥匙能打开门。

在习题 4.5 和 4.6 中,考虑一件由 4 个长度分别为 X 1 , X 2 , X 3 X 4 的部件直线组装而成的设备。设 E [ X 1 ] = 20 , E [ X 2 ] = 30 , E [ X 3 ] = 40 , E [ X 4 ] = 60

4.5 . 假设对于 j = 1 , , 4 ,有 Var [ X j ] = 4

(i) 如果 X 1 , X 2 , X 3 X 4 不相关,求该设备长度 L = X 1 + X 2 + X 3 + X 4 的均值和方差。

(ii) 如果对于 1 j < k 4 ,有 ρ ( X j , X k ) = 0.2 ,求 L 的均值和方差。

 

答案

E [ L ] = 150 。(i) Var [ L ] = 16 ;(ii) Var [ L ] = 25.6

 

4.6 。假设对于 j = 1 , , 4 ,有 σ [ X j ] = ( 0.1 ) E [ X j ] 。针对练习 4.5 中考虑的两种情况,求比值 E [ L ] / σ [ L ] ,该比值称为长度 L 的测量信噪比(参见第 6 节)。