随机变量之和的期望

随机变量，作为其他随机变量的和出现或可表示为其他随机变量的和，在概率论中扮演着重要角色。在本节中，我们将推导随机变量之和的均值、均方、方差以及矩母函数的公式。

设 $X_{1}, X_{2}, \dots, X_{n}$ 为 $n$ 个联合分布的随机变量。利用期望运算的线性性质，我们立即得到以下关于和的均值、均方和方差的公式：

方程 (4.2) 和 (4.3) 源于以下事实：

如果随机变量 $X_{1}, X_{2}$ , $\dots, X_{n}$ 是不相关的（即对于每个 $k \neq j$ ，有 $Cov [X_{k}, X_{j}] = 0$ ），则方程 (4.3) 会大大简化。此时，随机变量之和的方差等于各随机变量方差之和；用符号表示为：

$若对于$

如果随机变量 $X_{1}, X_{2}, \dots, X_{n}$ 是独立的，那么我们可以给出它们之和的矩母函数公式；对于任意实数 $t$

用文字表述就是：独立随机变量之和的矩母函数等于它们各自矩母函数的乘积。矩母函数在概率论中的重要性，既源于 (4.7) 式的成立，也源于矩母函数可用于计算矩这一事实。一旦我们用期望的形式显式地重写 (4.7)，其证明便可立即得出：

方程 (4.1)-(4.3) 对于求一个随机变量 $Y$ 的均值和方差（在不知道 $Y$ 的概率律的情况下）非常有用，只要能将 $Y$ 表示为随机变量 $X_{1}, X_{2}, \dots, X_{n}$ 的和，且这些随机变量的均值、方差和协方差是已知的。

例 4A. 二项随机变量作为和。在 $n$ 次独立重复伯努利试验中，每次试验成功概率为 $p$ ，成功的次数是一个随机变量。我们将其记为 $S_{n}$ 。已证明 $S_{n}$ 服从参数为 $n$ 和 $p$ 的二项概率律。因此，

我们现在证明 (4.8) 是 (4.1)、(4.6) 和 (4.7) 的直接结果。定义随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ，其中 $X_{k} = 1$ 或 0，取决于第 $k$ 次试验的结果是成功还是失败。可以验证：(i) $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ ；(ii) $X_{1}, \dots, X_{n}$ 是独立的随机变量；(iii) 对于 $k = 1, 2, \dots, n, X_{k}$ 是一个伯努利随机变量，其均值 $E [X_{k}] = p$ ，方差 $Var [X_{k}] = p q$ ，矩母函数 $ψ_{X_{k}} (t) = p e^{t} + q$ 。由此可推出所需结论。

例 4B. 超几何随机变量作为和。从一个装有 $N$ 个球的罐子中不放回地抽取一个大小为 $n$ 的样本，其中有 $a = N p$ 个白球，抽到的白球数是一个随机变量。我们将其记为 $S_{n}$ 。已证明 $S_{n}$ 服从超几何概率律。因此，

我们现在证明，无需知道 $S_{n}$ 的概率律，即可通过 (4.1) 和 (4.3) 推导出 (4.9)。定义随机变量 $X_{1}, X_{2}, \dots, X_{n} : X_{k} = 1$ 或 0，取决于第 $k$ 次抽取是否抽到白球。验证：(i) $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ ；(ii) 对于 $k = 1, 2, \dots, n, X_{k}$ 是一个伯努利随机变量，其均值 $E [X_{k}] = p$ ，方差 $Var [X_{k}] = p q$ 。然而，随机变量 $X_{1}, \dots, X_{n}$ 不是独立的，我们需要计算对于任意 $j \neq k$ 的乘积矩 $E [X_{j} X_{k}]$ 和协方差 $Cov [X_{j}, X_{k}]$ 。现在， $E [X_{j} X_{k}] =$ $P [X_{j} = 1, X_{k} = 1]$ ，所以 $E [X_{j} X_{k}]$ 等于第 $j$ 次和第 $k$ 次抽取都抽到白球的概率，该概率等于 $[a (a - 1)] / [N (N - 1)]$ 。因此，

$Cov [X_{j}, X_{k}] = E [X_{j} X_{k}] - E [X_{j}] E [X_{k}] = \frac{a (a - 1)}{N (N - 1)} - p^{2} = \frac{- p q}{N - 1}$ 。

因此， $Var [S_{n}] = n p q + n (n - 1) (\frac{- p q}{N - 1}) = n p q (1 - \frac{n - 1}{N - 1}) .$ 由此可推出所需结论。

例 4C. 被占用的罐子数作为和。如果将 $n$ 个可区分的球分配到 $M$ 个可区分的罐子中，且每个球落入任一罐子的可能性相同，那么被占用的罐子的期望数量是多少？

解

对于 $k = 1, 2, \dots, M$ ，令 $X_{k} = 1$ 或 0，取决于第 $k$ 个罐子是否被占用。那么 $S = X_{1} + X_{2} + \dots + X_{M}$ 就是被占用的罐子数，而 $E [S]$ 就是被占用的罐子的期望数量。某个特定罐子被占用的概率等于 $1 - [1 - (1 / M)]^{n}$ 。因此， $E [X_{k}] = 1 - [1 - (1 / M)]^{n}$ 且 $E [S] =$ $M {1 - [1 - (1 / M)]^{n}}$ 。

理论习题

4.1. 收集优惠券的等待时间。假设某品牌香烟的每包都包含一套 $N$ 张卡片中的一张，且这些卡片随机分布在各个烟包中（假设可用的烟包数量是无限的）。令 $S_{N}$ 为收集到一整套 $N$ 张卡片所需购买的最少烟包数。证明 $E [S_{N}] = N \sum_{k = 1}^{N} (1 / k)$ ，该值可通过以下公式计算（参见 $H$ . Cramér, Mathematical Methods of Statistics , Princeton University Press, 1946, p. 125）

$\sum_{k = 1}^{N} \frac{1}{k} = 0.57722 + \log_{e} N + \frac{1}{2 N} + R_{N},$

其中 $0 < R_{N} < 1 / 8 N^{2}$ 。验证当 $N = 52$ 时， $E [S_{52}] ≐ 236$ 。提示：对于 $k = 0, 1, \dots, N - 1$ ，令 $X_{k}$ 为在收集到 $k$ 张不同卡片后，为收集到第 $(k + 1)$ 张不同卡片所需购买的烟包数。利用 $X_{k}$ 服从几何分布这一事实，证明 $E [X_{k}] = N / (N - k)$ 。

4.2 . (4.1) 的延续。对于 $r = 1, 2, \dots, N$ ，令 $S_{r}$ 为获得 $r$ 张不同卡片所需购买的最少烟包数。证明

证明近似地（对于大的 $N$ ）有

$E [S_{r}] ≐ N \log \frac{N}{N - r + 1} .$

进一步证明 $S_{r}$ 的矩母函数由下式给出

$ψ_{S_{r}} (t) = \prod_{k = 0}^{r - 1} \frac{(N - k) e^{t}}{(N - k e^{t})} .$

4.3. (4.1) 的延续。对于预先指定的 $r$ 张卡片，令 $T_{r}$ 为获得所有 $r$ 张卡片所需购买的最少烟包数。证明

$E [T_{r}] = \sum_{k = 1}^{r} \frac{N}{r - k + 1}, Var [T_{r}] = \sum_{k = 1}^{r} \frac{N (N - r + k - 1)}{(r - k + 1)^{2}} .$

4.4 . 匹配数的均值和方差。令 $S_{M}$ 为将 $M$ 个编号为 1 到 $M$ 的球，每个罐子放一个，分配到 $M$ 个编号为 1 到 $M$ 的罐子中所得到的匹配数。在第 5 章的理论习题 3.3 中已证明 $E [S_{M}] = 1$ 且 $Var [S_{M}] = 1$ 。利用 $S_{M} = X_{1} + \dots + X_{M}$ 这一事实来证明，其中 $X_{k} = 1$ 或 0，取决于第 $k$ 个罐子是否包含编号为 $k$ 的球。提示：证明 $Cov [X_{j}, X_{k}] = (M - 1) / M^{2}$ 或 $1 / M^{2} (M - 1)$ ，取决于 $j = k$ 还是 $j \neq k$ 。

4.5 . 证明如果 $X_{1}, \dots, X_{n}$ 是均值为零且具有有限四阶矩的独立随机变量，那么和 $S_{n} = X_{1} + \dots + X_{n}$ 的三阶矩和四阶矩由下式给出

$E [S_{n}^{3}] = \sum_{k = 1}^{n} E [X_{k}^{3}], E [S_{n}^{4}] = \sum_{k = 1}^{n} E [X_{k}^{4}] + 6 \sum_{k = 1}^{n} E [X_{k}^{2}] \sum_{j = k + 1}^{n} E [X_{j}^{2}] .$

如果随机变量 $X_{1}, \dots, X_{n}$ 是独立同分布的，服从随机变量 $X$ 的分布，那么

$E [S_{n}^{3}] = n E [X^{3}], E [S_{n}^{4}] = n E [X^{4}] + 3 n (n - 1) E^{2} [X^{2}]$

4.6 . 设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自随机变量 $X$ 的一个随机样本。定义样本均值 $\bar{X}$ 和样本方差 $S^{2}$ 如下

$\bar{X} = \frac{1}{n} \sum_{k = 1}^{n} X_{k}, S^{2} = \frac{1}{n - 1} \sum_{k = 1}^{n} {(X_{k} - \bar{X})}^{2} .$

(i) 证明 $E [S^{2}] = σ^{2}, Var [S^{2}] = (σ^{4} / n) [(μ_{4} / σ^{4}) - (n - 3 / n - 1)]$ ，其中 $σ^{2} = Var [X], μ_{4} = E [(X - E [X])^{4}]$ 。提示：证明

$\sum_{k = 1}^{n} {(X_{k} - E [X])}^{2} = \sum_{k = 1}^{n} {(X_{k} - \bar{X})}^{2} + n (\bar{X} - E [X])^{2} .$

(ii) 证明对于 $i \neq j$ ，有 $ρ (X_{i} - \bar{X}, X_{j} - \bar{X}) = \frac{- 1}{n - 1}$ 。

习题

4.1 . 设 $X_{1}, X_{2}$ 和 $X_{3}$ 是独立的正态分布随机变量，每个均值为 1，方差为 3。求 $P [X_{1} + X_{2} + X_{3} > 0]$ 。

答案

0.8413。

4.2 . 考虑一系列独立重复的伯努利试验，每次试验成功的概率为 $p = \frac{5}{16}$ 。

(i) 令 $S_{n}$ 为达到第 $n$ 次成功所需的试验次数。求 $E [S_{n}]$ 和 $Var [S_{n}]$ 。

提示：将 $S_{n}$ 写成一个和， $S_{n} = X_{1} + \dots + X_{n}$ ，其中 $X_{k}$ 是第 $k - 1$ 次成功与第 $k$ 次成功之间的试验次数。随机变量 $X_{1}, \dots, X_{n}$ 是独立同分布的。

(ii) 令 $T_{n}$ 为在达到第 $n$ 次成功之前遇到的失败次数。求 $E [T_{n}]$ 和 $Var [T_{n}]$ 。

4.3 . 一枚公平的硬币抛掷 $n$ 次。令 $T_{n}$ 为在 $n$ 次抛掷中，反面之后紧跟着正面的次数。证明 $E [T_{n}] = (n - 1) / 4$ 且 $E [T_{n}^{2}] =$ $(n - 1) / 4 + [(n - 2) (n - 3)] / 16$ 。求 Var $[T_{n}]$ 。

4.4 . 一个有 $n$ 把钥匙的人想打开他的门。他独立且随机地尝试这些钥匙。令 $N_{n}$ 为打开门所需的尝试次数。求 $E [N_{n}]$ 和 $Var [N_{n}]$ ，如果 (i) 不成功的钥匙不会从后续选择中排除，(ii) 会排除。假设恰好只有一把钥匙能打开门。

在习题 4.5 和 4.6 中，考虑一件由 4 个长度分别为 $X_{1}, X_{2}, X_{3}$ 和 $X_{4}$ 的部件直线组装而成的设备。设 $E [X_{1}] = 20, E [X_{2}] = 30, E [X_{3}] = 40, E [X_{4}] = 60$ 。

4.5 . 假设对于 $j = 1, \dots, 4$ ，有 $Var [X_{j}] = 4$ 。

(i) 如果 $X_{1}, X_{2}, X_{3}$ 和 $X_{4}$ 不相关，求该设备长度 $L = X_{1} + X_{2} + X_{3} + X_{4}$ 的均值和方差。

(ii) 如果对于 $1 \leq j < k \leq 4$ ，有 $ρ (X_{j}, X_{k}) = 0.2$ ，求 $L$ 的均值和方差。

答案

$E [L] = 150$ 。(i) $Var [L] = 16$ ；(ii) $Var [L] = 25.6$ 。