条件期望与最优线性预测

在研究两个联合分布的随机变量 $X$ 和 $Y$ 之间存在的关系时，一个重要的工具是条件期望的概念。在第7章第3节中，定义了给定随机变量 $X$ 时，随机变量 $Y$ 的条件分布函数 $F_{Y ∣ X} (\cdot ∣ x)$ 的概念。我们现在定义给定 $X$ 时 $Y$ 的条件均值如下：

$对所有满足的$

后两个等式分别适用于 $F_{Y ∣ X} (\cdot ∣ x)$ 为连续或离散的情况。通过了解给定 $X$ 时 $Y$ 的条件均值，可以得到均值 $E [Y]$ 的值：

$对所有满足的$

例7A. 从随机组成的瓮中抽样。设从装有 $N$ 个球的瓮中不放回地抽取一个大小为 $n$ 的随机样本。假设瓮中白球的数量 $X$ 是一个随机变量。令 $Y$ 为样本中包含的白球数量。给定 $X$ 时 $Y$ 的条件分布是离散的，对于 $x = 0, 1, \dots, N$ 和 $y = 0, 1, \dots, x$ ，其概率质量函数为

因为给定 $X$ 时 $Y$ 的条件概率律是超几何分布。给定 $X$ 时 $Y$ 的条件均值可以通过了解超几何随机变量的均值轻松得到：

那么，所抽取样本中白球数量的均值等于

现在 $E [X] / N$ 是瓮中白球的平均比例。因此，(7.5) 类似于二项或超几何随机变量均值的公式。注意，如果 $X$ 是超几何的，则 $Y$ 的概率律是超几何的；如果 $X$ 是二项的，则 $Y$ 是二项的。（参见第4章理论练习4.1。）

例7B. 联合正态随机变量的条件均值。两个随机变量 $X_{1}$ 和 $X_{2}$ ，如果它们具有由(2.18)给出的联合概率密度函数，则它们是联合正态分布的。那么

因此，给定 $X_{1}$ 时 $X_{2}$ 的条件均值由下式给出

其中我们定义常数 $α_{1}$ 和 $β_{1}$ 为

类似地，

从 (7.7) 可以看出，给定随机变量 $X_{1}$ 的值 $x_{1}$ 时，与 $X_{2}$ 联合正态分布的随机变量 $X_{2}$ 的条件均值是 $x_{1}$ 的线性函数。除了两个随机变量 $X_{1}$ 和 $X_{2}$ 是联合正态分布的情况外，通常可以预期 $E [X_{2} ∣ X_{1} = x_{1}]$ 是 $x_{1}$ 的非线性函数。

给定另一个随机变量时，一个随机变量的条件均值代表了预测问题的一个可能答案。假设一位身高为 $x_{1}$ 的准父亲希望预测他未出生儿子的身高。如果将儿子的身高视为随机变量 $X_{2}$ ，将父亲的身高 $x_{1}$ 视为随机变量 $X_{1}$ 的观测值，那么作为儿子身高的预测，我们取条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ 。这种做法的合理性在于，可以证明条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ 具有以下性质：

对于任何使得最后一个积分存在的函数 $g (x_{1})$ 成立。换句话说，(7.10) 被解释为：如果要用随机变量 $X_{1}$ 的函数 $g (X_{1})$ 来预测 $X_{2}$ ，那么条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ 在所有可能的预测函数 $g (X_{1})$ 中具有最小的均方误差。

从 (7.7) 可以看出，在随机变量是联合正态分布的情况下，计算条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ 的问题可以简化为计算常数 $α_{1}$ 和 $β_{1}$ 的问题，为此只需要了解 $X_{1}$ 和 $X_{2}$ 的均值、方差和相关系数。如果这些矩未知，则必须从观测数据中估计它们。统计学中涉及估计参数 $α_{1}$ 和 $β_{1}$ 的部分称为回归分析。

可能发生的情况是，随机变量 $X_{1}$ 和 $X_{2}$ 的联合概率律未知，或者已知但使得条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ 的计算难以处理。然而，假设我们知道 $X_{1}$ 和 $X_{2}$ 的均值、方差（假设为正）和相关系数。那么，预测问题可以通过构造给定 $X_{1}$ 时 $X_{2}$ 的最佳线性预测来解决，记为 $E^{*} [X_{2} ∣ X_{1} = x_{1}]$ 。给定 $X_{1}$ 时 $X_{2}$ 的最佳线性预测定义为随机变量 $X_{1}$ 的线性函数 $a + b X_{1}$ ，该函数最小化使用 $a + b X_{1}$ 作为 $X_{2}$ 的预测时涉及的预测均方误差 $E [{(X_{2} - (a + b X_{1}))}^{2}]$ 。现在

求解使这些导数等于0的 $a$ 和 $b$ 的值，记为 $α$ 和 $β$ ，可以看出 $α$ 和 $β$ 满足方程

因此， $E^{*} [X_{2} ∣ X_{1} = x_{1}] = α + β x_{1}$ ，其中

比较 (7.7) 和 (7.13)，可以看出，在随机变量 $X_{1}$ 和 $X_{2}$ 是联合正态分布的情况下，最佳线性预测 $E^{*} [X_{2} ∣ X_{1} = x_{1}]$ 与最佳预测，即条件均值 $E [X_{2} ∣ X_{1} = x_{1}]$ ，是一致的。

我们可以轻松计算使用最佳线性预测所达到的预测均方误差。我们有

从 (7.14) 可以得到一个重要的结论：两个随机变量之间的相关性越接近1，在根据其中一个随机变量的值预测另一个随机变量的值时，所涉及的预测均方误差就越小。

“虚假”相关现象。给定三个随机变量 $U, V$ 和 $W$ ，令 $X$ 和 $Y$ 定义为

$或$

（或以某种类似的方式）作为 $U, V$ 和 $W$ 的函数。读者应谨慎，不要从 $X$ 和 $Y$ 之间存在相关性推断出 $U$ 和 $V$ 之间存在相关性。

例7C. 鹳鸟送子吗？设 $W$ 为某个地理区域内育龄妇女的数量， $U$ 为该区域内鹳鸟的数量， $V$ 为该区域在特定时间段内出生的婴儿数量。随机变量 $X$ 和 $Y$ 定义为

则分别代表该区域每名妇女对应的鹳鸟数量和每名妇女对应的出生婴儿数量。如果 $X$ 和 $Y$ 之间的相关系数 $ρ (X, Y)$ 接近1，这难道不能证明鹳鸟送子吗？事实上，即使只证明了相关系数 $ρ (X, Y)$ 为正，这难道不能证明一个地区鹳鸟的存在对那里的出生率有有益的影响吗？对这些有趣问题讨论感兴趣的读者，最好参考 J. Neyman 的《数理统计与概率讲座与会议录》，华盛顿特区，1952年，第143–154页。

理论练习

在以下练习中，设 $X_{1}, X_{2}$ 和 $Y$ 为联合分布的随机变量，其一阶矩和二阶矩假设已知，且方差为正。

7.1. 给定 $X_{1}$ 和 $X_{2}$ 时 $Y$ 的最佳线性预测，记为 $E^{*} [Y ∣ X_{1}, X_{2}]$ ，定义为线性函数 $a + b_{1} X_{1} + b_{2} X_{2}$ ，该函数最小化 $E [{(Y - (a + b_{1} X_{1} + b_{2} X_{2}))}^{2}]$ 。证明

$E^{*} [Y ∣ X_{1}, X_{2}] = E [Y] + β_{1} (X_{1} - E [X_{1}]) + β_{2} (X_{2} - E [X_{2}])$

其中

其中我们定义

7.2. $Y$ 关于 $X_{1}$ 和 $X_{2}$ 的残差，记为 $η [Y ∣ X_{1}, X_{2}]$ ，定义为

$η [Y ∣ X_{1}, X_{2}] = Y - E^{*} [Y ∣ X_{1}, X_{2}] .$

证明 $η [Y ∣ X_{1}, X_{2}]$ 与 $X_{1}$ 和 $X_{2}$ 不相关。因此，得出结论：预测的均方误差，称为给定 $X_{1}$ 和 $X_{2}$ 时 $Y$ 的残差方差，由下式给出

$E [η^{2} [Y ∣ X_{1}, X_{2}]] = Var [Y] - Var [E^{*} [Y ∣ X_{1}, X_{2}]] .$

接下来证明预测的方差由下式给出

正量 $R [Y ∣ X_{1}, X_{2}]$ ，定义为

$R^{2} [Y ∣ X_{1}, X_{2}] = \frac{Var [E^{*} [Y ∣ X_{1}, X_{2}]]}{Var [Y]} = ρ^{2} (Y, E^{*} [Y ∣ X_{1}, X_{2}]),$

被称为 $Y$ 与随机向量 $(X_{1}, X_{2})$ 之间的多重相关系数。为了理解多重相关系数的含义，请用其表示给定 $X_{1}$ 和 $X_{2}$ 时 $Y$ 的残差方差。

7.3. $X_{1}$ 和 $X_{2}$ 关于 $Y$ 的偏相关系数定义为

$ρ [X_{1}, X_{2} ∣ Y] = ρ (η [X_{1} ∣ Y], η [X_{2} ∣ Y]),$

其中 $η [X_{i} ∣ Y] = X_{i} - E^{*} [X_{i} ∣ Y]$ 对于 $i = 1, 2$ 。证明

$ρ [X_{1}, X_{2} ∣ Y] = \frac{ρ (X_{1}, X_{2}) - ρ (X_{1}, Y) ρ (X_{2}, Y)}{\sqrt{(1 - ρ^{2} ({\bar{X}}_{1}, Y)) (1 - ρ^{2} (X_{2}, Y) .)}}$

7.4. （例7A的延续）。证明

习题

7.1. 设 $X_{1}, X_{2}, X_{3}$ 为联合分布的随机变量，具有零均值、单位方差，以及协方差 $Cov [X_{1}, X_{2}] = 0.80, Cov [X_{1}, X_{3}] = - 0.40$ ， $Cov [X_{2}, X_{3}] = - 0.60$ 。求 (i) 给定 $X_{2}$ 时 $X_{1}$ 的最佳线性预测，(ii) 给定 $X_{2}$ 时 $X_{3}$ 的最佳线性预测，(iii) 给定 $X_{2}$ 时 $X_{1}$ 和 $X_{3}$ 的偏相关系数，(iv) 给定 $X_{2}$ 和 $X_{3}$ 时 $X_{1}$ 的最佳线性预测，(v) 给定 $X_{2}$ 和 $X_{3}$ 时 $X_{1}$ 的残差方差，(vi) 给定 $X_{2}$ 时 $X_{1}$ 的残差方差。

答案

(i) $0.8 x_{2}$ ；(ii) $- 0.6 x_{2}$ ；(iii) $\frac{1}{6}$ ；(iv) $\frac{7}{8} x_{2} + \frac{1}{8} x_{3}$ ；(v) 0.35；(vi) 0.36。

7.2. 若 $X$ 和 $Y$ 为联合连续随机变量，其联合概率密度函数 $f_{X, Y} (x, y)$ 仅在 $x > 0, y > 0$ 时非零，且在 $x > 0, y > 0$ 时由以下给出，求给定 $X$ 时 $Y$ 的条件均值：

$\frac{4}{5} (x + 3 y) e^{- x - 2 y},$
$\frac{y}{(1 + x)^{4}} e^{- y / (1 + x)},$
$\frac{9}{2} \frac{1 + x + y}{(1 + x)^{4} (1 + y)^{4}} .$

7.3. 设 $X = \cos 2 π U, Y = \sin 2 π U$ ，其中 $U$ 在0到1上均匀分布。证明对于 $| x | \leq 1$

$E^{*} [Y ∣ X = x] = 0, E [Y ∣ X = x] = \sqrt{1 - x^{2}} .$

求使用 (i) 最佳线性预测，(ii) 最佳预测所达到的预测均方误差。

7.4. 设 $U, V$ 和 $W$ 为具有相等方差的不相关随机变量。令 $X = U \pm W, Y = V \pm W$ 。证明

$ρ (X, W) = ρ (Y, W) = 1 / \sqrt{2}, ρ (X, Y) = 0.5 .$

答案

(i) $Var [Y] = 0.5$ ；(ii) 0。