条件期望与最优线性预测
在研究两个联合分布的随机变量和之间存在的关系时,一个重要的工具是条件期望的概念。在第7章第3节中,定义了给定随机变量时,随机变量的条件分布函数的概念。我们现在定义给定时的条件均值如下:
后两个等式分别适用于为连续或离散的情况。通过了解给定时的条件均值,可以得到均值的值:
例7A. 从随机组成的瓮中抽样。设从装有个球的瓮中不放回地抽取一个大小为的随机样本。假设瓮中白球的数量是一个随机变量。令为样本中包含的白球数量。给定时的条件分布是离散的,对于和,其概率质量函数为
因为给定时的条件概率律是超几何分布。给定时的条件均值可以通过了解超几何随机变量的均值轻松得到:
那么,所抽取样本中白球数量的均值等于
现在是瓮中白球的平均比例。因此,(7.5) 类似于二项或超几何随机变量均值的公式。注意,如果是超几何的,则的概率律是超几何的;如果是二项的,则是二项的。(参见第4章理论练习4.1。)
例7B. 联合正态随机变量的条件均值。两个随机变量和,如果它们具有由(2.18)给出的联合概率密度函数,则它们是联合正态分布的。那么
因此,给定时的条件均值由下式给出
其中我们定义常数和为
类似地,
从 (7.7) 可以看出,给定随机变量的值时,与联合正态分布的随机变量的条件均值是的线性函数。除了两个随机变量和是联合正态分布的情况外,通常可以预期是的非线性函数。
给定另一个随机变量时,一个随机变量的条件均值代表了预测问题的一个可能答案。假设一位身高为的准父亲希望预测他未出生儿子的身高。如果将儿子的身高视为随机变量,将父亲的身高视为随机变量的观测值,那么作为儿子身高的预测,我们取条件均值。这种做法的合理性在于,可以证明条件均值具有以下性质:
对于任何使得最后一个积分存在的函数成立。换句话说,(7.10) 被解释为:如果要用随机变量的函数来预测,那么条件均值在所有可能的预测函数中具有最小的均方误差。
从 (7.7) 可以看出,在随机变量是联合正态分布的情况下,计算条件均值的问题可以简化为计算常数和的问题,为此只需要了解和的均值、方差和相关系数。如果这些矩未知,则必须从观测数据中估计它们。统计学中涉及估计参数和的部分称为回归分析。
可能发生的情况是,随机变量和的联合概率律未知,或者已知但使得条件均值的计算难以处理。然而,假设我们知道和的均值、方差(假设为正)和相关系数。那么,预测问题可以通过构造给定时的最佳线性预测来解决,记为。给定时的最佳线性预测定义为随机变量的线性函数,该函数最小化使用作为的预测时涉及的预测均方误差。现在
求解使这些导数等于0的和的值,记为和,可以看出和满足方程
因此,,其中
比较 (7.7) 和 (7.13),可以看出,在随机变量和是联合正态分布的情况下,最佳线性预测与最佳预测,即条件均值,是一致的。
我们可以轻松计算使用最佳线性预测所达到的预测均方误差。我们有
从 (7.14) 可以得到一个重要的结论:两个随机变量之间的相关性越接近1,在根据其中一个随机变量的值预测另一个随机变量的值时,所涉及的预测均方误差就越小。
“虚假”相关现象。给定三个随机变量和,令和定义为
(或以某种类似的方式)作为和的函数。读者应谨慎,不要从和之间存在相关性推断出和之间存在相关性。
例7C. 鹳鸟送子吗?设为某个地理区域内育龄妇女的数量,为该区域内鹳鸟的数量,为该区域在特定时间段内出生的婴儿数量。随机变量和定义为
则分别代表该区域每名妇女对应的鹳鸟数量和每名妇女对应的出生婴儿数量。如果和之间的相关系数接近1,这难道不能证明鹳鸟送子吗?事实上,即使只证明了相关系数为正,这难道不能证明一个地区鹳鸟的存在对那里的出生率有有益的影响吗?对这些有趣问题讨论感兴趣的读者,最好参考 J. Neyman 的《数理统计与概率讲座与会议录》,华盛顿特区,1952年,第143–154页。
理论练习
在以下练习中,设和为联合分布的随机变量,其一阶矩和二阶矩假设已知,且方差为正。
7.1. 给定和时的最佳线性预测,记为,定义为线性函数,该函数最小化。证明
其中
其中我们定义
7.2. 关于和的残差,记为,定义为
证明与和不相关。因此,得出结论:预测的均方误差,称为给定和时的残差方差,由下式给出
接下来证明预测的方差由下式给出
正量,定义为
被称为 与随机向量 之间的多重相关系数。为了理解多重相关系数的含义,请用其表示给定 和 时 的残差方差。
7.3. 和 关于 的偏相关系数定义为
其中 对于 。证明
7.4. (例7A的延续)。证明
习题
7.1. 设 为联合分布的随机变量,具有零均值、单位方差,以及协方差 , 。求 (i) 给定 时 的最佳线性预测,(ii) 给定 时 的最佳线性预测,(iii) 给定 时 和 的偏相关系数,(iv) 给定 和 时 的最佳线性预测,(v) 给定 和 时 的残差方差,(vi) 给定 时 的残差方差。
答案
(i) ;(ii) ;(iii) ;(iv) ;(v) 0.35;(vi) 0.36。
7.2. 若 和 为联合连续随机变量,其联合概率密度函数 仅在 时非零,且在 时由以下给出,求给定 时 的条件均值:
7.3. 设 ,其中 在0到1上均匀分布。证明对于
求使用 (i) 最佳线性预测,(ii) 最佳预测所达到的预测均方误差。
7.4. 设 和 为具有相等方差的不相关随机变量。令 。证明
答案
(i) ;(ii) 0。