切比雪夫不等式

仅凭对概率律的均值和方差的了解,通常无法确定概率律本身。在概率律的函数形式已知,但存在若干未指定参数的情况下(例如,假设某概率律是参数为 m σ 的正态分布),通常可以将这些参数与均值和方差联系起来。于是,可以利用对均值和方差的了解来确定概率律。在概率律的函数形式未知的情况下,可以从均值和方差中获得概率律的粗略估计,这对许多目的而言已经足够。

对于任何具有有限均值 m 和有限方差 σ 2 的概率律,对任意 h > 0 ,定义量 Q ( h ) 为该概率律赋予区间 { x : m h σ < x m + h σ } 的概率。用分布函数 F ( ) 或概率密度函数 f ( ) 来表示,

 

让我们在某些特定情形下计算 Q ( h ) 。对于均值为 m 、标准差为 σ  的正态概率律

 

对于均值为 1 / λ 的指数律对于对于 

对于区间 a b 上的均匀分布,当 h < 3 时, 

对于其他常见的概率律,我们无法如此轻易地计算 Q ( h ) 。尽管如此,函数 Q ( h ) 仍然令人感兴趣,因为可以为其求得一个下界,该下界不依赖于所考虑的概率律。这个下界被称为切比雪夫不等式,以伟大的俄罗斯概率学家P. L. 切比雪夫(1821–1894)的名字命名。

切比雪夫不等式。对于任何分布函数 F ( ) 和任何 h 0  

 

注意,对于 h < 1 ,(4.5)式显然成立,因为此时右边为负。

我们针对具有概率密度函数 f ( ) 的连续概率律情形证明(4.5)式。对于一般的分布函数,可以用类似的方法(使用第6节介绍的斯蒂尔杰斯积分)证明。在连续情形下,不等式(4.5)可以写为

 

为证明(4.6)式,我们首先得到不等式

 

该不等式成立,因为方差 σ 2 等于(4.7)式右边两个积分之和,再加上非负量 m h σ m + h σ ( x m ) 2 f ( x ) d x 。现在,对于 x m h σ ,有 ( x m ) 2 h 2 σ 2 。类似地, x m + h σ 意味着 ( x m ) 2 h 2 σ 2 。在(4.7)式中用这些下界替换 ( x m ) 2 ,我们得到

 

(4.8)式中两个积分之和等于 1 Q ( h ) 。因此,(4.8)式意味着 1 Q ( h ) ( 1 / h 2 ) ,从而(4.5)式得证。

图4A 中,绘制了由(4.2) (4.3) (4.4) 式给出的函数 Q ( h ) ,以及由切比雪夫不等式给出的 Q ( h ) 的下界。

图 2.4.1

图 4A 。函数 Q ( h ) 的图像。

就数值随机现象的观测值 X 而言,切比雪夫不等式可以重新表述如下。此时,量 Q ( h ) 本质上等于 P [ | X m | h σ ] ;换言之, Q ( h ) 等于具有分布函数 F ( ) 的数值随机现象的一个观测值,落在以均值为中心、长度为 2 h 个标准差的区间内的概率。切比雪夫不等式可以重新表述为:对于任何 h > 0  

切比雪夫不等式(取 h = 4 )表明,一个观测值 X 落在均值四个标准差范围内的概率至少为0.9375,而一个观测值 X 落在均值十个标准差范围内的概率至少为0.99。因此,借助标准差 σ (进而借助方差 σ 2 ),我们可以给出一些区间,数值随机现象的观测值极有可能落在这些区间内。可以指出,正是这一事实使得方差成为衡量概率律在实直线上分布的概率质量的散布离散程度的度量。

切比雪夫不等式的推广。作为利用概率律的低阶矩来获得其分布函数不等式的实用工具,如果已知关于分布函数的各种额外事实,切比雪夫不等式可以得到改进。关于切比雪夫不等式的各种推广的综述性文章,可参阅H. J. Godwin的“On generalizations of Tchebychef’s inequality”,《美国统计协会杂志》,第50卷(1955年),第923–945页,以及C. L. Mallows的“Generalizations of Tchebycheff’s inequalities”,《皇家统计学会杂志 》,B辑,第18卷(1956年),第139–176页(含讨论)。

习题

4.1 。使用切比雪夫不等式确定一枚均匀硬币必须抛掷多少次,才能使观测到的正面次数与抛掷次数之比落在0.4和0.6之间的概率至少为0.90。

 

答案

250。

 

4.2 。假设在任意20分钟时段内到达某机场的飞机数量服从均值为100的泊松概率律。使用切比雪夫不等式确定在给定20分钟时段内到达的飞机数量介于80和120之间的概率的下界。

4.3 。考虑一组 N 个人玩“奇数人出局”游戏(即,他们重复进行这样一个试验:每个人独立地抛掷一枚均匀硬币,直到出现一个“奇数人”,即恰好有 N 枚硬币中的1枚正面朝上,或者恰好有 N 枚硬币中的1枚反面朝上)。对于(i) N = 4 ,(ii) N = 8 ,求结束游戏所需试验重复次数落在结束游戏所需平均重复次数的2个标准差范围内的精确概率。将你的答案与切比雪夫不等式给出的下界进行比较。

 

答案

(i) 1 ( 1 2 ) 4 = 0.9375 ;(ii) 1 ( 1 1 5 6 ) 47 1 ,切比雪夫下界为0.75。

 

4.4 。对于理论习题2.2中定义的帕累托分布,在 A = 1 r = 3 和4的情况下,计算并绘制函数 Q ( h ) 的图像,并将其与切比雪夫不等式给出的下界进行比较。