随机变量测量信噪比

在科学与工程中,一个至关重要的问题是:在什么条件下,随机变量 X 的观测值可以与其均值 E [ X ] 等同?我们在第5节中已经看到,如果 X 是大量独立同分布随机变量的算术平均值,那么对于任意预先给定的距离 ϵ X 的一个观测值将以很高的概率落在 E [ X ] ϵ 范围内。在本节中,我们将讨论随机变量的观测值可以与其均值等同的一些条件。

如果 X 具有有限均值 E [ X ] 和方差 σ 2 [ X ] ,那么 X 的一个观测值以高概率落在其均值的预先给定距离 ϵ 内的条件,可以通过切比雪夫不等式得到:对于任意 ϵ > 0 由 (6.1) 可得出以下结论:

如果可以假设 X 近似服从正态分布,那么 由 (6.3) 可得出以下结论: 作为衡量 X 的观测值与其均值 E [ X ] 接近程度的一种度量,人们通常不使用绝对偏差 | X E [ X ] | ,而是使用相对偏差 并假设 E [ X ] 0

切比雪夫不等式可以用相对偏差重新表述:对于任意 δ > 0 由 (6.6) 可得出以下结论:

类似地,如果 X 近似服从正态分布,

从上述不等式,我们对于具有非零均值和有限方差的随机变量 X 得出以下基本结论。

为了使 X 作为 E [ X ] 的估计值的百分比误差以高概率较小,充分条件是比值 足够大。(6.9) 中的量被称为随机变量 X 测量信噪比1

随机变量 X 的测量信噪比必须多大,才能使其观测值 X 成为其均值的一个良好估计?通过 (6.7) 和 (6.8),可以得到这个问题的各种答案。

例如,如果希望 那么测量信噪比必须近似满足 若切比雪夫不等式适用若正态近似适用 

表6A给出了各种随机变量的测量信噪比。可以看出,对于所给出的大多数随机变量,测量信噪比与某个参数的平方根成正比。例如,假设对某一时间间隔内由放射源发射的粒子数进行计数。发射的粒子数服从参数为 λ 的泊松概率律,其值未知。如果已知 λ 的真实值非常大,那么观测到的发射粒子数 X 就是 λ 的一个良好估计,因为 X 的测量信噪比为 λ

X  的概率律 E [ X ]   σ 2 [ X ]   ( E [ X ] σ [ X ] ) 2  
泊松分布,参数为 λ > 0   λ   λ   λ  
二项分布,参数为 n p   n p   n p ( 1 p )   n p 1 p  
几何分布,参数为 p   1 p   q p 2   1 q  
区间 a b 上的均匀分布 a + b 2   1 12 ( b a ) 2   3 ( b + a b a ) 2  
正态分布,参数为 m σ   m   σ 2   ( m σ ) 2  
指数分布,参数为 λ   1 λ   1 λ 2   1  
χ 2 分布,自由度为 n n   2 n   n 2  
F 分布,自由度为 n 1 , n 2 n 2 n 2 2   n 2 > 4 ,则为 2 n 2 2 ( n 1 + n 2 2 ) n 1 ( n 2 2 ) 2 ( n 2 4 )   n 2 > 4 ,则为 n 1 ( n 2 4 ) 2 ( n 1 + n 2 2 )  
表6A. 服从各种概率律的随机变量的测量信噪比

第10章将证明,表6A中的许多随机变量在其测量信噪比非常大的情况下,近似服从正态分布。

例6A. 理想气体的密度。理想气体可视为 n 个分子随机分布在体积 V 中的集合。包含在 V 中的子体积 v 内的气体密度是一个随机变量 d ,由 d = N m / v 给出,其中 m 是一个气体分子的质量, N 是体积 v 中的分子数。由于假设 n 个分子中的每一个都有独立的概率 v / V 位于子体积 v 中,因此 v 中的分子数 N 服从二项概率律,其均值为 E [ N ] = n v / V ,方差为 σ 2 [ N ] = n p q ,其中我们设 p = v / V q = 1 p 。那么密度的均值为 E [ d ] = n m / V 。在谈及体积 v 中的气体密度时,物理学家通常指的是平均密度。问题自然产生:在什么情况下,真实密度 d 相对于平均密度 E [ d ] 的相对偏差 ( d E [ d ] ) / E [ d ] 会落在预先给定的百分比误差 δ 之内?更具体地说, n , m v V 必须取何值,才能使

 

其中 δ η 是预先给定的正数。根据切比雪夫不等式

 

因此,如果量 n , m , v V 满足

 

那么 (6.12) 成立。由于 n 的巨大数量级(约为每 cm 3 10 20 量级),只要 ( v / V ) 不是太小,可以预期 (6.14) 对于比如 η = δ = 10 5 是满足的。在这种情况下,谈论 v 中的气体密度是有意义的,即使 v 中的分子数并非固定而是波动的。然而,如果 v / V 非常小,波动就会变得足够显著,而将密度等同于平均密度的通常密度概念就失去了意义。小体积中的“密度涨落”实际上可以通过实验检测到,因为它们会引起足够短波长的散射。

例6B. n 定律。物理学家埃尔温·薛定谔在以下陈述中指出(《生命是什么》,剑桥大学出版社,1945年,第16页):“……任何物理定律中预期的不准确程度,即所谓的 n 定律。物理学和物理化学定律的不准确性在一个可能的相对误差范围内,其数量级为 1 / n ,其中 n 是共同作用以产生该定律的分子数。”根据 n 定律,薛定谔得出结论:为了使物理学和化学定律足以解释支配生物体行为的规律,该生物体的生物学相关过程必须涉及极大量原子的协同作用,因为只有在这种情况下,物理定律才会成为精确的定律。由于可以证明存在“小得令人难以置信的原子团,它们太小而无法显示精确的统计规律,却在生物体内非常有序和规律的事件中扮演着主导角色”,薛定谔推测,可能无法用基于“从无序中产生有序的统计机制”的普通物理定律来解释生命。我们在此给出 n 定律的一个数学表述。如果 X 1 , X 2 , , X n 是独立同分布于随机变量 X 的随机变量,那么和 S n = X 1 + X 2 + + X n 以及样本均值 M n = S n / n 的测量信噪比由下式给出

E [ S n ] σ [ S n ] = E [ M n ] σ [ M n ] = n E [ X ] σ [ X ] .  

换言之,对随机变量 X 进行 n 次重复独立测量的和或平均值,其测量信噪比的数量级为 n

例6C. 理想气体的能量能否既是常数又是服从 χ 2 分布的随机变量?在第7章的例9H中已证明,如果理想气体的状态是一个随机现象,其概率律由吉布斯正则分布给出,那么气体的能量 E 是一个服从自由度为 3 N χ 2 分布的随机变量,其中 N 是组成气体的粒子数。这是否意味着,如果气体具有恒定能量,其作为所有可能速度空间中一点的状态就不能被视为服从吉布斯正则分布?这个问题的答案是否定的。从实际角度来看,如果自由度数非常大,那么将气体的能量 E 同时视为一个常数和一个服从 χ 2 分布的随机变量并不矛盾,因为此时 E 的测量信噪比(根据表6A,等于 ( 3 N / 2 ) 1 2 )也非常大。

“信噪比”这一术语起源于通信理论。随机变量 X 的均值 E [ X ] 被视为人们试图接收的信号(例如,在无线电接收器中)。然而,实际接收到的是 X 。期望值 E [ X ] 与接收值 X 之间的差异被称为噪声。存在的噪声越少,人们就越能准确地接收信号。作为信号强度相对于噪声强度的一种度量,人们采用由 (6.9) 定义的信噪比。信噪比越高,观测值 X 作为期望值 E [ X ] 的估计就越准确。

Any time a scientist makes a measurement he is attempting to obtain a signal in the presence of noise or, equivalently, to estimate the mean of a random variable. The skill of the experimental scientist lies in being able to conduct experiments that have a high measurement signal-to-noise ratio. However, there are experimental situations in which this may not be possible. For example, there is an inherent limit on how small one can make the variance of measurements taken with electronic devices. This limit arises from the noise or spontaneous current fluctuations present in such devices (see example 3D of Chapter 6). To measure weak signals in the presence of noise (that is, to measure the mean of a random variable with a small measurement signal-to-noise ratio) one should have a good knowledge of the modern theories of statistical inference.

On the one hand, the scientist and engineer should know statistics in order to interpret best the statistical significance of the data he has obtained. On the other hand, a knowledge of statistics will help the scientist or engineer to solve the basic problem confronting him in taking measurements: given a parameter θ , which he wishes to measure, to find random variables X 1 , X 2 , , X n , whose observed values can be used to form estimates of θ that are best according to some criteria.

Measurement signal-to-noise ratios play a basic role in the evaluation of modern electronic apparatus. The reader interested in such questions may consult J. J. Freeman, Principles of Noise , Wiley, New York, 1958, Chapters 7 and 9.

Exercises

6.1. A random variable X has an unknown mean and known variance 4. How large a random sample should one take if the probability is to be at least 0.95 that the sample mean will not differ from the true mean E [ X ] by (i) more than 0.1, (ii) more than 10 % of the standard deviation of X , (iii) more than 10 % of the true mean of X , if the true mean of X is known to be greater than 10.

 

Answer

(i) n 1537 ; (ii) n 385 ; (iii) n 16 .

 

6.2. Let X 1 , X 2 , , X n be independent normally distributed random variables with known mean 0 and unknown common variance σ 2 . Define

S n = 1 n ( X 1 2 + X 2 2 + + X n 2 ) .  

Since E [ S n ] = σ 2 , S n might be used as an estimate of σ 2 . How large should n be in order to have a measurement signal-to-noise ratio of S n greater than 20? If the measurement signal-to-noise ratio of S n is greater than 20, how good is S n as an estimate of σ 2 ?

6.3. Consider a gas composed of molecules (with mass of the order of 10 24 grams and at room temperature) whose velocities obey the MaxwellBoltzmann law (see exercise 1.15 ). Show that one may assume that all the molecules move with the same velocity, which may be taken as either the mean velocity, the root mean square velocity, or the most probable velocity.

 

Answer

E [ v ] / σ [ v ] 10 5  

 


  1. The measurement signal-to-noise ratio of a random variable is the reciprocal of the coefficient of variation of the random variable. (For a definition of the latter, see M. G. Kendall and A. Stuart, The Advanced Theory of Statistics, Griffin, London, 1958, p. 47.) ↩︎