多维随机变量的随机概率分析及其应用

珠海强方体育文化用品有限公司

2007 年1月

 

引言:随机概率数学中经常要解决的一个问题是对多维随机变量以某些数学函数所给出的因变量进行随机概率分析。这是一个已经相当成熟的数学领域。但它的应用价值以及其所引伸的一些深刻涵义似乎没有被广泛认识。本文为此总结出其中的一些有实用价值的理论分析以及数值分析方法。

(非得和体育有点关系)实例:预测2008年奥运中国男子田径4x100米接力赛,按正常发挥,每个人最快跑9.60秒,最慢跑9.80秒。估计4人总成绩最快和最慢分别是多少?别以为问题很简单!不是简单乘以4就可以交待了!

项目估算实例:某软件公司接到一个开发项目,需要进行成本及进度等指标的估算。开发团队把整个项目分解成树状结构的子任务集合。各项目成员通过分析给出各个子任务的概率估计。如:某一子任务所需要的人力最乐观的估计是8个人日,最悲观的估计是11个人日。通过子任务的概率分布假定,可以分析出总体项目所需要的总人力的概率分布。这一分析结果对于开发团队有效管理该开发任务提供一个重要的参考依据。

本文理论分析以及数值分析方法的数学表述如下:

定义(大意):设Xi (i=1,…,n, n>0) 为一组随机变量,其联合分布函数

F(x1, x2, …, xn) = P{ X1≤x1, X2≤x2, …, Xn≤xn }

若有非负函数f(x1, x2, …, xn)使得F()是f()的重积分,则f()为该组随机变量联合概率密度函数

若F(x1, x2, …, xn)= FX1(x1) FX2(x2)…FXn(xn), 即联合分布函数等于边缘分布函数之积,则该组随机变量相互独立

设Yi (i=1,…,m, m>0) 为另一组随机变量,若联合分布函数F(),F1(),F2()满足

F(x1, x2, …, xn,y1, y2, …, ym) = F1(x1, x2, …, xn) F2(y1, y2, …, ym)

则两组随机变量相互独立

多维随机变量概率计算方法: 设Xi (i=1,…, n, n>0) 为一组相互独立的多维随机变量,设pi(Xi)为Xi的概率分布函数,则针对特定的变量组合{X1, X2, …, Xn}发生的概率为:

p(X1, X2, …, Xn) = ∏i pi(Xi)

设p(X)为因变量X的概率分布函数,则它是p(X1, X2, …, XN)对满足函数关系X = f(X1, X2, …, XN)的因变量空间{X1, X2, …, XN}的积分,即:

p(t) = Σ{X1, X2, …, Xn} p(X1, X2, …, Xn)|X = f(X1, X2, …, Xn)

多维随机变量线性函数的正态分布原理:设X1, X2,…, Xn为相互独立的多维随机变量,且服从正态分布

Xi~ N(μi,σi2) (i=1,2,…,n)

a1X1+a2X2+…+anXn+b ~ N(a1μ1+a2μ2+…+anμn+b, a12σ12+a22σ22+…+an2σn2)

即服从正态分布的相互独立的随机变量的线性函数仍然服从正态分布。

非相互独立的多维随机变量的概率分析方法:如果一组多维随机变量不为相互独立,则可以把它分离为若干个独立随机变量组。每个变量组内的随机变量可能是不为相互独立,但其概率分析较为容易。根据独立随机变量组之间的联合概率密度函数分析公式得出总体概率分布结果。

契比雪夫大数定律(Chebyshev Large Number Theorem): 设随机变量序列 X1, X2,…, Xn 相互独立,存在数学期望值及方差,且方差有上界,

E(Xi) = μi, D(Xi) = σi2, σi2 ≤ c (i=1,2,…,n)

则随机变量

Yn = (X1 + X2 + … + Xn)/n

当n趋于无穷时,依概率收敛于他们的平均数学期望值

μ = (μ1 + μ2 + … + μn)/n

 大数定律的涵义:多次测量的平均值接近真值。

林德伯格-莱维中心极限定理(Lindeberg-Levy Central Limit Theorem): 设随机变量序列X1, X2,…, Xn相互独立,服从同一分布,存在数学期望值及方差μ,σ2,则随机变量 Yn = X1 + X2 + … + Xn 标准化后,当n趋于无穷时,极限分布为标准正态分布。

中心极限定理的涵义:即当一个随机变量由大量相互独立的随机因素影响,而每一个因素在总影响中的作用不大时,这种随机变量一般都服从正态分布。

计算分析:通过电脑程序对各种典型的数据进行分析,可以总结出一些有意思的特征。

如下图给出10个概率密度为三角分布的随机变量相加的概率密度分布,以及和简单三角分布的结果的比较。可以得出:

1)总体概率分布趋向于有正态分布的曲线特征。

2)概率估算可以比简单估算精确度提高3倍左右。相应的也可以得到趋势分析的一些数据:对于组合个数为5,10,20,40,精确度分别提高2,3,4,5倍左右。

 

应用案例:由John, Bruce, Andrew, Toby, George和 Leon 6个人组成的项目组要完成一项任务。他们把项目分割成6个子任务,给出完成每个任务所需最小和最大天数的估计,因而得出平均天数及偏差。总任务平均天数为所有任务平均天数的总和。总偏差按简单分布为所有任务偏差的总和

DS = D1 + D2 + D3 + D4 + D5 + D6

而按概率分布为所有任务偏差的方根。

DP = SQRT(D1**2 + D2**2 + D3**2 + D4**2 + D5**2 + D6**2)

按概率分布得出的偏差小于按简单分布得出的值。计算结果得出, DS = 19天,DP = 8.19天。

任务

负责人

最小

最大

平均

偏差D

任务1

John

8

12

10

4

任务2

Bruce

11

16

13.5

5

任务3

Andrew

7

9

8

2

任务4

Toby

12

15

13.5

3

任务5

George

9

11

10

2

任务6

Leon

7

10

8.5

3

简单分布S

54

73

63.5

19

概率分布P

59.41

67.59

63.5

8.19

从数学上可以预期,子任务分解越细,总任务概率分布越集中,即估算越准确。假设每个字任务的偏差相同为D,则 DS = n*D, DP = SQRT(n)*D = DS/SQRT(n)

这里所谓最小和最大值不是绝对意义上的,而是概率意义上的。比如我们可以定义最小和最大值为相对于10%的信心度,即

P{天数≤最小值} = 10%, P{天数≤最大值} = 90%

相应的,DP也是概率意义上相对于10%信心度的。

根据以上的数学分析,我们可以解释为什么相当多的项目估算都过于乐观,而实际结果通常会超出估算值。如果子任务估计是以最小值的形式给出,而总任务的最小值是以简单分布而不是概率分布的形式算出来,那么所得的最小值就会过于乐观,或者说它所对应的信心度实际上远小于子任务的信心度。

作为项目经理,John要求每一位项目成员给出概率估算,除了基于精确估算的需要之外,在实际执行过程中也要求项目成员履行责任,不至于出入太大。这样有助于项目的定量控制及管理。有些项目成员基于各种原因或借口,不愿意给出确定性的估计,但项目经理有理由可以不接受拒绝概率估计要求的借口。

 

(C) 1992 - 2007珠海强方体育文化用品有限公司 版权所有