【概率论】4

【概率论】4

原文地址1:https://www.face2ai.com/Math-Probability-4-7-Conditional-Expectation转载请标明出处

Abstract: 本文介绍期望的条件版本,也就是条件期望 Keywords: Expectation,Prediction,Law of Total Probability

条件期望

说到条件,我们前面反复说,所有概率都是条件的,随机变量也是,那么这几天我们学到的各种数字特征就应该也有条件版本,而我们学的这几个数组特征都是建立在期望的基础上,所以我们只要研究了条件期望,其他各特征的条件版本就是在此基础上的函数版本。 本文还有一个重要的部分就是prediction——预测,机器学习的除了发现事物本身内在的原理,另一个目的就是预测,而我们要预测的这个变量可能我们并不知其分布性质,而是知道另一个跟他有关系的随机变量的分布,那么我们就要用到全概率法则的条件版本了,具体我们来详细说清楚

条件期望的定义和基本性质 Definition and Basic Properties

在我们举个例子之前我们回忆一下,我们整章都在说的期望,一个随机变量的期望取决于分布,而且我们提到过,不同的随机变量有同样的分布的时候,期望是一样的,那么我们可以进一步说每个分布对应唯一的期望,但是我们知道分布是有条件版本的,所以对应的期望就是条件分布的期望,而期望这个数值在预测过程中满足最小M.S.E. 的要求,所以某些时候用条件期望来预测某个值的出现是合理的。

举个例子: 首先统计了某一个片区所有人家的家庭成员和手机持有数量,然后得到了下面这个表:

那么当我们随机选取这个调查中的某一家人,其中有n个家庭成员,那么他们的手机持有量是多少呢?

这个问题就是一个典型的预测问题。

Definition Conditional Expectation/Mean.Let

X

X

X and

Y

Y

Y be random variables such that the mean of

Y

Y

Y exists and is finite.The conditional expectation(or conditional mean) of

Y

Y

Y given

X

=

x

X=x

X=x is denoted by

E

(

Y

x

)

E(Y|x)

E(Y∣x) and is defined to be the expectation of the conditional distribution of

Y

Y

Y given

X

=

x

X=x

X=x .

这个定义就是条件期望或者条件均值的定义了,如果

Y

Y

Y 存在并且有限,条件

X

=

x

X=x

X=x 条件期望

E

(

Y

x

)

E(Y|x)

E(Y∣x)

举个例子 如果Y是一个连续随机变量,给定条件

X

=

x

X=x

X=x 其条件p.d.f.

g

2

(

y

x

)

g_2(y|x)

g2​(y∣x) 那么他的条件期望:

E

(

Y

x

)

=

y

g

2

(

y

x

)

d

y

............(1)

E(Y|x)=\int^{\infty}_{-\infty}yg_2(y|x)dy\text{............(1)}

E(Y∣x)=∫−∞∞​yg2​(y∣x)dy............(1) 同理如果Y是一个离散随机变量,给定条件

X

=

x

X=x

X=x 其条件p.d.f. 那么

g

2

(

y

x

)

=

All

y

y

g

2

(

y

x

)

..................(2)

g_2(y|x)=\sum_{\text{ All }y}yg_2(y|x)\text{..................(2)}

g2​(y∣x)= All y∑​yg2​(y∣x)..................(2)

当然上面这个定义对条件有一定要求,因为条件 X也是随机变量,所以其取值也有范围,比如有些情况下

f

1

(

x

)

=

0

f_1(x)=0

f1​(x)=0 这种情况就很尴尬了,不过也没关系,因为条件发生的概率都是0了,那么在此条件下再发生别的更是不可能,所以这种情况变得无关紧要;另一种尴尬就是

f

1

(

x

)

0

f_1(x)\neq 0

f1​(x)​=0 也就是条件是某个正常的值了,但是这时候Y可能不存在期望,或者期望是无穷的情况,这时条件期望未定义;

Definition Conditional Means as Random Variables.Let

h

(

x

)

h(x)

h(x) stand for the function of

x

x

x that is denoted

E

(

Y

x

)

E(Y|x)

E(Y∣x) in either (1) or (2).Define the symble

E

(

Y

X

)

E(Y|X)

E(Y∣X) to mean

h

(

X

)

h(X)

h(X) and call it the conditional mean of

Y

Y

Y given

X

X

X

想一下,我们前面给出了条件的具体取值,比如当给定

X

=

x

0

X=x_0

X=x0​ 的条件下,

Y

Y

Y 的期望是什么。如果我们不给定条件特定的值,那么条件变成一个变量,从微积分的角度来看求条件期望的公式如下

E

(

Y

X

=

x

)

=

Y

f

1

(

Y

X

=

x

)

d

y

E(Y|X=x)=\int^{\infty}_{-\infty}Yf_1(Y|X=x)dy

E(Y∣X=x)=∫−∞∞​Yf1​(Y∣X=x)dy 如果

X

X

X 也是变量那么这个两个变量的单积分表达式的结果就是个

X

X

X 的函数.

一个🌰 : 临床试验,一定数量的患者接受治疗,只有治愈和未治愈两种结果,假设

P

P

P 是大量试验的一个结果统计的成功比例,设

X

i

=

0

X_i=0

Xi​=0 为失败(未治愈)

X

i

=

1

X_i=1

Xi​=1 为治愈,并假设

X

1

,

X

2

,

,

X

n

X_1,X_2,\dots,X_n

X1​,X2​,…,Xn​ 之间在条件

P

=

p

P=p

P=p 之下独立,并有

P

r

(

X

i

=

1

P

=

p

)

=

p

Pr(X_i=1|P=p)=p

Pr(Xi​=1∣P=p)=p ,我们现在来计算X的条件P下的期望,因为

X

X

X 是参数为

p

n

p,n

p,n 的二项分布,所以

E

(

X

p

)

=

n

p

E(X|p)=np

E(X∣p)=np 以及

E

(

X

P

)

=

n

P

E(X|P)=nP

E(X∣P)=nP 后面我们会计算当我们已知X时如何求

P

P

P ,这就是预测问题了

注意,当给定条件

X

X

X 时的条件期望

E

(

Y

X

)

E(Y|X)

E(Y∣X) 是一个随机变量,有自己的分布;给定条件

X

=

x

X=x

X=x 时,条件概率

h

(

x

)

=

E

(

Y

x

)

h(x)=E(Y|x)

h(x)=E(Y∣x) 是一函数,这个函数与其他普通函数一样使用; 他们的联系是

X

X

X 有一定个概率等于

x

x

x 这时候,

E

(

Y

X

=

x

)

=

h

(

x

)

E(Y|X=x)=h(x)

E(Y∣X=x)=h(x) 按照函数

h

h

h 来完成计算。

接着我们提出条件版的全概率公式:

Theorem Law of Total Probability for Expectation.Let

X

X

X and Y be random variables such that Y has finite mean.Then

E

[

E

(

Y

X

)

]

=

E

(

Y

)

E[E(Y|X)]=E(Y)

E[E(Y∣X)]=E(Y)

证明: 假设X和Y是连续的随机变量并有一个连续的联合分布

E

[

E

(

Y

X

)

]

=

E

(

Y

x

)

f

1

(

x

)

d

x

=

y

g

2

(

y

x

)

f

1

(

x

)

d

y

d

x

\begin{aligned} E[E(Y|X)]&=\int^{\infty}_{-\infty}E(Y|x)f_1(x)dx\\ &=\int^{\infty}_{-\infty}\int^{\infty}_{-\infty}yg_2(y|x)f_1(x)dydx\\ \end{aligned}

E[E(Y∣X)]​=∫−∞∞​E(Y∣x)f1​(x)dx=∫−∞∞​∫−∞∞​yg2​(y∣x)f1​(x)dydx​ 又因为

g

2

(

y

x

)

=

f

(

x

,

y

)

/

f

1

(

x

)

g_2(y|x)=f(x,y)/f_1(x)

g2​(y∣x)=f(x,y)/f1​(x) 那么就有:

E

[

E

(

Y

X

)

]

=

y

f

(

x

,

y

)

d

y

d

x

=

E

(

Y

)

E[E(Y|X)]=\int^{\infty}_{-\infty}\int^{\infty}_{-\infty}yf(x,y)dydx=E(Y)

E[E(Y∣X)]=∫−∞∞​∫−∞∞​yf(x,y)dydx=E(Y) 证毕

证明第一步用到了函数的期望,谁是函数?我上面说啦,

h

(

x

)

=

E

(

Y

x

)

h(x)=E(Y|x)

h(x)=E(Y∣x) 可以当做函数使用,然后又用到了条件概率分布和边缘分布的关系,最后得到预料之内的结论。

接下来这个定理反应的是当给定条件

X

=

x

X=x

X=x 下的概率,和把

X

X

X 当做已知常数

x

x

x 是一致的.

Let

X

X

X and

Y

Y

Y be random variables,and let

Z

=

r

(

X

,

Y

)

Z=r(X,Y)

Z=r(X,Y) for some function r.The conditional distribution of

Z

Z

Z given

X

=

x

X=x

X=x is the same as the conditional distribution of

r

(

x

,

Y

)

r(x,Y)

r(x,Y) given

X

=

x

X=x

X=x

证明: 当X和Y有一个连续的联合分布:

E

(

Z

x

)

=

E

(

r

(

x

,

Y

)

x

)

=

r

(

x

,

y

)

g

2

(

y

x

)

d

y

E(Z|x)=E(r(x,Y)|x)=\int^{\infty}_{-\infty}r(x,y)g_2(y|x)dy

E(Z∣x)=E(r(x,Y)∣x)=∫−∞∞​r(x,y)g2​(y∣x)dy 根据前面关于期望的全概率法则,我们有:

E

{

E

[

r

(

X

,

Y

)

X

]

}

=

E

[

r

(

X

,

Y

)

]

E\{E[r(X,Y)|X]\}=E[r(X,Y)]

E{E[r(X,Y)∣X]}=E[r(X,Y)] 证毕

上面这个定理是说当某个随机变量

Z

Z

Z 是另外两个随机变量

X

,

Y

X,Y

X,Y 的某个函数

r

r

r 结果,那么当其中一个随机变量

X

X

X 或者

Y

Y

Y 被给定为条件的时候

E

(

Z

X

=

x

)

=

E

[

r

(

x

,

Y

)

X

=

x

]

E(Z|X=x)=E[r(x,Y)|X=x]

E(Z∣X=x)=E[r(x,Y)∣X=x]

作为期望的第一步扩展,我们这里给出条件方差的定义,当然也有条件距,条件偏度,条件m.g.f,多变量的条件协方差等,篇幅时间都有限,不可能都一一练习,大家要多看例子,不然后面数理统计容易懵逼

Defintion Conditional Variance.For every given value

x

x

x ,let

V

a

r

(

Y

x

)

Var(Y|x)

Var(Y∣x) denote the variance ofthe conditional distribution of

Y

Y

Y given

X

=

x

X=x

X=x .That is

V

a

r

(

Y

x

)

=

E

{

[

Y

E

(

Y

x

)

]

2

x

}

Var(Y|x)=E\{[Y-E(Y|x)]^2|x\}

Var(Y∣x)=E{[Y−E(Y∣x)]2∣x}

这就是我们说当给定

X

=

x

X=x

X=x 时

Y

Y

Y 的条件期望是

V

a

r

(

Y

x

)

Var(Y|x)

Var(Y∣x)

条件期望用来预测 Prediction

上面我们临床试验的例子描述了一种场景,并说如果在一个随机样本空间

n

n

n (足够大) 中有

X

X

X 个成功治愈的样例,那么我们怎么估计

P

P

P 这就是一个非常接近数理统计的例子,或者说这就是一个统计了题目。

Theorem The prediction

d

(

X

)

d(X)

d(X) that minimizes

E

{

[

Y

d

(

X

)

]

2

}

E\{[Y-d(X)]^2\}

E{[Y−d(X)]2} is

d

(

X

)

=

E

(

Y

X

)

d(X)=E(Y|X)

d(X)=E(Y∣X)

证明过程略复杂,当时我们还是详细的写一下,毕竟后面统计要用到。在证明之前我们先仔细看看这个定理说的到底是个什么事,我们想要预测某个随机变量

X

X

X 的某个函数(

d

d

d )的结果,误差函数被定义为

[

Y

d

(

X

)

]

2

[Y-d(X)]^2

[Y−d(X)]2 其结果是

d

(

X

)

=

E

(

Y

X

)

d(X)=E(Y|X)

d(X)=E(Y∣X) 误差函数或者损失函数是机器学习里的名词,这里指的就是类似于前面 M.S.E. 和M.A.E. 的一个指标,最小化时有最优结果。 证明: 我们证明X有一个连续分布,离散分布与连续情况基本一致。

d

(

X

)

=

E

(

Y

X

)

d(X)=E(Y|X)

d(X)=E(Y∣X) ,

d

(

X

)

d'(X)

d′(X) 是一个任意的预测结果,我们只需要证明

E

{

[

Y

d

(

X

)

]

2

}

E

{

[

Y

d

(

X

)

]

2

}

E\{[Y-d(X)]^2\}\leq E\{[Y-d'(X)]^2\}

E{[Y−d(X)]2}≤E{[Y−d′(X)]2} 成立根据

E

{

E

[

r

(

X

,

Y

)

X

]

}

=

E

[

r

(

X

,

Y

)

]

E\{E[r(X,Y)|X]\}=E[r(X,Y)]

E{E[r(X,Y)∣X]}=E[r(X,Y)] 有

Z

=

[

Y

d

(

X

)

]

2

Z'=[Y-d'(X)]^2

Z′=[Y−d′(X)]2 并且

h

(

x

)

=

E

(

Z

x

)

h'(x)=E(Z'|x)

h′(x)=E(Z′∣x) 可以把1中的不等式转化成连续函数的期望的形式

h

(

x

)

f

1

(

x

)

d

x

h

(

x

)

f

1

(

x

)

d

x

\int h(x)f_1(x)dx\leq \int h'(x)f_1(x)dx

∫h(x)f1​(x)dx≤∫h′(x)f1​(x)dx所以我们就把上面要证明的目标转换成了证明

h

(

x

)

h

(

x

)

h(x)\leq h'(x)

h(x)≤h′(x)那么我们如果证明了

E

{

[

Y

d

(

X

)

]

2

x

}

E

{

[

Y

d

(

X

)

]

2

x

}

E\{[Y-d(X)]^2|x\}\leq E\{[Y-d'(X)]^2|x\}

E{[Y−d(X)]2∣x}≤E{[Y−d′(X)]2∣x} 就相当于证明了3假定4中的

x

x

x 为常数,根据MSE很容易证明结论

证毕

这个证明有点粗糙,但是大概框架给出了,大家需要查阅这两天的博客就能得出完成的证明过程了。

M.S.E. 还和

V

a

r

Var

Var 有关系:当我们预测在给定条件

X

=

x

X=x

X=x 的条件下预测

Y

Y

Y 为

E

(

Y

x

)

E(Y|x)

E(Y∣x) 时其M.S.E就是

V

a

r

(

Y

x

)

Var(Y|x)

Var(Y∣x) 如果在

X

X

X 未知的情况下最佳预测就是

E

[

Y

]

E[Y]

E[Y]

Theorem Law of Total Probability for Variance.If

X

X

X and

Y

Y

Y are arbitrary random variables for which the necessary expectations and variances exist,then

V

a

r

(

X

)

=

E

[

V

a

r

(

Y

X

)

]

+

V

a

r

[

E

(

Y

X

)

]

Var(X)=E[Var(Y|X)]+Var[E(Y|X)]

Var(X)=E[Var(Y∣X)]+Var[E(Y∣X)]

总结

本文我们介绍了条件版本的期望,然后扩展到了条件版本的方差,以及预测的相关知识。下一篇开始介绍各种各样的分布。 待续

相关推荐

岳飞和鳌拜被称为“少保”,这个“少保”到底是什么意思?
《英魂之刃口袋版》七周年庆盛大开启,年末大戏来袭
bat365app手机版下载

《英魂之刃口袋版》七周年庆盛大开启,年末大戏来袭

📅 07-12 👁️ 2339
gtx550ti现在还能用吗
game365备用网址

gtx550ti现在还能用吗

📅 07-09 👁️ 7388