Microsoft PowerPoint - 09_10_RandomVariables.ppt

上节课内容概率理论第二章 : 随机变量概率公理及推论随机事件之间的关系 : 条件概率独立 / 条件独立贝叶斯公式本节课内容随机变量及其分布随机变量变换常见分布族多元随机向量的分布联合分布边缘分布条件分布独立

随机变量统计推断是与数据相关的随机变量就是将样本空间 / 随机事件与数据之间联系起来的纽带随机变量是一个映射 : Ω R, 将一个实数值 ( ω) 赋给一个试验的每一个输出 ω 例 2.2: 抛 10 次硬币, 令 (ω) 表示序列 ω 中正面向上的次数, 如当 ω = HHTHHTHHTT, 则 (ω) = 6

随机变量的概率描述事件的概率随机变量的概率描述给定一随机变量及实数子集 A, 定义 1( A) = { ω Ω, ( ω) A} 1 ({ ω ; ( ω) }) 1 ({ ω ; ( ω) }) P A = P A = P Ω A P = x = P x = P Ω = x 其中表示随机变量,x 表示可能的取值例 2.4: 抛 2 次硬币, 令表示正面向上的次数, 则 P = 0 = P TT = 1 4, P = 1 = P HT, TH = 1 2, P { } ( ) P { HH} ({ }) = 2 = = 1 4 ω P({ω}) (ω) x P(=x) TT 1/4 0 0 1/4 TH 1/4 1 1 1/2 HT 1/4 1 2 1/4 HH 1/4 2

随机变量的分布函数随机变量的累积分布函数 F : R [0,1] (cumulative distribution function, CDF) 定义为 = P ( ) F x x 有时记为 F CDF 是一个非常有用的函数 : 包含了随机变量的所有信息 CDF 的性质 : 略 ( 见书 ) 公式 3.7 假定有 CDF F, Y有 CDF G 如果 x, F( x) = G( x), 那么 A, 有 P A = P Y A 如果对任意 x有 F x = F x, 那么这两个随机变量和 Y同分布记为 = Y Y 这不意味着与 Y 相等, 而是在概率意义下相同 d

例 : 随机变量的 CDF 例 2.6: 公正地抛硬币 2 次, 令表示正面向上的次数, 则 P = 0= P = 2= 14, P = 1= 12, 则分布函数如下 : F CDF ( x) 0 x < 0 14 0 x < 1 = 34 1 x < 2 1 x 2 右连续非减函数对所有实数 x 都有定义虽然随机变量只取 0 1 2

离散型随机变量的概率函数离散型随机变量的概率函数 (probability function or probability mass function, pmf) 定义为 f x x = P( = ) 对所有的 x R, f x f ( x i) = 1 i 0 CDF 与 pmf 之间的关系为 : P F x = x = f x i x x i 有时记为 f

例 : 离散型随机变量的 pmf 例 2.10: 公正地抛硬币 2 次, 令表示正面向上的次数, 则 P( = 0= ) P( = 2) = 14, P( = 1) = 12, 则分布函数如下 : F ( x) 0 x < 0 14 0 x < 1 = 34 1 x < 2 1 x 2 概率函数为 : f ( x) 14 x = 0 12 x = 1 = 14 x = 2 0 otherwise

连续型随机变量的概率 ( 密度 ) 函数对连续型随机变量, 如果存在一个函数 f, 使得对所有的 x, f 0, 且对任意 a b 有 P b a< < b = f x dx 则函数 f 被称为概率密度函数 (probability density function, pdf) CDF 与 pdf 之间的关系 : x F x = P x = f t dt, P > x = 1 F x 注意 : 在所有可微的点 x, 则 a ' F f ( x) = F ( x) 1 是可能的 f x > P = x = 0 f x, x

例 : 连续型随机变量的 CDF 和 pmf 例 2.12: 设有 PDF: 1 for 0 x < 1 f ( x) = 0 otherwise 显然有 f x, f dx = 0 1 有该密度的随机变量为 (0,1) 上的均匀分布 :Uniform(0, 1), 即在 0 和 1 之间随机选择一个点其 CDF 为 : 0 x < 0 F ( x) = x 0 x 1 1 x > 1

分位函数 (quantile function) 令随机变量的 CDF 为 F,CDF 的反函数或分位函数 (quantile function) 定义为 1 F q = x F x > q 1 其中 [0,1] 若 F 严格递增并且连续, 则 F q 为一个唯一确定的实数 x, 使得 F x = q 1 F 为增函数 inf{ : } q 中值 (median): F 1 12 一个很有用的统计量, 对噪声比较鲁棒

随机变量的变换 : 老的随机变量, F ( x) Y: 新的随机变量, Y = r 离散 : Y P P f y = Y = y = r = y { ; } ( 1 x r x y P r ( y) ) = P = =

离散型随机变量的变换例 2.45: 假设令 Y = 2, 则 ( ) ( ) ( ) P = -1 = P = 1 = 1 4, P = 0 = 1 2, ( Y ) ( ), ( Y ) ( ) ( ) P = -1= P = 0 = 12 P = 1= P = -1+ P = 1= 12, 即 x f (x) y f Y (y) -1 1/4 0 1/2 0 1/2 1 1/2 1 1/4 Y 的取值比少, 因为该变换不是一一映射

连续型随机变量的变换 CDF 方法变换的三个步骤 1. 对每个 y, 计算集合 A = { x: r( x) y} 2. 计算 CDF 3. PDF 为 f y F y ' Y = Y y F ( y) = P( Y y) = P( r y) Y = P({ xrx ; y}) = A f y xdx

连续型随机变量的变换当 r 为单调增函数 / 减函数, 定义 r 的反函数 s= r 1, 则 f ( y) = f ( s( y)) Y ds( y) dy 当 Y 存在一一映射时, 上述结论仍可用 Jacobian 方法分区间 : 在每个区间内为单调函数, 可分区间利用上述结论

' 证明 : 用 CDF 方法, 先求 FY ( y ), 然后 f ( y) = F ( y) 1) P P F y = ( Y y) = ( r y) Y ( s( y) ) s( y) s( y) s y P, is increasing function = P( ), is decreasing function F ( s( y) ), s( y) is increasing function = 1 F ( s( y) ), s( y) is decreasing function ' 2) f ( y) = F ( y) Y Y ' ( F ( s( y) )), s( y) is increasing function = ' ( 1 F ( s( y) )), s( y) is decreasing function ds( y) f ( s( y) ), s( y) is increasing function dy = ds( y) f ( s( y) ), s( y) is decreasing function dy Y Y = f s( y) ds y dy

例 : 连续型随机变量的变换 x 例 2.46: f x = e x> x 则 F ( x) = P( x) = f ( s) ds= 1 e 令则, 0 Y = r = log y { y = : } A = { x:logx y} A x x e Y = P( ) = P(log ) F y Y y y = P( e ) = F e = 1 e y e fy y = ee y y y e 或直接用 Jacobian 方法 1 s y = r y = e, f y = f e e = e e 0 y y y y y e Y y x y

例 : 连续型随机变量的变换例 :[ 概率积分变换 ] 有连续 CDF, 定义随机变量 Y 为, 则 Y 为 [0,1] 上的均匀分布, 即 Y = F P( Y y) = y, 0 y 1 F 对随机数产生特别有用 (Chp2 第 15 题 )

证明 : Y = F, 0 y 1 F ( x) 定义 F 的反函数为分位函数 { } 1 F = inf x: F x y 1 F, 即 1.0 0.5 则 ( Y y) = ( F y) P P ( 1 F ( ) 1 F F ( y) ) = P ( F 1 为增函数 ) ( F 1 ( y) ) = P ( 右边图示 ) 1 ( ) = F F y ( F 的定义 ) = y ( F 的连续性 ) 0 x1 x2 x 假设 [ x1, x 2] 为 F 的平坦区域 x [ x, x ] 1 1 2 ( ) F F x = x ( ) = ( ) P x P x 1 概率不等式仍然成立 1

常见分布族离散型随机变量 [Ch2, p25] 均匀 (Uniform) 分布贝努利 (Bernoulli) 分布二项 (Binnomial) 分布超几何 (HyperGeometric) 分布几何 (Geometric) 分布泊松 (Possion) 分布连续型随机变量 [Ch2, p27] 均匀 (Uniform) 分布正态 (Normal) 分布 Gamma 分布 Beta 分布 2 χ 分布指数 (Exponential) 分布

常见分布族每个分布族 pdf/pmf 形式参数典型应用均值方差

正态分布亦称高斯分布, μ σ : 位置 (location) 参数 : 尺度 (scale) 参数 2 ~ N μσ, 如图像处理中的多尺度分析 2 1 ( x( x μ ) μ) ff( ( x) ) = exp 2 2 2πσ 2 2 σσ 2

正态分布最重要的分布之一在实际遇到的许多随机现象都服从或近似服从正态分布如考试成绩中心极限定理 : 随机样本的均值近似服从正态分布,..., 1 n 对任意 IID 样本, 则 n 2 σ N μ, n

标准正态分布 μ= 0, σ= 1 当时, 正态分布称为标准正态分布, 通常用 Z 表示服从标准正态分布的变量, 记为 Z ~ N( 0,1) pdf 和 CDF 分别记为 φ( z), Φ( z) 标准化变换 : 2 若 ~ N( μσ, ), 则 Z = ( μ) σ ~ N( 0,1) 2 若 Z ~ N( 0,1), 则 = μ+ σz ~ N μ, σ 正态分布的线性组合仍是正态分布 : 若是独立的, 则 n n n 2 i ~ N μi, σi i= 1 i= 1 i= 1 2 ~ N μ, σ, i= 1,2,.., n i i i

二元随机向量的联合分布 (, Y): 随机向量离散型随机变量的联合分布 : 令 Y 为一对离散型随机变量, 联合概率函数 (pmf) 定义为 (, ) = P( = 且 = ) = P( =, = ) f x y x Y y x Y y 联合概率分布函数 (CDF) 为 : FY, xy, = P xy, y

例 2.18: 对如下有两个随机变量的二元分布, 变量和 Y 取值为 0 1, 联合分布 =0 =1 Y=0 1/9 2/9 1/3 Y=1 2/9 5/9 2/3 则 f 1,1 = P = 1, Y = 1 = 4 9 1/3 2/3 1 边缘分布

二元随机向量的联合分布连续型随机变量的联合分布 : 令 Y 对一对连续型随机变量, 联合概率密度函数 (pdf) 定义为 f ( x, y) 0, x, y f 对任意集合 x, y dxdy = 1 联合概率分布函数 (CDF) 为 : A R R, P Y, A = f ( x, y) dxdy FY, ( xy, ) = P xy, y A

边缘分布离散型随机变量 : ( Y) 2.23 定义 : 如果, 有联合分布密度函数 f, 那么的边缘密度函数定义如下 : Y = P( = ) = P( =, = ) = (, ) ( 2.4) y = P( = ) = P( =, = ) = (, ) ( 2.5) x x Y, f x x x Y y f x y Y的边缘密度函数定义为 : f y Y y x Y y f x y y

边缘分布连续型随机变量 : 2.25 定义对连续型随机变量, 边缘密度函数是 : = (, ), 和 = (, ) ( 2.6) f x f x y dy f y f x y dx 相应的边缘分布函数分别标记为 F 和 F Y Y 联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布, 但反之通常不成立

独立 2.29 定义如果对于任意 A和 B满足以下条件, 则称两个随机变量和 Y是相互独立的, ( A, Y B) = ( A) ( Y B). ( 2.6) P P P 记为 Y 定理设与的联合对所有 2.30 Y PDF f, x, y, PDF 可以因式分解 Y, (, ) 当且仅当满足 f x y = f x f y 时, Y Y, Y

独立 2.33 定理设与 Y组成的范围是矩形 ( 可能无限大 ), 如果有函数 g和 h( 不必是概率密度函数 ) 满足 (, ) f x y =g x h y 则与 Y相互独立 2.34 例与 Y有联合概率密度 ( x+ 2 y ) > > 2e x 0 y 0 f ( x, y) 且 =, 0 otherwise 与 Y是 + + 的矩形域, g x = e h y = e x ( 0, ) ( 0, ) 当 2, (, ) 时, 有 f x y =g x h y, 因而, Y - -2y

随机变量之间的关系独立 Y f ( xy) = f ( x) f( y) 当且仅当 Y,, Y 不独立 : 随机变量之间的关系用条件分布描述条件分布 : f Y, ( xy, ) fy ( x y) = fy ( y) f ( x, y) = f ( x y) f ( y) = f ( y x) f ( x) Y, Y Y Y

条件分布离散型随机变量的条件概率函数 : ( y) 第一节课中随机事件的条件概率 : P( A B) = P P 2.35 定义 : 当 f > 0时, 条件概率函数定义为 Y ( = x, Y = y) P ( = ) ( xy, ) P f Y, fy ( x y) = P ( = x Y = y) = = Y y f y Y ( AB) ( B) 对连续型随机变量, 条件概率定义相同, 但解释不同

条件分布 f Y x y 给定变量 Y 时, 在上的概率分布对 Y 的每个可能取值, 对都定义有一个概率分布 f ( x y) 是一个概率分布, 满足概率分布的所有性质, 如 Y f Y fy x, y dy fy ( y) x y dx= = = 1 f ( y) f ( y) Y Y

例 : 条件分布 = 2.39 例设服从 Uniform 0,1, 当获得的值后, 生成 Y x Uniform x,1 那么 Y的边缘分布是什么? 首先注意到, 所以 Y f 1 0< x < 1 f ( x) = 0 其他 1 0< x< y< 1 fy ( y x) = 1 x 0 其他 1 0< x< y< 1 xy, = f y x f x= 1 x 0 其他 Y, Y Y的边缘分布是 dx 1 x y y 1-y, Y 0 0 1 = (, ) = = - = -log( 1-y ) ( 0 < y < 1) f y f x y dx du u

联合分布边缘分布与条件分布边缘分布与联合分布 : 条件分布与边缘分布联合分布 : f (, ), (, ) f x = f, Y x y dy fy y = f, Y x y dx Y ( x y) = Y, ( xy, ) ( y) 联合分布与条件分布边缘分布 : f f Y (, ) = ( ) = ( ) f xy f x y f y f y x f x Y, Y Y Y

条件概率链规则 (Chain Rule) f ( xy, ) = f( x y) f( y) 链规则或 (,, ) = (, ) (, ) f x y z f x y z f y z = (, ) ( ) f x y z f y z f z (,, ) = ( ) (, ) f x y z f x f y x f z x y

贝叶斯规则 f xy, = f x y f y f xy, = f y x f x 似然先验 f x y = f y x f x f y 贝叶斯规则后验

贝叶斯规则中的边缘化 f ( x y ) f ( y ) f ( x) 给定和, 推导经常使用贝叶斯规则的归一化因子 f ( x y) 通过边缘化, =? ( ) f ( y) f y x f x (, ) ( ) f y = f x y = f y x f x x 已知 x

边缘分布通过使用 (1) 边缘化和 (2) 链规则, 给定 f xy,, 可以计算 : f ( x) f ( y) f ( x y) f ( y x)

条件独立 ( 绝对 ) 独立 : Y f f x, y x y = f = f x f x y 给定 Y, 不会对增加任何信息条件独立 : 若在给定 Z 的情况下, 与 Y 条件独立, 则 (, ) = ( ) ( ) f x y z f x z f y z f ( x y, z) = f ( x z) 一旦已知 Z,Y 不会对提供额外的信息例 : P ( WetGrass Season, Rain) = P( WetGrass Rain)

联合概率联合概率 : f x1, x2,..., xn 定义了所有可能状态的概率二值变量的情况下有 2 n 项用 2 n 1 非二值变量? 个独立变量表示如果这些变量是独立的, 则 f ( x1, x2,..., xn) = f ( x1) f ( x2)... f ( xn) 对二值变量, 用 n 个独立变量表示非二值变量?

联合概率若有些变量是条件独立的话, 联合概率可以用少于 2 n 1 个变量表示例 : f ( wxyz,,, ) = f( w) f( x w) f( y wx, ) f( z wxy,, ) 但若 Y 和 W 在给定下独立, 且 Z 和 W 在给定 Y 下独立, 则 f ( w, x, y, z) = f ( w) f ( x w) f ( y x) f ( z y) 真实问题通常是这样的, 贝叶斯网络就是利用了条件独立的性质

链规则推广条件概率的定义 f x, x,..., x = f x x,..., x f x,..., x 1 2 n 1 2 n 2 n 递归定义 : (,,..., ) = (,..., ) (,..., )... ( ) f x x x f x x x f x x x f x x f x 1 2 n 1 2 n 2 3 n n 1 n n = ( ) (, )... (,..., ) f x f x x f x x x f x x x 1 2 1 3 1 2 n 1 n 1 对二值变量 2 n 1 2 4 2 n-1

多元随机向量的分布令随机向量 =,..., 1, 其中,..., k 1 k 为随机变量, 用 f ( x,..., 1 xk ) 表示的 pdf/pmf, 先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量, 如可以定义边缘分布条件分布等当随机向量,..., 1 k 互相独立时, 1,..., = k j f x x f x k j= 1 随机向量相互独立两两独立, 但反之不成立 j

IID(Independent Identically Distribution) 样本当,..., 1 n 互相独立且有相同的边缘分布 F 时, 记为,..., 1 ~ n F, 我们称,..., 1 n为独立同分布 ( Independent Identically Distribution, IID) 样本, 表示,..., 1 n是从相同分布独立抽样 / 采样, 我们也称,..., 1 n 是分布 F 的随机样本若 F 有密度 f, 也可记为,..., ~ 1 n f, 样本大小为 n 思考题 : 怎样对任意分布 F 进行采样 ( 得到多个独立同分布的样本 )?

常见多元分布多元二项分布多元正态分布

多元二项分布二项分布的多元变量版本 ~ Multinomial( n, p) n x1 x f ( x) = p1... p k k x... x 其中 1 k = ( 1,..., k), = n x 1 k j= 1 k p= p,..., p, p 0, p = 1 k j j j= 1 j 例 : 从箱子中共 k 中颜色的球, 为抽取到颜色 j 的概率, 共抽取 n 次, 令为颜色 j 出现的次数, 则 ~ Multinomial ( np, ) j p j

多元二项分布 Multinomial( n p ) 边缘分布 : 若 ~,, 其中 =,..., 1 k 且 p= ( p,..., 1 pk ), 则 j 的边缘分布为 Binomial n p (, j )

多元正态分布 Z 1 令 Z =..., 其中 Z 1,..., Zk N( 0,1) 且互相独立则 Z k 1 k 1 2 1 1 T f ( z) = exp exp k 2 z j = z z k 2 ( 2π) 2 j= 1 ( 2π) 2 Z 的协方差矩阵为单位矩阵 I, 记为 Z N 0, I

多元正态分布更一般地, ~ N μ, Σ 1 1 T 1 f x; μ, Σ = exp k 2 1 2 ( x μ) Σ ( x μ) ( 2π) det( Σ) 2 其中 det( ) 表示矩阵的行列式, E( ) = μ为均值向量, 协方差矩阵 V =Σ 为一个对称的正定矩阵

多元正态分布多元正态分布有如下性质 : 12 1 若 Z N( 0,1) 且 = μ +Σ, 则 ~ N( μ, Σ) 12 2 若 ~ N( μ, Σ ), 则 Σ ( μ) N( 0,1) ~ N( μ, Σ) 3 若,a 为与相同长度的向量, 则 a T ~ N a T μ, a T Σa T

Z (, ) 令, 求随机向量的变换 = r Y fz 1. 对每个 z, 计算集合 A = {( x, y): r( x, y) < z} z 2. 计算 CDF F ( z) = P( Z z) = P( r(, Y) z) z P({( x, y); rxy (, ) z}) f ( xydxdy, ) = = A z, Y 3. PDF 为 f z F z ' z = z 例 2.48

随机向量的变换 U= g Y V= g Y 令集合集合 1 2 且 A B 存在一一映射时, 可利用 Jacobian 方法计算定义反变换 1 2, 变换的 Jacobian 为 x x u v x y y x J = = y y u v u v u x (U,V) 的联合分布为 (, ), (, ) {(, ): Y (, ) 0} {(, ): (, ), (, ), (, ) } A= x y f x y > B = uv u= g xy v= g xy xy A 1 2 x = h ( u, v), y= h ( u, v) UV 思考题 : 求两个正态分布的和与乘积的分布 (, ) = (, ), (, ) Y f uv f h uv h uv J 1 2 f Z

下节课内容作业 : Chp2: 第 4 7 14 15 题下节课内容期望方差样本均值样本方差层次模型补充教材 [CB]p162-168