上节课内容 概率理论 第二章 : 随机变量 概率公理及推论 随机事件之间的关系 : 条件概率 独立 / 条件独立 贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布 边缘分布 条件分布 独立
随机变量 统计推断是与数据相关的 随机变量就是将样本空间 / 随 机事件与数据之间联系起来的纽带 随机变量是一个映射 : Ω R, 将一个实数值 ( ω) 赋给一个试验的每一个输出 ω 例 2.2: 抛 10 次硬币, 令 (ω) 表示序列 ω 中正面向上的次数, 如当 ω = HHTHHTHHTT, 则 (ω) = 6
随机变量的概率描述 事件的概率 随机变量的概率描述 给定一随机变量 及实数子集 A, 定义 1( A) = { ω Ω, ( ω) A} 1 ({ ω ; ( ω) }) 1 ({ ω ; ( ω) }) P A = P A = P Ω A P = x = P x = P Ω = x 其中 表示随机变量,x 表示 可能的取值 例 2.4: 抛 2 次硬币, 令 表示正面向上的次数, 则 P = 0 = P TT = 1 4, P = 1 = P HT, TH = 1 2, P { } ( ) P { HH} ({ }) = 2 = = 1 4 ω P({ω}) (ω) x P(=x) TT 1/4 0 0 1/4 TH 1/4 1 1 1/2 HT 1/4 1 2 1/4 HH 1/4 2
随机变量的分布函数 随机变量 的累积分布函数 F : R [0,1] (cumulative distribution function, CDF) 定义为 = P ( ) F x x 有时记为 F CDF 是一个非常有用的函数 : 包含了随机变量的所有信息 CDF 的性质 : 略 ( 见书 ) 公式 3.7 假定 有 CDF F, Y有 CDF G 如果 x, F( x) = G( x), 那么 A, 有 P A = P Y A 如果对任意 x有 F x = F x, 那么这两个随机变量 和 Y同分布记为 = Y Y 这不意味着 与 Y 相等, 而是在概率意义下相同 d
例 : 随机变量的 CDF 例 2.6: 公正地抛硬币 2 次, 令 表示正面向上的次数, 则 P = 0= P = 2= 14, P = 1= 12, 则分布函数如下 : F CDF ( x) 0 x < 0 14 0 x < 1 = 34 1 x < 2 1 x 2 右连续 非减函数 对所有实数 x 都有定义 虽然随机变量只取 0 1 2
离散型随机变量的概率函数 离散型随机变量的概率函数 (probability function or probability mass function, pmf) 定义为 f x x = P( = ) 对所有的 x R, f x f ( x i) = 1 i 0 CDF 与 pmf 之间的关系为 : P F x = x = f x i x x i 有时记为 f
例 : 离散型随机变量的 pmf 例 2.10: 公正地抛硬币 2 次, 令 表示正面向上的次数, 则 P( = 0= ) P( = 2) = 14, P( = 1) = 12, 则分布函数如下 : F ( x) 0 x < 0 14 0 x < 1 = 34 1 x < 2 1 x 2 概率函数为 : f ( x) 14 x = 0 12 x = 1 = 14 x = 2 0 otherwise
连续型随机变量的概率 ( 密度 ) 函数 对连续型随机变量, 如果存在一个函数 f, 使得对所有的 x, f 0, 且对任意 a b 有 P b a< < b = f x dx 则函数 f 被称为概率密度函数 (probability density function, pdf) CDF 与 pdf 之间的关系 : x F x = P x = f t dt, P > x = 1 F x 注意 : 在所有可微的点 x, 则 a ' F f ( x) = F ( x) 1 是可能的 f x > P = x = 0 f x, x
例 : 连续型随机变量的 CDF 和 pmf 例 2.12: 设 有 PDF: 1 for 0 x < 1 f ( x) = 0 otherwise 显然有 f x, f dx = 0 1 有该密度的随机变量为 (0,1) 上的均匀分布 :Uniform(0, 1), 即在 0 和 1 之间随机选择一个点 其 CDF 为 : 0 x < 0 F ( x) = x 0 x 1 1 x > 1
分位函数 (quantile function) 令随机变量 的 CDF 为 F,CDF 的反函数或分位函数 (quantile function) 定义为 1 F q = x F x > q 1 其中 [0,1] 若 F 严格递增并且连续, 则 F q 为一个唯一确定的实数 x, 使得 F x = q 1 F 为增函数 inf{ : } q 中值 (median): F 1 12 一个很有用的统计量, 对噪声比较鲁棒
随机变量的变换 : 老的随机变量, F ( x) Y: 新的随机变量, Y = r 离散 : Y P P f y = Y = y = r = y { ; } ( 1 x r x y P r ( y) ) = P = =
离散型随机变量的变换 例 2.45: 假设 令 Y = 2, 则 ( ) ( ) ( ) P = -1 = P = 1 = 1 4, P = 0 = 1 2, ( Y ) ( ), ( Y ) ( ) ( ) P = -1= P = 0 = 12 P = 1= P = -1+ P = 1= 12, 即 x f (x) y f Y (y) -1 1/4 0 1/2 0 1/2 1 1/2 1 1/4 Y 的取值比 少, 因为该变换不是一一映射
连续型随机变量的变换 CDF 方法 变换的三个步骤 1. 对每个 y, 计算集合 A = { x: r( x) y} 2. 计算 CDF 3. PDF 为 f y F y ' Y = Y y F ( y) = P( Y y) = P( r y) Y = P({ xrx ; y}) = A f y xdx
连续型随机变量的变换 当 r 为单调增函数 / 减函数, 定义 r 的反函数 s= r 1, 则 f ( y) = f ( s( y)) Y ds( y) dy 当 Y 存在一一映射时, 上述结论仍可用 Jacobian 方法 分区间 : 在每个区间内为单调函数, 可分区间利用上述结论
' 证明 : 用 CDF 方法, 先求 FY ( y ), 然后 f ( y) = F ( y) 1) P P F y = ( Y y) = ( r y) Y ( s( y) ) s( y) s( y) s y P, is increasing function = P( ), is decreasing function F ( s( y) ), s( y) is increasing function = 1 F ( s( y) ), s( y) is decreasing function ' 2) f ( y) = F ( y) Y Y ' ( F ( s( y) )), s( y) is increasing function = ' ( 1 F ( s( y) )), s( y) is decreasing function ds( y) f ( s( y) ), s( y) is increasing function dy = ds( y) f ( s( y) ), s( y) is decreasing function dy Y Y = f s( y) ds y dy
例 : 连续型随机变量的变换 x 例 2.46: f x = e x> x 则 F ( x) = P( x) = f ( s) ds= 1 e 令 则, 0 Y = r = log y { y = : } A = { x:logx y} A x x e Y = P( ) = P(log ) F y Y y y = P( e ) = F e = 1 e y e fy y = ee y y y e 或直接用 Jacobian 方法 1 s y = r y = e, f y = f e e = e e 0 y y y y y e Y y x y
例 : 连续型随机变量的变换 例 :[ 概率积分变换 ] 有连续 CDF, 定义随机变量 Y 为, 则 Y 为 [0,1] 上的均匀分布, 即 Y = F P( Y y) = y, 0 y 1 F 对随机数产生特别有用 (Chp2 第 15 题 )
证明 : Y = F, 0 y 1 F ( x) 定义 F 的反函数为分位函数 { } 1 F = inf x: F x y 1 F, 即 1.0 0.5 则 ( Y y) = ( F y) P P ( 1 F ( ) 1 F F ( y) ) = P ( F 1 为增函数 ) ( F 1 ( y) ) = P ( 右边图示 ) 1 ( ) = F F y ( F 的定义 ) = y ( F 的连续性 ) 0 x1 x2 x 假设 [ x1, x 2] 为 F 的平坦区域 x [ x, x ] 1 1 2 ( ) F F x = x ( ) = ( ) P x P x 1 概率不等式仍然成立 1
常见分布族 离散型随机变量 [Ch2, p25] 均匀 (Uniform) 分布 贝努利 (Bernoulli) 分布 二项 (Binnomial) 分布 超几何 (HyperGeometric) 分布 几何 (Geometric) 分布 泊松 (Possion) 分布 连续型随机变量 [Ch2, p27] 均匀 (Uniform) 分布 正态 (Normal) 分布 Gamma 分布 Beta 分布 2 χ 分布 指数 (Exponential) 分布
常见分布族 每个分布族 pdf/pmf 形式 参数 典型应用 均值 方差
正态分布 亦称高斯分布, μ σ : 位置 (location) 参数 : 尺度 (scale) 参数 2 ~ N μσ, 如图像处理中的多尺度分析 2 1 ( x( x μ ) μ) ff( ( x) ) = exp 2 2 2πσ 2 2 σσ 2
正态分布 最重要的分布之一 在实际遇到的许多随机现象都服从或近似服从正态分布 如考试成绩 中心极限定理 : 随机样本的均值近似服从正态分布,..., 1 n 对任意 IID 样本, 则 n 2 σ N μ, n
标准正态分布 μ= 0, σ= 1 当时, 正态分布称为标准正态分布, 通常用 Z 表示服从标准正态分布的变量, 记为 Z ~ N( 0,1) pdf 和 CDF 分别记为 φ( z), Φ( z) 标准化变换 : 2 若 ~ N( μσ, ), 则 Z = ( μ) σ ~ N( 0,1) 2 若 Z ~ N( 0,1), 则 = μ+ σz ~ N μ, σ 正态分布的线性组合仍是正态分布 : 若是独立的, 则 n n n 2 i ~ N μi, σi i= 1 i= 1 i= 1 2 ~ N μ, σ, i= 1,2,.., n i i i
二元随机向量的联合分布 (, Y): 随机向量 离散型随机变量的联合分布 : 令 Y 为一对离散型随机变量, 联合概率函数 (pmf) 定义为 (, ) = P( = 且 = ) = P( =, = ) f x y x Y y x Y y 联合概率分布函数 (CDF) 为 : FY, xy, = P xy, y
例 2.18: 对如下有两个随机变量的二元分布, 变量 和 Y 取值为 0 1, 联合分布 =0 =1 Y=0 1/9 2/9 1/3 Y=1 2/9 5/9 2/3 则 f 1,1 = P = 1, Y = 1 = 4 9 1/3 2/3 1 边缘分布
二元随机向量的联合分布 连续型随机变量的联合分布 : 令 Y 对一对连续型随机变量, 联合概率密度函数 (pdf) 定义为 f ( x, y) 0, x, y f 对任意集合 x, y dxdy = 1 联合概率分布函数 (CDF) 为 : A R R, P Y, A = f ( x, y) dxdy FY, ( xy, ) = P xy, y A
边缘分布 离散型随机变量 : ( Y) 2.23 定义 : 如果, 有联合分布密度函数 f, 那么 的边缘密度函数定义如下 : Y = P( = ) = P( =, = ) = (, ) ( 2.4) y = P( = ) = P( =, = ) = (, ) ( 2.5) x x Y, f x x x Y y f x y Y的边缘密度函数定义为 : f y Y y x Y y f x y y
边缘分布 连续型随机变量 : 2.25 定义对连续型随机变量, 边缘密度函数是 : = (, ), 和 = (, ) ( 2.6) f x f x y dy f y f x y dx 相应的边缘分布函数分别标记为 F 和 F Y Y 联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布, 但反之通常不成立
独立 2.29 定义如果对于任意 A和 B满足以下条件, 则称两个随机变量 和 Y是相互独立的, ( A, Y B) = ( A) ( Y B). ( 2.6) P P P 记为 Y 定理设与的联合对所有 2.30 Y PDF f, x, y, PDF 可以因式分解 Y, (, ) 当且仅当满足 f x y = f x f y 时, Y Y, Y
独立 2.33 定理设 与 Y组成的范围是矩形 ( 可能无限大 ), 如果有函数 g和 h( 不必是概率密度函数 ) 满足 (, ) f x y =g x h y 则 与 Y相互独立 2.34 例 与 Y有联合概率密度 ( x+ 2 y ) > > 2e x 0 y 0 f ( x, y) 且 =, 0 otherwise 与 Y是 + + 的矩形域, g x = e h y = e x ( 0, ) ( 0, ) 当 2, (, ) 时, 有 f x y =g x h y, 因而, Y - -2y
随机变量之间的关系 独立 Y f ( xy) = f ( x) f( y) 当且仅当 Y,, Y 不独立 : 随机变量之间的关系用条件分布描述 条件分布 : f Y, ( xy, ) fy ( x y) = fy ( y) f ( x, y) = f ( x y) f ( y) = f ( y x) f ( x) Y, Y Y Y
条件分布 离散型随机变量的条件概率函数 : ( y) 第一节课中随机事件的条件概率 : P( A B) = P P 2.35 定义 : 当 f > 0时, 条件概率函数定义为 Y ( = x, Y = y) P ( = ) ( xy, ) P f Y, fy ( x y) = P ( = x Y = y) = = Y y f y Y ( AB) ( B) 对连续型随机变量, 条件概率定义相同, 但解释不同
条件分布 f Y x y 给定变量 Y 时, 在 上的概率分布 对 Y 的每个可能取值, 对 都定义有一个概率分布 f ( x y) 是一个概率分布, 满足概率分布的所有性质, 如 Y f Y fy x, y dy fy ( y) x y dx= = = 1 f ( y) f ( y) Y Y
例 : 条件分布 = 2.39 例设 服从 Uniform 0,1, 当获得 的值后, 生成 Y x Uniform x,1 那么 Y的边缘分布是什么? 首先注意到, 所以 Y f 1 0< x < 1 f ( x) = 0 其他 1 0< x< y< 1 fy ( y x) = 1 x 0 其他 1 0< x< y< 1 xy, = f y x f x= 1 x 0 其他 Y, Y Y的边缘分布是 dx 1 x y y 1-y, Y 0 0 1 = (, ) = = - = -log( 1-y ) ( 0 < y < 1) f y f x y dx du u
联合分布 边缘分布与条件分布 边缘分布与联合分布 : 条件分布与边缘分布 联合分布 : f (, ), (, ) f x = f, Y x y dy fy y = f, Y x y dx Y ( x y) = Y, ( xy, ) ( y) 联合分布与条件分布 边缘分布 : f f Y (, ) = ( ) = ( ) f xy f x y f y f y x f x Y, Y Y Y
条件概率 链规则 (Chain Rule) f ( xy, ) = f( x y) f( y) 链规则 或 (,, ) = (, ) (, ) f x y z f x y z f y z = (, ) ( ) f x y z f y z f z (,, ) = ( ) (, ) f x y z f x f y x f z x y
贝叶斯规则 f xy, = f x y f y f xy, = f y x f x 似然 先验 f x y = f y x f x f y 贝叶斯规则 后验
贝叶斯规则中的边缘化 f ( x y ) f ( y ) f ( x) 给定 和, 推导 经常使用 贝叶斯规则的归一化因子 f ( x y) 通过边缘化, =? ( ) f ( y) f y x f x (, ) ( ) f y = f x y = f y x f x x 已知 x
边缘分布 通过使用 (1) 边缘化和 (2) 链规则, 给定 f xy,, 可 以计算 : f ( x) f ( y) f ( x y) f ( y x)
条件独立 ( 绝对 ) 独立 : Y f f x, y x y = f = f x f x y 给定 Y, 不会对 增加任何信息 条件独立 : 若在给定 Z 的情况下, 与 Y 条件独立, 则 (, ) = ( ) ( ) f x y z f x z f y z f ( x y, z) = f ( x z) 一旦已知 Z,Y 不会对 提供额外的信息 例 : P ( WetGrass Season, Rain) = P( WetGrass Rain)
联合概率 联合概率 : f x1, x2,..., xn 定义了所有可能状态的概率 二值变量的情况下有 2 n 项 用 2 n 1 非二值变量? 个独立变量表示 如果这些变量是独立的, 则 f ( x1, x2,..., xn) = f ( x1) f ( x2)... f ( xn) 对二值变量, 用 n 个独立变量表示 非二值变量?
联合概率 若有些变量是条件独立的话, 联合概率可以用少于 2 n 1 个变量表示 例 : f ( wxyz,,, ) = f( w) f( x w) f( y wx, ) f( z wxy,, ) 但若 Y 和 W 在给定 下独立, 且 Z 和 W 在给定 Y 下独立, 则 f ( w, x, y, z) = f ( w) f ( x w) f ( y x) f ( z y) 真实问题通常是这样的, 贝叶斯网络就是利用了条件独立的性质
链规则推广 条件概率的定义 f x, x,..., x = f x x,..., x f x,..., x 1 2 n 1 2 n 2 n 递归定义 : (,,..., ) = (,..., ) (,..., )... ( ) f x x x f x x x f x x x f x x f x 1 2 n 1 2 n 2 3 n n 1 n n = ( ) (, )... (,..., ) f x f x x f x x x f x x x 1 2 1 3 1 2 n 1 n 1 对二值变量 2 n 1 2 4 2 n-1
多元随机向量的分布 令随机向量 =,..., 1, 其中,..., k 1 k 为随机变量, 用 f ( x,..., 1 xk ) 表示 的 pdf/pmf, 先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量, 如可以定义边缘分布 条件分布等 当随机向量,..., 1 k 互相独立时, 1,..., = k j f x x f x k j= 1 随机向量相互独立 两两独立, 但反之不成立 j
IID(Independent Identically Distribution) 样本 当,..., 1 n 互相独立且有相同的边缘分布 F 时, 记为,..., 1 ~ n F, 我们称,..., 1 n为独立同分布 ( Independent Identically Distribution, IID) 样本, 表示,..., 1 n是从相同分布独立抽样 / 采样, 我们也称,..., 1 n 是分布 F 的随机样本 若 F 有密度 f, 也可记为,..., ~ 1 n f, 样本大小为 n 思考题 : 怎样对任意分布 F 进行采样 ( 得到多个独立同分布的样本 )?
常见多元分布 多元二项分布 多元正态分布
多元二项分布 二项分布的多元变量版本 ~ Multinomial( n, p) n x1 x f ( x) = p1... p k k x... x 其中 1 k = ( 1,..., k), = n x 1 k j= 1 k p= p,..., p, p 0, p = 1 k j j j= 1 j 例 : 从箱子中共 k 中颜色的球, 为抽取到颜色 j 的概率, 共抽取 n 次, 令 为颜色 j 出现的次数, 则 ~ Multinomial ( np, ) j p j
多元二项分布 Multinomial( n p ) 边缘分布 : 若 ~,, 其中 =,..., 1 k 且 p= ( p,..., 1 pk ), 则 j 的边缘分布为 Binomial n p (, j )
多元正态分布 Z 1 令 Z =..., 其中 Z 1,..., Zk N( 0,1) 且互相独立 则 Z k 1 k 1 2 1 1 T f ( z) = exp exp k 2 z j = z z k 2 ( 2π) 2 j= 1 ( 2π) 2 Z 的协方差矩阵为单位矩阵 I, 记为 Z N 0, I
多元正态分布 更一般地, ~ N μ, Σ 1 1 T 1 f x; μ, Σ = exp k 2 1 2 ( x μ) Σ ( x μ) ( 2π) det( Σ) 2 其中 det( ) 表示矩阵的行列式, E( ) = μ为均值向量, 协方差矩阵 V =Σ 为一个对称的正定矩阵
多元正态分布 多元正态分布有如下性质 : 12 1 若 Z N( 0,1) 且 = μ +Σ, 则 ~ N( μ, Σ) 12 2 若 ~ N( μ, Σ ), 则 Σ ( μ) N( 0,1) ~ N( μ, Σ) 3 若,a 为与 相同长度的向量, 则 a T ~ N a T μ, a T Σa T
Z (, ) 令, 求 随机向量的变换 = r Y fz 1. 对每个 z, 计算集合 A = {( x, y): r( x, y) < z} z 2. 计算 CDF F ( z) = P( Z z) = P( r(, Y) z) z P({( x, y); rxy (, ) z}) f ( xydxdy, ) = = A z, Y 3. PDF 为 f z F z ' z = z 例 2.48
随机向量的变换 U= g Y V= g Y 令集合 集合 1 2 且 A B 存在一一映射时, 可利用 Jacobian 方法计算 定义反变换 1 2, 变换的 Jacobian 为 x x u v x y y x J = = y y u v u v u x (U,V) 的联合分布为 (, ), (, ) {(, ): Y (, ) 0} {(, ): (, ), (, ), (, ) } A= x y f x y > B = uv u= g xy v= g xy xy A 1 2 x = h ( u, v), y= h ( u, v) UV 思考题 : 求两个正态分布的和与乘积的分布 (, ) = (, ), (, ) Y f uv f h uv h uv J 1 2 f Z
下节课内容 作业 : Chp2: 第 4 7 14 15 题 下节课内容 期望 方差 样本均值 样本方差 层次模型 补充教材 [CB]p162-168