年 6 月 29 日第 13 章深度生成模型 z y x (a) 带隐变量的生成模型 x (b) 带类别的生成模型 图 13.1 生成模型 13.1 概率生成模型 生成模型一般具有两个基本功能 : 密度估计和生成样本 密度估计给定一组数据 D = {x (i) },

Size: px
Start display at page:

Download "年 6 月 29 日第 13 章深度生成模型 z y x (a) 带隐变量的生成模型 x (b) 带类别的生成模型 图 13.1 生成模型 13.1 概率生成模型 生成模型一般具有两个基本功能 : 密度估计和生成样本 密度估计给定一组数据 D = {x (i) },"

Transcription

1 第 13 章 深度生成模型 我不能创造的东西, 我就不了解 理查德 菲利普 费曼 概率生成模型, 简称生成模型 (Generative Model), 是概率统计和机器学习中的一类重要模型, 指一系列用于随机生成可观测数据的模型 假设在一个连续的或离散的高维空间 X 中, 存在一个随机向量 X 服从一个未知的数据分布 p r (x), x X 生成模型是根据一些可观测的样本 x (1), x (2),, x (N) 来学习一个参数化的模型 p θ (x) 来近似未知分布 P r (X), 并可以用这个模型来生成一些样本, 使得 生成 的样本和 真实 的样本尽可能地相似 生成模型的应用十分广泛, 可以用来不同的数据进行建模, 比如图像 文本 声音等 比如图像生成, 我们将图像表示为一个随机向量 X, 其中每一维都表示一个像素值 假设自然场景的图像都服从一个未知的分布 p r (x), 希望通过一些观测样本来估计其分布 高维随机向量一般比较难以直接建模, 需要通过一些条件独立性来简化模型 但是, 自然图像中不同像素之间的存在复杂的依赖关系 ( 比如相邻像素的颜色一般是相似的 ), 很难用一个明确的图模型来描述其依赖关系, 因此直接建模 p r (x) 比较困难 深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布 p r (x) 假设一个随机向量 Z 服从一个简单的分布 p(z), z Z( 比如标准正态分布 ), 我们使用一个深层神经网络 g : Z X, 并使得 g(z) 服从 p r (x) 本章介绍两种深度生成模型 : 变分自动编码器 Kingma and Welling, 2013, Rezende et al., 2014] 和对抗生成式网络 Goodfellow et al., 2014]

2 年 6 月 29 日第 13 章深度生成模型 z y x (a) 带隐变量的生成模型 x (b) 带类别的生成模型 图 13.1 生成模型 13.1 概率生成模型 生成模型一般具有两个基本功能 : 密度估计和生成样本 密度估计给定一组数据 D = {x (i) }, 1 i N, 假设它们都是从独立地从相同的概率密度函数为 p d ata(x) 的未知分布中产生的 密度估计 (density estimation) 是根据数据集 D 来估计其概率密度函数 p θ (x) 密度估计参见第 9.2 节 EM 算法参见 第 节 在机器学习中, 密度估计是一种非常典型的无监督学习问题 如果要建模 的分布包含隐变量 ( 如图 13.1a), 比如高斯混合模型, 就需要利用 EM 算法来进 行密度估计 应用于监督学习生成模型也可以应用于监督学习 监督学习的目标是建模输出标签的条件概率密度函数 p(y x) 根据贝叶斯公式, p(y x) = p(x, y) (13.1) p(x, y). y 我们可以将监督学习问题转换为联合概率密度函数 p(x, y) 的密度估计问题 图 13.1a) 给出了生成模型用于监督学习的图模型表示 型 在监督学习中, 比较典型的生成模型有朴素贝叶斯分类器 隐马尔可夫模

3 13.2 变分自编码器 2018 年 6 月 29 日 279 ϕ z θ x N 图 13.2 变分自编码器 实线表示生成模型, 虚线表示变分近似 判别模型和生成模型相对应的另一类监督学习模型是判别模型 (discriminative model) 判别式模型直接建模条件概率密度函数 p(y x), 并不建模其联合概率密度函数 p(x, y) 常见的判别模型有 logistic 回归 支持向量机 神经网络等 由生成模型可以得到判别模型, 但由判别模型得不到生成模型 生成样本生成样本就是给定一个概率密度函数为 p moel (x) 的分布, 生成一些服从这个分布的样本, 也称为采样 我们在第 11.3 节中介绍了一些常用的采样方法 采样方法参见第 11.3 节 对于图 13.1a 中的图模型, 在得到 p(z, θ) 和 p(x z, θ) 之后, 我们就可以生成数据 x, 具体过程可以分为两步进行 : 1. 根据隐变量的先验分布 p(z, θ) 进行采样, 得到样本 z; 2. 根据条件分布 p(x z, θ) 进行采样, 得到 x 因此在生成模型中, 重点是估计条件分布 p(x z, θ) 含隐变量的生成模型 13.2 变分自编码器 假设一个生成模型 ( 如图 13.2 所示 ) 中包含隐变量, 即有部分变量是不可观测的, 其中观测变量 X 是一个高维空间 X 中的随机向量, 隐变量 Z 是一个相对低维的空间 Z 中的随机向量 这个生成模型的联合概率密度函数可以分解为邱锡鹏 : 神经网络与深度学习 本章中, 我们假设 X 和 Z 都是连续随机向量

4 年 6 月 29 日第 13 章深度生成模型 p(x, z θ) = p(x z, θ)p(z θ), (13.2) 其中 p(z θ) 为隐变量 z 先验分布的概率密度函数,p(x z, θ) 为已知 z 时观测变量 x 的条件概率密度函数,θ 表示两个密度函数的参数 一般情况下, 我们可以假设 p(z θ) 和 p(x z, θ) 为某种参数化的分布族, 比如正态分布 这些分布的形式已知, 只是参数 θ 未知, 可以通过最大化似然来进行估计 给定一个样本 x, 其对数边际似然 log p(x θ) 可以分解为 log p(x θ) = ELBO(q, x θ, ϕ) + D KL (q(z ϕ) p(z x, θ)), (13.3) 参见公式 (11.96) EM 算法 参见第 节 其中 q(z ϕ) 是额外引入的变分密度函数, 其参数为 ϕ,elbo(q, x θ, ϕ) 为证据 下界, ELBO(q, x θ, ϕ) = E z q(z ϕ) log ] p(x, z θ) q(z ϕ). (13.4) 最大化对数边际似然 log p(x θ) 可以用 EM 算法来求解, 具体可以分为两步 : E-step: 寻找一个密度函数 q(z ϕ) 使其等于或接近于后验密度函数 p(z x, θ); M-step: 保持 q(z ϕ) 固定, 寻找 θ 来最大化 ELBO(q, x θ, ϕ) 这样个步骤不断重复, 直到收敛 在 EM 算法的每次迭代中, 理论上最优的 q(z ϕ) 为隐变量的后验概率密度函数 p(z x, θ), p(z x, θ) = z p(x z, θ)p(z θ) (13.5) p(x z, θ)p(z θ)dz. 后验密度函数 p(z x, θ) 的计算是一个统计推断问题, 涉及到积分计算 当隐变量 z 是有限的一维离散变量, 则计算起来比较容易 在一般情况下, 这个后验概率密度函数是很难计算的 此外, 概率密度函数 p(x z, θ) 一般也比较复杂, 很难直接用已知的分布族函数进行建模 变分自编码器 (variational autoencoder,vae) 是一种深度生成模型, 其思想是利用神经网络来分别建模两个复杂的条件概率密度函数 1. 用神经网络来产生变分分布 q(z ϕ), 称为推断网络 理论上 q(z ϕ) 可以不依赖 x 但由于 q(z ϕ) 的目标是近似后验分布 p(z x, θ), 其和 x 相关, 因

5 13.2 变分自编码器 2018 年 6 月 29 日 281 此变分密度函数一般写为 q(z x, ϕ) 推断网络的输入为 x, 输出为变分分布 q(z x, ϕ) 2. 用神经网络来产生概率分布 p(x z, θ), 称为生成网络 生成网络的输入为 z, 输出为概率分布 p(x z, θ) 将推断网络和生成网络合并就得到了变分自编码器的整个网络结构, 如图 13.3 所示, 其中实线表示网络计算操作, 虚线表示采样操作 p(, θ) q(, ϕ) x 1 x 2 网络计算 采样 ˆx 1 ˆx 2 推断网络 f I (, ϕ) 生成网络 f G (, θ) 图 13.3 变分自编码器的网络结构 变分自编码器的名称来自于其整个网络结构和自编码器比较类似 推断网自编码器参见第 9.4 节 络看作是 编码器, 将可观测变量映射为隐变量 生成网络可以看作是 解码器, 将隐变量映射为可观测变量 但变分自编码器背后的原理和自编码器完全不同 变分自编码器中的编码器和解码器的输出为分布 ( 或分布的参数 ), 而不是确定的编码 推断网络为了简单起见, 假设 q(z x, ϕ) 是服从对角化协方差的高斯分布, q(z x, ϕ) = N (z µ I, σ 2 II), (13.6) 其中 µ I 和 σ 2 I 是高斯分布的均值和方差, 可以通过推断网络 f I (x, ϕ) 来预测 µ I = f I (x, ϕ), (13.7) σ I

6 年 6 月 29 日第 13 章深度生成模型 其中推断网络 f I (x, ϕ) 可以是一般的全连接网络或卷积网络, 比如一个两层的神经网络, h = σ(w (1) x + b (1) ), (13.8) µ I = W (2) h + b (2), (13.9) σ I = softplus(w (3) h + b (3) ), (13.10) softplus(x) = log(1 + e x ). 其中 ϕ 代表所有的网络参数 {W (1), W (2), W (3), b (1), b (2), b (3) },σ 和 softplus 为 激活函数 推断网络的目标 推断网络的目标是使得 q(z x, ϕ) 来尽可能接近真实的后验 p(z x, θ), 需要 找到变分参数 ϕ 来最小化两个分布的 KL 散度 ϕ = arg min D KL (q(z x, ϕ) p(z x, θ)). (13.11) ϕ 然而直接计算上面的 KL 散度是不可能的, 因为 p(z x, θ) 一般无法计算 传统方 法是利用采样或者变分方法来近似推断 基于采样的方法效率很低且估计也不 是很准确, 所以一般使用的是变分推断方法, 即用简单的分布 q 去近似复杂的 分布 p(z x, θ) 但是在深度生成模型中,p(z x, θ) 是非常复杂的分布, 很难用简 单的分布去近似 因此, 我们需要找到一种间接的计算方法 根据公式 (13.3) 可知, 变分分布 q(z x, ϕ) 与真实后验 p(z x, θ)) 的 KL 散度 等于对数边际似然 log p(x θ) 与其下界 ELBO(q, x θ, ϕ) 的差 D KL (q(z x, ϕ) p(z x, θ)) = log p(x θ) ELBO(q, x θ, ϕ), (13.12) 相当于 EM 算法中的 E 步 因此, 推断网络的目标函数为 生成网络 ϕ = arg min D KL (q(z x, ϕ) p(z x, θ)) ϕ = arg min log p(x θ) 第一项与 ELBO(q, ϕ 无关 x θ, ϕ) ϕ = arg max ELBO(q, x θ, ϕ). ϕ (13.13) (13.14) (13.15) 生成模型的联合分布 p(x, z θ) 可以分解为两部分 : 隐变量 z 的先验分布 p(z θ) 和条件概率分布 p(x z, θ)

7 13.2 变分自编码器 2018 年 6 月 29 日 283 先验分布 p(z θ) 一般假设隐变量 z 的先验分布为各向同性的标准高斯分布 N (z 0, I) 隐变量 z 的每一维之间都是独立的 条件概率分布 p(x z, θ) 建模条件分布 p(x z, θ) 通过生成网络来建模 为了简单 起见, 我们同样用参数化的分布族来表示条件概率分布 p(x z, θ), 这些分布族 的参数可以用生成网络来计算得到 根据变量 x 的类型不同, 可以假设 p(x z, θ) 服从不同的分布族 如果 x {0, 1} d 是 d 维的二值的向量, 可以假设 log p(x z, θ) 服从多变量的伯努利分布, 即 p(x z, θ) = = d p(x i z, θ) (13.16) i=1 d i=1 γ xi i (1 γ i ) (1 xi), (13.17) 其中 γ i p(x i = 1 z, θ) 为第 i 维分布的参数 γ = γ 1,, γ d ] T 可以通过生成 网络来预测 如果 x R d 是 d 维的连续向量, 可以假设 p(x z, θ) 服从对角化协方差的高 斯分布, 即 p(x z, θ) = N (x µ G, σ 2 GI), (13.18) 其中 µ G 和 σ G 同样可以用生成网络 f G (z, θ) 来预测 生成网络的目标 生成网络的目标是找到一组 θ 最大化证据下界 ELBO(q, x θ, ϕ) θ = arg max ELBO(q, x θ, ϕ). (13.19) θ 相当于 EM 算法中的 M 步 模型汇总 结合公式 (13.15) 和 (13.19), 推断网络和生成网络的目标都为最大化证 据下界 ELBO(q, x θ, ϕ) 因此, 变分自编码器的总目标函数为 max θ,ϕ ELBO(q, x θ, ϕ) = max θ,ϕ E z q(z ϕ) log ] p(x z, θ)p(z θ) q(z ϕ) (13.20)

8 年 6 月 29 日第 13 章深度生成模型 ] ( ) = max E z q(z x,ϕ) log p(x z, θ) D KL q(z x, ϕ) p(z θ), (13.21) θ,ϕ 其中先验分布 p(z θ) = N (z 0, I),θ 和 ϕ 分别表示生成网络和推断网络的参数 公式 (13.21) 中的期望 E z q(z x,ϕ) log p(x z, θ)] 一般通过采样的方式进行计 算 对于每个样本 x, 根据 q(z x, ϕ) 采集 M 个 z (m), 1 m M, E z q(z x,ϕ) log p(x z, θ)] 1 M M log p(x z (m), θ). (13.22) m=1 从 EM 算法角度来看, 变分自编码器优化推断网络和生成网络的过程, 可 以分别看作是 EM 算法中的 E 步和 M 步 但在变分自编码器中, 这两步的目标 合二为一, 都是最大化证据下界 此外, 变分自编码器可以看作神经网络和贝叶斯网络的混合体 贝叶斯网 络中的节点可以看成是一个随机变量 在变分自编码器中, 我们仅仅将隐藏编 码对应的节点看成是随机变量, 其它节点还是作为普通神经元 这样, 编码器 变成一个变分推断网络, 而解码器可以看作是将隐变量映射到观测变量的生成 网络 训练 给定一个数据集 D, 包含 N 个从未知数据分布中抽取的独立同分布样本 x (1), x (2),, x (N) 变分自编码器的目标函数为 J (ϕ, θ D) = ( N 1 M log p(x (n) z (n,m), θ) D KL (q(z x (n), ϕ) N (z 0, I)) ), M n=1 m=1 其中 z (n,m) 为第 n 个样本的变分分布 q(z x (n), ϕ) 的第 m 个采样 (13.23) 如果采用随机梯度方法, 每次从数据集中采一个样本 x, 然后根据 q(z x, ϕ) 采一个隐变量 z, 则目标函数变为 ) J (ϕ, θ x) = log p(x z, θ) D KL (q(z x, ϕ) N (z 0, I). (13.24) 析解 假设 q(z x, ϕ) 是正态分布, 公式 (13.24) 中的 KL 散度可以直接计算出解

9 13.2 变分自编码器 2018 年 6 月 29 日 285 对于两个正态分布 N (µ 1, Σ 1 ) 和 N (µ 2, Σ 2 ), 其 KL 散度为 D KL (N (µ 1, Σ 1 ) N (µ 2, Σ 2 )) = 1 ( tr(σ Σ 1) + (µ 2 µ 1 ) Σ 1 2 (µ 2 µ 1 ) k + log Σ ) 2, (13.25) Σ 1 其中 tr( ) 表示矩阵的迹 ; 表示矩阵的行列式 这样当 q(z x (n), ϕ) 为 N (µ I, σ 2 I I) 时, ) D KL (q(z x, ϕ) p(z, θ) = 1 ( ) tr(σ 2 2 II) + µ I µ I k log( σ 2 II ), (13.26) 矩阵的 迹 为主对角线 ( 从左上方至右下方的对角线 ) 上各个元素的总和 其中 µ I 和 σ I 为推断网络 f I (x, ϕ) 的输出 再参数化在变分自编码器中, 一个问题是如何求随机变量 z 关于参数 ϕ 的导数 因为随机变量 z 采样自后验分布 q(z x, ϕ), 和参数 ϕ 相关 但由于是采样的方式, 无法直接计算函数 z 关于 ϕ 的导数 如果 q(z x, ϕ) 的随机性独立于参数 ϕ, 我们可以通过再参数化 (reparameterization) 方法来计算导数 再参数化是实现通过随机变量实现反向传播的一种重要手段, 并用随机梯度下降训练整个网络, 可以提高变分自编码器的训练效率 假设 q(z x, ϕ) 为正态分布 N(µ I, σ 2 I I), 我们可以通过下面方式来采样 z z = µ I + σ I ϵ, (13.27) 其中 ϵ N (0, I),µ I 和 σ I 是推断网络 f I (x, ϕ) 的输出 这样 z 和 µ I, σ I 的关系 从采样关系变为函数关系, 就可以求 z 关于 ϕ 的导数 如果进一步假设 p(x z, θ) 服从高斯分布 N (x µ G, I), 其中 µ G = f G (z, θ) 是 生成网络的输出, 则目标函数可以简化为 ) J (ϕ, θ x) = x µ G 2 + D KL (N (µ I, σ I ) N (0, I), (13.28) 其中第一项可以近似看作是输入 x 的重构正确性, 第二项可以看作是正则化项 这和自编码器非常类似 变分自编码器的训练过程如图 13.4 所示

10 年 6 月 29 日第 13 章深度生成模型 µ G 2 µ G ) D (N (µ I, σ I ) N (, ) 生成网络 f G (, θ) + µ I σ I 推断网络 f I (, ϕ) ϵ N (, ) 图 13.4 变分自编码器的训练过程, 空心矩形表示目标函数 图 13.5 给出了在 MNIST 数据集上, 变分自编码器学习到的隐变量流形的可视化示例 图 13.5a 是将训练集上每个样本 x 通过推断网络映射到 2 维的隐变量空间, 图中的每个点表示 Ez x], 不同颜色表示不同的数字 图 13.5b 是对 2 维的标准高斯分布上进行均匀采样得到不同的隐变量 z, 然后通过生成网络产生的 Ex z] (a) 训练集上所有样本在隐空间上的投影 (b) 隐变量 z 在图像空间的投影 图 13.5 在 MNIST 数据集上, 变分自编码器学习到的隐变量流形可视化示例

11 13.3 生成对抗网络 2018 年 6 月 29 日 生成对抗网络 显式密度模型和隐式密度模型在本书之前介绍的深度生成模型, 比如变分自编码器 深度信念网络等, 都是显示地构建出样本的密度函数 p(x θ), 并通过最大似然估计来求解参数, 称为显式密度模型 (explicit density model) 比如变分自编码器的密度函数为 p(x, z θ) = p(x z, θ)p(z θ) 虽然使用了神经网络来估计 p(x z, θ), 但是我们依然假设 p(x z, θ) 为一个参数分布族, 而神经网络只是用来预测这个参数分布族的参数 这在某种程度上限制了神经网络的能力 如果只是希望有一个模型能生成符合数据分布 p r (x) 的样本, 那么可以不显示地估计出数据分布的密度函数 假设在低维空间 Z 中有一个简单容易采样的分布 p(z),p(z) 通常为标准多元正态分布 N (0, I) 我们用神经网络构建一个映射函数 G : Z X, 称为生成网络 利用神经网络强大的拟合能力, 使得 G(z) 服从数据分布 p r (x) 这种模型就称为隐式密度模型(implicit density model) 所谓隐式模型就是指并不对显示地建模 p r (x), 而是建模生成过程 图 13.6 给出了隐式模型生成样本的过程 N (, ) 生成网络 G(, θ) = 图 13.6 隐式模型生成样本的过程 网络分解 判别网络 隐式密度模型的一个关键是如何确保生成网络产生的样本一定是服从真实的数据分布 既然我们不构建显示密度函数, 就无法通过最大似然估计等方法来训练 生成对抗网络 (Generative Adversarial Networks,GAN) 是通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布 在生成对抗网络中, 有

12 年 6 月 29 日第 13 章深度生成模型 两个网络进行对抗训练 一个是判别网络, 目标是尽量准确地判断一个样本是来自于真实数据还是生成网络产生的 ; 另一个是生成网络, 目标是尽量生成判别网络无法区分来源的样本 这两个目标相反的网络不断地进行交替训练 当最后收敛时, 如果判别网络再也无法判断出一个样本的来源, 那么也就等价于生成网络可以生成符合真实数据分布的样本 生成对抗网络的流程图如图 13.7 所示 D 判别网络 D(, ϕ) 1/0 N (, ) 生成网络 G(, θ) 图 13.7 生成对抗网络的流程图 判别网络 (Discriminator Network)D(x, ϕ) 的目标是区分出一个样本 x 时来自于真实分布 p r (x) 还是来自于生成模型 p θ (x), 因此判别网络实际上是一个两类分类器 用标签 y = 1 来表示样本来自真实分布,y = 0 表示样本来自模型, 判别网络 D(x, ϕ) 的输出为 x 属于真实数据分布的概率, 即 p(y = 1 x) = D(x, ϕ), (13.29) 则样本来自模型生成的概率为 p(y = 0 x) = 1 D(x, ϕ) 交叉熵等于负的对数似 然 给定一个样本 (x, y),y = {1, 0} 表示其自于 p r (x) 还是 p θ (x), 判别网络的目标函数为最小化交叉熵, 即最大化对数似然 min (E x y log p(y = 1 x) + (1 y) log p(y = 0 x)] ) (13.30) ϕ ( ] = max E x pr(x) log D(x, ϕ) + E x p θ (x ) log(1 D(x, ϕ))] ) (13.31) ϕ = max ϕ ( E x pr(x) ] ( log D(x, ϕ) + E z p(z) log(1 D G(z, θ), ϕ))] ), (13.32) 其中 θ 和 ϕ 分布时生成网络和判别网络的参数 生成网络 生成网络 (Generator Network) 的目标刚好和判别网络相反, 即让判别网 络将自己生成的样本判别为真实样本 ( max (E z p(z) log D G(z, θ), ϕ)] ) (13.33) θ

13 13.3 生成对抗网络 2018 年 6 月 29 日 289 ( ( = min (E z p(z) log 1 D G(z, θ), ϕ))] ). (13.34) θ 上面的这两个目标函数是等价的 但是在实际训练时, 一般使用前者, 因为其 梯度性质更好 我们知道, 函数 log(x), x (0, 1) 在 x 接近 1 时的梯度要比接近 0 时的梯度小很多, 接近 饱和 区间 这样 (, 当判别网络 ( D )) 以很高的概率认为生成网络 G 产生的样本是 假 样本, 即 1 D G(z, θ), ϕ 1 这时目标 函数关于 θ 的梯度反而很小, 从而不利于优化 还有一种改进生成网络的梯度的方法是将真实样本和生成样本的标签互换, 即生成样本的标签为 训练 和单目标的优化任务相比, 生成对抗网络的两个网络的优化目标刚好想反 因此生成对抗网络的训练比较难, 往往不太稳定 一般情况下, 需要平衡两个网络的能力 对于判别网络来说, 一开始的判别能力不能太强, 否则难以提升生成网络的能力 然后也不能太弱, 否则针对它训练的生成网络也不会太好 在训练时需要使用一些技巧, 使得在每次迭代中, 判别网络比生成网络的能力强一些, 但又不能强太多 生成对抗网络的训练流程如算法 13.1 所示 每次迭代时, 判别网络更新 K 次而生成网络更新一次, 即首先要保证判别网络足够强才能开始训练生成网络

14 年 6 月 29 日第 13 章深度生成模型 在实践中 K 是一个超参数, 其取值一般取决于具体任务 算法 13.1: 生成对抗网络的训练过程输入 : 训练集 D, 对抗训练迭代次数 T, 每次判别网络的训练迭代次 数 K, 小批量样本数量 M 1 随机初始化 θ, ϕ; 2 for t 1 to T do // 训练判别网络 D(x, ϕ) 3 for k 1 to K do // 采集小批量训练样本 4 从训练集 D 中采集 M 个样本 {x (m) }, 1 m M; 5 从分布 N (0, I) 中采集 M 个样本 {z (m) }, 1 m M; 6 使用随机梯度上升更新 ϕ, 梯度为 7 end 1 ϕ M M m=1 // 训练生成网络 G(z, θ) ( log D(x (m), ϕ) + log ( 1 D ( G(z (m), θ), ϕ )))] ; 8 从分布 N (0, I) 中采集 M 个样本 {z (m) }, 1 m M; 9 使用随机梯度上升更新 θ, 梯度为 10 end 输出 : 生成网络 G(z, θ) 1 θ M M ( )] D G(z (m), θ), ϕ ; m= 一个生成对抗网络的具体实现 :DCGAN 生成对抗网络是指一类采用对抗训练方式来进行学习的深度生成模型, 其包含的判别网络和生成网络都可以根据不同的生成任务使用不同的网络结构 本节介绍一个生成对抗网络的具体例子深度卷积生成对抗网络 (Deep Convolutional Generative Adversarial Networks,DCGAN)Radford et al., 2015] 在 DCGAN 中, 判别网络是一个传统的深度卷积网络, 但使用了带步长的卷积来实现下采样操作, 不用最大汇聚 (pooling) 操作 生成网络使用一个特殊的

15 13.3 生成对抗网络 2018 年 6 月 29 日 291 深度卷积网络来实现, 如图 13.8 所示, 使用微步卷积来生成 大小的图像 微步卷积参见第 节 图 13.8 DCGAN 中的生成网络 第一层是全连接层, 输入是从均匀分布中随机 采样的 100 维向量 z, 输出是 的向量, 重塑为 的张量 ; 然后是四层的微步卷积, 没有汇聚层 图片来源 :Radford et al., 2015] DCGAN 的主要优点是通过一些经验性的网络结构设计使得对抗训练更加 稳定 比如,(1) 使用代步长的卷积 ( 在判别网络中 ) 和微步卷积 ( 在生成网 络中 ) 来代替汇聚操作, 以免损失信息 ;(2) 使用批量归一化 ;(3) 去除卷积 层之后的全连接层 ;(4) 在生成网络中, 除了最后一层使用 Tanh 激活函数外, 其余层都使用 ReLU 函数 ;(5) 在判别网络中, 都使用 LeakyReLU 激活函数 模型分析 将判别网络和生成网络合并, 整个生成对抗网络的整个目标函数看作最小化最大化游戏 (minimax game), ( ] ( min max E x pr(x) log D(x, ϕ) + E x pθ (x) log(1 D x, ϕ))] ) (13.35) θ ϕ = min max θ ϕ ( E x pr(x) ] ( log D(x, ϕ) + E z p(z) log(1 D G(z, θ), ϕ))] ), (13.36) 因为之前提到的生成网络梯度问题, 这个最小化最大化形式的目标函数一般用 来进行理论分析, 并不是实际训练时的目标函数 假设 p r (x) 和 p θ (x) 已知, 则最优的判别器为参见习题 13-1 D (x) = p r (x) p r (x) + p θ (x). (13.37)

16 年 6 月 29 日第 13 章深度生成模型 将最优的判别器 D (x) 代入公式 (13.35), 其目标函数变为 L(G D ) = E x pr(x) = E x pr(x) log ] ] log D (x) + E x pθ (x) log(1 D (x)) p r(x) p r(x) + p θ (x) ] + E x pθ (x) p θ (x) p r(x) + p θ (x) ] (13.38) log (13.39) ( ) ( ) = D KL p r p a + D KL p θ p a 2 log 2 (13.40) JS 散度参见第 E.3.3 节 = 2D JS (p r p θ ) 2 log 2, (13.41) 其中 D JS 为 JS 散度,p a (x) = 1 2 ( ) p r (x) + p θ (x) 为一个 平均 分布 在生成对抗网络中, 当判断网络为最优时, 生成网络的优化目标是最小化 真实分布 p r 和模型分布 p θ 之间的 JS 散度 当两个分布相同时,JS 散度为 0, 最 优生成网络 G 对应的损失为 L(G D ) = 2 log 2 然而,JS 散度的一个问题是 : 当两个分布没有重叠时, 它们之间的 JS 散度 恒等于常数 log 2 对生成网络来说, 目标函数关于参数的梯度为 0 L(G D ) θ = 0. (13.42) 图 13.9 给出了生成对抗网络中的梯度消失问题的示例 当真实分布 p r 和模 型分布 p θ 没有重叠, 最优的判断网络对所有生成数据的输出都为 0,D (G(z, θ)) = 0, z 因此, 生成网络的梯度消失 1 最优判断函数 D 0 真实数据 pr 生成数据 p θ 图 13.9 生成对抗网络中的梯度消失问题 因此, 在实际训练生成对抗网络时, 我们一般不会将判别网络训练到最优, 只进行一步或多步梯度下降, 使得生成网络的梯度依然存在 然而, 判别网络也不能太差, 否则生成网络的梯度为错误的梯度 如何使得判别网络在梯度消失和梯度错误之间取得平衡并不是一件容易的事

17 13.3 生成对抗网络 2018 年 6 月 29 日 模型坍塌 如果使用公式 (13.33) 作为生成网络的目标函数, 将最优判断网络 D 代入, 得到 ] L (G D ) = E x pθ (x) log D (x) (13.43) p r(x) = E x pθ (x) log p r(x) + p θ (x) pθ(x) ] (13.44) p θ (x) = E x pθ (x) log p ] ] θ(x) p θ (x) + E x pθ (x) log (13.45) p r(x) p r(x) + p θ (x) ( ) = D KL p θ p r + E x pθ (x) log ( ] 1 D (x)) (13.46) ( ) ] = D KL p θ p r + 2D JS (p r p θ ) 2 log 2 E x pr(x) 根据公式 log (13.41) D (x), (13.47) 其中后两项和生成网络无关, 因此 ( ) max L (G D ) = min D KL p θ p r 2D JS (p r p θ ), (13.48) θ θ 其中 JS 散度 D JS (p θ p r ) 0, log 2] 为有界函数, 因此生成网络的目标为更多的 是受逆向 KL 散度 D KL (p θ p r ) 影响, 使得生成网络更倾向于生成一些更 安全 的样本, 从而造成 mykey 模型坍塌 Model Collapse 问题 前向和逆向 KL 散度因为 KL 散度是一种非对称的散度, 在计算真实分布 p r 和 模型分布 p θ 之间的 KL 散度时, 按照顺序不同, 有两种 KL 散度 : 前向 KL 散度 (forward KL divergence)d KL (p r p θ ) 和逆向 KL 散度 (reverse KL divergence) D KL (p θ p r ) 前向和逆向 KL 散度分别定义为 D KL (p r p θ ) = p r (x) log p r(x) dx, (13.49) p θ (x) D KL (p θ p r ) = p θ (x) log p θ(x) dx. (13.50) p r (x) 在前向 KL 散度中, (1) 当 p r (x) 0 而 p θ (x) > 0 时,p r (x) log pr(x) p θ (x) 0 不管 p θ (x) 如何取值, 都对前向 KL 散度的计算没有贡献 (2) 当 p r (x) > 0 而 p θ (x) 0 时,p r (x) log pr(x) p θ (x), 前向 KL 散度会变得非常大 因此, 前向 KL 散度会鼓励模型分布 p θ (x) 尽可能覆盖所有真实分布 p r (x) > 0 的点, 而不用回避 p r (x) 0 的点

18 年 6 月 29 日第 13 章深度生成模型 在逆向 KL 散度中, (1) 当 p r (x) 0 而 p θ (x) > 0 时,p θ (x) log p θ(x) p r(x) 即当 p θ (x) 接近于 0, 而 p θ (x) 有一定的密度时, 逆向 KL 散度会变得非常大 (2) 当 p θ (x) 0 时, 不管 p r (x) 如何取值,p θ (x) log p θ(x) p r(x) 0 因此, 逆向 KL 散度会鼓励模型分布 p θ (x) 尽可能避开所有真实分布 p r (x) 0 的点, 而不需要考虑是否覆盖所有布 p r (x) > 0 的点 图 给出数据真实分布为一个高斯混合分布, 模型分布为一个单高斯分 布时, 使用前向和逆向 KL 散度来进行模型优化的示例 蓝色曲线为真实分布 p r 的等高线, 红色曲线为模型分布 p θ 的等高线 真实分布 pr 前向 散度 DKL(pr pθ) 逆向 散度 DKL(pθ pr) 图 前向和逆向 KL 散度 改进模型生成对抗网络的改进主要有以下几个方面 : GAN 中交叉熵 (JS 散度 ) 不适合衡量生成数据分布和真实数据分布的距离, 如果通过优化 JS 散度训练 GAN 会导致找不到正确的优化目标, 所以, W-GAN Wassertein 距离参见 第 E.3.4 节 W-GAN 是一种通过用 Wassertein 距离替代 JS 散度来优化训练的生成对抗 网络 Arjovsky et al., 2017] 对于真实分布 p r 和模型分布 p θ, 它们的 1st-Wasserstein 距离为 W 1 (p r, p θ ) = ] inf E (x,y) γ x y, (13.51) γ Π(P r,p g) 其中 Γ(p r, p θ ) 是边际分布为 p r 和 p θ 的所有可能的联合分布集合

19 13.3 生成对抗网络 2018 年 6 月 29 日 295 当两个分布没有重叠或者重叠非常少时, 它们之间的 KL 散度为 +,JS 散度为 log 2, 并不随着两个分布之间的距离而变化 而 1st-Wasserstein 距离可 以依然衡量两个没有重叠分布之间的距离 根据 Kantorovich-Rubinstein 对偶定理, 两个分布 p r 和 p θ 之间的 1st-Wasserstein 距离的对偶形式为 : W 1 (p r, p θ ) = 其中 f : R d R 为 1-Lipschitz 函数, 满足 sup E x pr f(x)] E x pθ f(x)], (13.52) f L 1 f(x) f(y) f L sup 1. (13.53) x y x y 我们可以将 1-Lipschitz 连续的约束宽松为 K-Lipschitz 连续, 等于计算 p r 和 p θ 之间的 K W 1 (p r, p θ ) 数学小知识 Lipschitz 连续函数 在数学中, 对于一个实数函数 f : R R, 如果满足函数曲线上任 意两点连线的斜率一致有界, 即任意两点的斜率都小于常数 K > 0, f(x 1 ) f(x 2 ) K x 1 x 2, (13.54) 则函数 f 就称为 K-Lipschitz 连续函数,K 称为 Lipschitz 常数 Lipschitz 连续要求函数在无限的区间上不能有超过线性的增长 如果一个函数可导, 并满足 Lipschitz 连续, 那么导数有界 如果一个函数可导, 并且导数有界, 那么函数为 Lipschitz 连续 参见习题 13-2 令 f(x, ϕ) 为一个神经网络, 假设存在参数集合 Φ, 对于所有的 ϕ Φ,f ϕ (x) 为 K-Lipschitz 连续函数 那么公式 (13.52) 中的上界可以转换为 max E x p r f(x, ϕ)] E x pθ f ( x, ϕ)], (13.55) ϕ Φ 其中 f(x, ϕ) 称为评价网络 (Critic Network) 对于真实样本,f(x, ϕ) 的打分要 尽可能的高 ; 对于模型生成的样本,f(x, ϕ) 的打分要尽可能的低 和标准 GAN 中的判别网络的值域为 0, 1] l 不同, 评价网络 f(x, ϕ) 的值域没有限制

20 年 6 月 29 日第 13 章深度生成模型 l 为参数数量 因为神经网络为连续可导函数, 为了使得 f(x, ϕ) 满足 K-Lipschitz 连续, 可以令导数 f(x,ϕ) x 有界 一种近似的方法是限制参数 ϕ c, c],c 为一个比较小的正数, 比如 0.01 生成网络的目标是使得生成样本的 f(x, ϕ) 得分尽可能高 ( ] max E z p(z) f G(z, θ), ϕ). (13.56) θ 因为 f(x, ϕ) 为不饱和函数, 所以生成网络参数 θ 的梯度不会消失, 理论上解决 了原始 GAN 训练不稳定的问题 并且 W-GAN 中生成网络的目标函数不再是 两个分布的比率, 在一定程度上缓解了模型坍塌问题, 使得生成的样本具有多 样性 算法 13.2 给出 W-GAN 的训练过程 和原始 GAN 相比,W-GAN 的评价网 络最后一层不使用 sigmoid 函数, 损失函数不取对数 13.4 总结和深入阅读 变分自动编码器 (Variational Autoencoder,VAE)Kingma and Welling 2013], Rezende et al. 2014] Doersch 2016] Kingma and Welling 2013]Rezende et al. 2014] Bowman et al. 2015] Springenberg 2015] CatGAN Goodfellow et al. 2014] Chen et al. 2016] Nowozin et al. 2016] Denton et al. 2015] laggan Salimans et al. 2016] Mirza and Osindero 2014] Arjovsky and Bottou 2017]Arjovsky et al. 2017] 习题

21 13.4 总结和深入阅读 2018 年 6 月 29 日 297 算法 13.2: W-GAN 的训练过程输入 : 训练集 D, 对抗训练迭代次数 T, 每次评价网络的训练迭代次 数 K, 小批量样本数量 M 1 随机初始化 θ, ϕ; 2 for t 1 to T do // 训练评价网络 f(x, ϕ) 3 for k 1 to K do // 采集小批量训练样本 4 从训练集 D 中采集 M 个样本 {x (m) }, 1 m M; 5 从分布 N (0, I) 中采集 M 个样本 {z (m) }, 1 m M; // 计算评价网络参数 ϕ 的梯度 6 g ϕ = 1 M ( f(x (m), ϕ) f ( G(z (m), θ), ϕ ))] ; ϕ M m=1 // 使用 RMSProp 算法更新 ϕ 7 ϕ ϕ + α RMSProp(ϕ, g ϕ ); // 梯度截断 8 ϕ clip(ϕ, c, c); 9 end // 训练生成网络 G(z, θ) 10 从分布 N (0, I) 中采集 M 个样本 {z (m) }, 1 m M; // 更新生成网络参数 θ 11 g θ = 1 M ( f G(z (m), θ), ϕ) ] ; θ M m=1 12 θ θ + α RMSProp(θ, g θ ); 13 end 输出 : 生成网络 G(z, θ)

22 年 6 月 29 日参考文献 习题 13-1 假设一个两类分类, 类别为 c 1 和 c 2, 样本 x 在两个类的条件分 布为 p(x c 1 ) 和 p(x c 2 ), 一个分类器 f(x) = p(c 1 x) 用于预测一个样本 x 来自类 别 c 1 的后验概率 证明若采用交叉熵损失, ] L(f) = E x p(x c1) log f(x) + E x p(x c2) log ( 1 f(x) )], (13.57) 参见公式 (13.58) 则最优分类器 f (x) 为 f (x) = p(x c 1 ) p(x c 1 ) + p(x c 2 ). (13.58) 习题 13-2 分析下面函数是否满足 Lipschitz 连续条件 (1)f : 1, 1] R,f(x) = x 2 ; (2)f : R R,f(x) = x 2 ; (3)f : R R,f(x) = x 2 + 1; (4)f : 0, 1] 0, 1],f(x) = x 参考文献 Martin Arjovsky and Léon Bottou. Towards principled methods for training generative adversarial networks. arxiv preprint arxiv: , Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein GAN. arxiv preprint arxiv: , Samuel R Bowman, Luke Vilnis, Oriol Vinyals, Andrew M Dai, Rafal Jozefowicz, and Samy Bengio. Generating sentences from a continuous space. arxiv preprint arxiv: , Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In Advances in Neural Information Processing Systems, pages , Emily L Denton, Soumith Chintala, Rob Fergus, et al. Deep generative image models using a laplacian pyramid of adversarial networks. In Advances in neural information processing systems, pages , Carl Doersch. Tutorial on variational autoencoders. arxiv preprint arxiv: , Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-

23 参考文献 2018 年 6 月 29 日 299 Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages , Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arxiv preprint arxiv: , Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. arxiv preprint arxiv: , Sebastian Nowozin, Botond Cseke, and Ryota Tomioka. f-gan: Training generative neural samplers using variational divergence minimization. In Advances in Neural Information Processing Systems, pages , Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arxiv preprint arxiv: , Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. arxiv preprint arxiv: , Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training GANs. In Advances in Neural Information Processing Systems, pages , Jost Tobias Springenberg. Unsupervised and semi-supervised learning with categorical generative adversarial networks. arxiv preprint arxiv: , 2015.

Fig. 1 1 GAN Basic structure and computation procedure of GAN., z c c, InfoGAN, [7]., GAN,,. 2 Fig. 2 arxiv GAN Trend of the number of GAN pape

Fig. 1 1 GAN Basic structure and computation procedure of GAN., z c c, InfoGAN, [7]., GAN,,. 2 Fig. 2 arxiv GAN Trend of the number of GAN pape 44 5 Vol. 44, No. 5 2018 5 ACTA AUTOMATICA SINICA May, 2018 : 1, 2 3 4 5 6 1, 7.,,. (Generative adversarial networks, GAN),. 1 GAN GAN Goodfellow [1] 2014.. GAN (Generator) (Discriminator), 1. p z ( )

More information

EM算法及其应用

EM算法及其应用 EM 算法原理及其应用 罗维 大纲 基础知识 EM 算法应用举例 EM 算法及其证明 EM 算法的变种 2 EM 算法的名字由来 E 步 M 步 Expectation 期望 Maximization 最大化 EM(Expectation Maximization, 期望最大化 ) 算法 3 笼统的 EM 算法描述 Loop { E 步 : 求期望 (expectation) } M 步 : 求极大

More information

PowerPoint Presentation

PowerPoint Presentation Generative Adversarial Nets 生成对抗网络 冯佳时 新加坡国立大学 人工智能 理解复杂的现实世界 Some slides are adopted from Goodfellow 2016. 人工智能 What I cannot create, I do not understand. 理查德 费曼 概率生成模型 ( 观测数据 ) ( 概率分布 ) 采样 新的数据 图像生成

More information

第四章 102 图 4唱16 基于图像渲染的理论基础 三张拍摄图像以及它们投影到球面上生成的球面图像 拼图的圆心是相同的 而拼图是由球面图像上的弧线图像组成的 因此我 们称之为同心球拼图 如图 4唱18 所示 这些拼图中半径最大的是圆 Ck 最小的是圆 C0 设圆 Ck 的半径为 r 虚拟相机水平视域为 θ 有 r R sin θ 2 4畅11 由此可见 构造同心球拼图的过程实际上就是对投影图像中的弧线图像

More information

: p Previous Next First Last Back Forward 1

: p Previous Next First Last Back Forward 1 7-2: : 7.2......... 1 7.2.1....... 1 7.2.2......... 13 7.2.3................ 18 7.2.4 0-1 p.. 19 7.2.5.... 21 Previous Next First Last Back Forward 1 7.2 :, (0-1 ). 7.2.1, X N(µ, σ 2 ), < µ 0;

More information

2018 年 5 月 21 日 191 个参数 假设在已知 X 1 时,X 2 和 X 3 独立, 即有 p(x 2 x 1, x 3 ) = p(x 2 x 1 ), (11.4) p(x 3 x 1, x 2 ) = p(x 3 x 1 ). (11.5) 在已知 X 2 和 X 3 时,X 4

2018 年 5 月 21 日 191 个参数 假设在已知 X 1 时,X 2 和 X 3 独立, 即有 p(x 2 x 1, x 3 ) = p(x 2 x 1 ), (11.4) p(x 3 x 1, x 2 ) = p(x 3 x 1 ). (11.5) 在已知 X 2 和 X 3 时,X 4 第 11 章 概率图模型 概率论只不过是把常识归纳为计算问题 皮诶尔 西蒙 拉普拉斯 概率图模型 (Probabilistic Graphical Model,PGM), 简称图模型 (Graphical Model,GM), 是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型, 从而给研究高维空间中的概率模型带来了很大的便捷性 对于一个 K 维随机向量 X = [X 1, X 2,, X

More information

:

: : : 4.1....................... 1 4.1.1............... 1 4.2........... 10 4.2.1............... 10 4.2.2..... 14 4.2.3................ 18 4.2.4................ 24 4.3...................... 26 4.3.1..............

More information

Microsoft PowerPoint - 4-朴素贝叶斯.pptx

Microsoft PowerPoint - 4-朴素贝叶斯.pptx 机器学习 4. 朴素贝叶斯 主要内容 贝叶斯分类器 NB 基本原理 MLE vs. MAP 垃圾邮件分类 Bag of Words 字符识别 主要内容 贝叶斯分类器 NB 基本原理 MLE vs. MAP 垃圾邮件分类 Bag of Words 字符识别 贝叶斯分类器 分类问题目标 : 学习预测函数, 使得某个风险函数 ( 表现度量 ) R(f) 在某个学习机器上达到最小 X 概率误差 : 体育娱乐科学

More information

Natural Neural Networks

Natural Neural Networks 深度学习讨论班 黄雷 2016-11-29 内容大纲 1. 深度学习介绍 神经网络的历史 深度学习的应用 2. 多层感知机 (multi-layer perceptron machine) 前向神经网络 (feedforward neural network) 3. 卷积神经网络 (Convolution neural networks) 4. 递归神经网络 (Recursive neural networks)

More information

《分析化学辞典》_数据处理条目_1.DOC

《分析化学辞典》_数据处理条目_1.DOC 3 4 5 6 7 χ χ m.303 B = f log f log C = m f = = m = f m C = + 3( m ) f = f f = m = f f = n n m B χ α χ α,( m ) H µ σ H 0 µ = µ H σ = 0 σ H µ µ H σ σ α H0 H α 0 H0 H0 H H 0 H 0 8 = σ σ σ = ( n ) σ n σ /

More information

Microsoft PowerPoint - 09_10_RandomVariables.ppt

Microsoft PowerPoint - 09_10_RandomVariables.ppt 上节课内容 概率理论 第二章 : 随机变量 概率公理及推论 随机事件之间的关系 : 条件概率 独立 / 条件独立 贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布 边缘分布 条件分布 独立 随机变量 统计推断是与数据相关的 随机变量就是将样本空间 / 随 机事件与数据之间联系起来的纽带 随机变量是一个映射 : Ω R, 将一个实数值 ( ω) 赋给一个试验的每一个输出

More information

Microsoft PowerPoint - 3-统计基础.pptx

Microsoft PowerPoint - 3-统计基础.pptx 机器学习 3. MLE&MAP 3. MLE & MAP 统计 / 概率基本概念与知识 贝叶斯准则 最大似然估计 (MLE) 最大后验估计 (MAP) MLE VS. MAP 高斯分布情形 3. MLE & MAP 统计 / 概率基本概念与知识 贝叶斯准则 最大似然估计 (MLE) 最大后验估计 (MAP) MLE VS. MAP 高斯分布情形 基本概念 概率 采样空间, 事件, 代数 概率公理,

More information

: p Previous Next First Last Back Forward 1

: p Previous Next First Last Back Forward 1 : zwp@ustc.edu.cn Office: 1006 Phone: 63600565 http://staff.ustc.edu.cn/~zwp/ http://fisher.stat.ustc.edu.cn : 7.2......... 1 7.2.1....... 1 7.2.2......... 13 7.2.3................ 18 7.2.4 0-1 p.. 19

More information

误差建模

误差建模 机器学习 2. 统计基础 过拟合与正则化 n min f M阶多项式函数 i = 1 ( f ( x ) y ) i i 2 min f Φ L ( D, f ( w)) + p( w) 正则项 p ( w) = w 2 2 min f Φ L ( D, f ( w)) + p( w) min f Φ L ( D, f ( w)) + p( w) 学习机 误差项 正则项 3. MLE & MAP

More information

第五章 数理统计中的统计量 及其分布

第五章 数理统计中的统计量 及其分布 第五章 数理统计中的统计量 及其分布 随机样本 统计量 三大抽样分布 正态总体下常用统计量的一些重要结论 数理统计 以概率论为基础 主要研究如何收集 整理和分析实际问题的数据 有限的资源 以便对所研究的问题作出有效的 精确而可靠 推断 基础 概率论 功能 处理数据 目的 作出科学推断 就概率特征 总体与随机样本 总体 研究对象的某项数量指标值的全体 记作 Y 个体 总体中每个研究对象 元素.

More information

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0 31 4 2012 8 JournalofLanzhouJiaotongUniversity Vol31No4 Aug2012 :1001-4373(2012)04-0097-07 * 张友兵 张 波 ( 100073) : 分析了列车运行过程中的受力情况 给出了制动过程中减速度的计算方法 并采用正向 反向两种迭代方式计算列车制动曲线 两种方式计算出的制动曲线一致 证明了计算制动曲线的方法是正确的

More information

<4D F736F F D20B5DACAAED5C220CBABCFDFD0D4BAAFCAFDA3A8BDB2D2E5A3A92E646F63>

<4D F736F F D20B5DACAAED5C220CBABCFDFD0D4BAAFCAFDA3A8BDB2D2E5A3A92E646F63> 高等代数第十章双线性函数 第十章双线性函数 10.1 线性函数 1. 设 V 是数域 F 上的一个线性空间, f 是 V 到 F 的一个映射, 若 f 满足 : (1) f( α + β) = f( α) + f( β); (2) f( kα) = kf( α), 式中 α, β 是 V 中任意元素, k 是 F 中任意数, 则称 f 为 V 上的一个线性函数. 2. 简单性质 : 设 f 是 V

More information

80000 400 200 X i X1 + X 2 + X 3 + + X n i= 1 x = n n x n x 17 + 15 + 18 + 16 + 17 + 16 + 14 + 17 + 16 + 15 + 18 + 16 = 12 195 = = 1625. ( ) 12 X X n i = = 1 n i= 1 X f i f Xf = f n i= 1 X f ( Xf). i i

More information

非常重要的应用 图像由许多的像素组成, 而语义分割是根据图片中不同的内容表达不同 [2-4] 的语义对这些像素用不同的颜色进行标注, 这与深度学习领域的突破是高度相关的 近些年来, 无监督学习已经成为了研究的热点, 变分自编码器 [5] 生成对抗网络 (enerative Adversarial N

非常重要的应用 图像由许多的像素组成, 而语义分割是根据图片中不同的内容表达不同 [2-4] 的语义对这些像素用不同的颜色进行标注, 这与深度学习领域的突破是高度相关的 近些年来, 无监督学习已经成为了研究的热点, 变分自编码器 [5] 生成对抗网络 (enerative Adversarial N 基于条件生成对抗网络的咬翼片语义分割 蒋芸 ; 谭宁 ; 张海 ; 彭婷婷摘要 : 目前, 对于咬翼片 X 射线图像进行语义分割的研究非常具有挑战性, 研究的重点在于将其分割成龋齿 牙釉质 牙本质 牙髓 牙冠 修复体和牙根管等类型 现阶段对咬翼片进行语义分割的主要方法是 U 型深度卷积神经网络, 但其存在准确率偏低的问题 为了提高对咬翼片语义分割的准确率, 本文将条件生成对抗网络 (can) 和 U

More information

3978 30866 4 3 43 [] 3 30 4. [] . . 98 .3 ( ) 06 99 85 84 94 06 3 0 3 9 3 0 4 9 4 88 4 05 5 09 5 8 5 96 6 9 6 97 6 05 7 7 03 7 07 8 07 8 06 8 8 9 9 95 9 0 05 0 06 30 0 .5 80 90 3 90 00 7 00 0 3

More information

2

2 Hao Zhang haomoodzhang@gmail.com 2016 9 26 2 1 1 2 3 2.1....................... 3 2.2........................... 4 3 5 3.1............................. 5 3.2............................. 5 3.2.1................

More information

Microsoft Word - 机器学习中的目标函数总结.docx

Microsoft Word - 机器学习中的目标函数总结.docx www.sga.c 机器学习中的目标函数总结 几乎所有的机器学习算法最后都归结为求解最优化问题, 以达到我们想让算法达到的目 标 为了完成某一目标, 需要构造出一个 目标函数 来, 然后让该函数取极大值或极小值, 从而得到机器学习算法的模型参数 如何构造出一个合理的目标函数, 是建立机器学习算法 的关键, 一旦目标函数确定, 接下来就是求解最优化问题, 这在数学上一般有现成的方案 如果你对最优化算法感兴趣,

More information

泰迪杯全国数据挖掘挑战赛 OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,,

泰迪杯全国数据挖掘挑战赛  OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,, 泰迪杯全国数据挖掘挑战赛 www.tipdm.org 第四届 泰迪杯 全国数据挖掘挑战赛 优 秀 作 品 作品名称 : 基于深度学习和语言模型的印刷文字 OCR 系统 荣获奖项 : 特等并获企业冠名奖 作品单位 : 华南师范大学 作品成员 : 苏剑林曾玉婷 泰迪杯全国数据挖掘挑战赛 www.tipdm.org OCR 2016 5 15 (CNN) OCR(). +.... CNN 140 99.7%

More information

标题

标题 第 37 卷第 1 期西南师范大学学报 ( 自然科学版 ) 01 年 1 月 Vol.37 No. 1 JouralofSouthwestChiaNormalUiversity(NaturalScieceEditio) Ja. 01 文章编号 :1000 5471(01)01 0011 05 1 离散型随机变量序列最大值的收敛速度 张耿, 陈守全, 王超 西南大学数学与统计学院, 重庆 400715

More information

! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $ %% " $ "--/

!  #   $ %   # #  $  #  #!  $ ! # # # #! &$! ( % !!! )$ %  (!!!! *$ ( %  (!!!! +$ %  #! $!, $ $ $ $ $ $ $, $ $ --. %/ % $ %%  $ --/ "##$ "% "##& " "##( )$ "##%! ) "##$ * "##( "##$ "##(!!!!!!!!! ! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $

More information

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /.

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /. ! # !! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /. #! % & & ( ) # (!! /! / + ) & %,/ #! )!! / & # 0 %#,,. /! &! /!! ) 0+(,, # & % ) 1 # & /. / & %! # # #! & & # # #. ).! & #. #,!! 2 34 56 7 86 9

More information

Previous Next First Last Ba

Previous Next First Last Ba zwp@ustc.edu.cn Office: 1006 Phone: 63600565 http://staff.ustc.edu.cn/~zwp/ http://fisher.stat.ustc.edu.cn 1.1............... 1 1.2............... 9 1.2.1.......... 16 1.2.2....... 22 1.2.3......... 23

More information

幻灯片 1

幻灯片 1 第一类换元法 ( 凑微分法 ) 学习指导 复习 : 凑微分 部分常用的凑微分 : () n d d( (4) d d( ); (5) d d(ln ); n n (6) e d d( e ); () d d( b); ); () d d( ); (7) sin d d (cos ) 常见凑微分公式 ); ( ) ( ) ( b d b f d b f ); ( ) ( ) ( n n n n d f

More information

95

95 95 96 http://www.ee.ncnu.edu.tw/announce/board.php?action=view&seqno=410 or QR 5K // 0 K 5K 5K // K 5K ------ 94 93 92 91 ( ) ( ) ( ) A e ( ) d st D L[ f ( t)] f ( t) e dt F( s) dx 0

More information

第三章 對農企業法人取得農地使用權源

第三章 對農企業法人取得農地使用權源 27 28 1 易 2 行 例 例 列 林 不 離. 路 冷 林 不 例 念 例 行 律 林 利 路 ( ) 林 ( ) ( ) 理 ( ) 29 30 3 參 31 32 33 4 利 利 利 類 略 略 例 列 六 34 5 便 35 6 理 度 年 行 91-1.5.3- -Q1(z) 理 36 7 力 切 力 ( ) 力 力 流 切 37 38 8 論 說 論 六 年 ( ) 六 六 年 論

More information

热点与综述 变分自编码器模型综述 翟正利, 梁振明, 周炜, 孙霞 Computer Engineering and Applications 2019,55(3) 1 青岛理工大学信息与控制工程学院, 山东青岛 266520 摘要 : 变分自编码器 (VAE) 作为深度隐空间生成模型的一种, 近年来其表现性能取得了极大的成功, 尤其是在图像生成方面 变分自编码器模型作为无监督式特征学习的重要工具之一,

More information

4.C ( 详细解析见视频课程 绝对值 01 约 21 分 15 秒处 ) 5.E ( 详细解析见视频课程 绝对值 01 约 32 分 05 秒处 ) 6.D ( 详细解析见视频课程 绝对值 02 约 4 分 28 秒处 ) 7.C ( 详细解析见视频课程 绝对值 02 约 14 分 05 秒处 )

4.C ( 详细解析见视频课程 绝对值 01 约 21 分 15 秒处 ) 5.E ( 详细解析见视频课程 绝对值 01 约 32 分 05 秒处 ) 6.D ( 详细解析见视频课程 绝对值 02 约 4 分 28 秒处 ) 7.C ( 详细解析见视频课程 绝对值 02 约 14 分 05 秒处 ) [ 说明 ] 1. 以下所指教材是指朱杰老师的 管理类联考综合能力数学套路化攻略 2. 该文档中所标答案和参见的教材答案, 与视频有冲突的, 以视频答案为准! 基础篇 第 1 章 数 1.2.1 整数例题答案 : 1. A ( 详细解析见教材 P7 例 2) 2. D ( 详细解析见视频课程 数的性质 约 10 分 53 秒处 ) 3. C ( 详细解析见教材 P7 例 3) 4.E ( 详细解析见视频课程

More information

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %!

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %! ! # # % & ( ) ! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) 0 + 1 %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %! # ( & & 5)6 %+ % ( % %/ ) ( % & + %/

More information

untitled

untitled 4 y l y y y l,, (, ) ' ( ) ' ( ) y, y f ) ( () f f ( ) (l ) t l t lt l f ( t) f ( ) t l f ( ) d (l ) C f ( ) C, f ( ) (l ) L y dy yd π y L y cosθ, π θ : siθ, π yd dy L [ cosθ cosθ siθ siθ ] dθ π π π si

More information

谷 德军 等 对 流边 界层 中 公 路 线 源 扩 散的 期 扩 散 的模 拟 式 大 气扩 散 的 方 法 是 把 污 染物 在 大 气 中 的 扩 散 看 成 标 记 粒 子 在 平 均 风 场 约束 下 的 随机 运 动 假 定 粒 子 的运 动 是 相 互独 立 的 向上 的 坐 标 为

谷 德军 等 对 流边 界层 中 公 路 线 源 扩 散的 期 扩 散 的模 拟 式 大 气扩 散 的 方 法 是 把 污 染物 在 大 气 中 的 扩 散 看 成 标 记 粒 子 在 平 均 风 场 约束 下 的 随机 运 动 假 定 粒 子 的运 动 是 相 互独 立 的 向上 的 坐 标 为 谷 德军 等 对 流边 界层 中 公 路 线 源 扩 散的 期 扩 散 的模 拟 式 大 气扩 散 的 方 法 是 把 污 染物 在 大 气 中 的 扩 散 看 成 标 记 粒 子 在 平 均 风 场 约束 下 的 随机 运 动 假 定 粒 子 的运 动 是 相 互独 立 的 向上 的 坐 标 为 时间 步长 的 脉 动速 度 可 以 用 小 匡 每 个 粒 子 的运 动 为 小 分别 代表粒子 在

More information

15-03.indd

15-03.indd 1 02 07 09 13 18 24 32 37 42 53 59 66 70 06 12 17 23 36 52 65 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 fl fi fi 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 σ σ σ α α 36 37 38 39 40 41 42 43 44

More information

ο HOH 104 31 O H 0.9568 A 1 1 109 28 1.01A ο Q C D t z = ρ z 1 1 z t D z z z t Qz = 1 2 z D z 2 2 Cl HCO SO CO 3 4 3 3 4 HCO SO 2 3 65 2 1 F0. 005H SiO0. 032M 0. 38 T4 9 ( K + Na) Ca 6 0 2 7 27 1-9

More information

Ζ # % & ( ) % + & ) / 0 0 1 0 2 3 ( ( # 4 & 5 & 4 2 2 ( 1 ) ). / 6 # ( 2 78 9 % + : ; ( ; < = % > ) / 4 % 1 & % 1 ) 8 (? Α >? Β? Χ Β Δ Ε ;> Φ Β >? = Β Χ? Α Γ Η 0 Γ > 0 0 Γ 0 Β Β Χ 5 Ι ϑ 0 Γ 1 ) & Ε 0 Α

More information

年 0 月 4 日第 4 章前馈神经网络 过大量神经元之间的连接, 使得神经网络成为一种高度非线性的模型 神经元 之间的连接权重就是需要学习的参数, 可以通过梯度下降方法来进行学习 4. 神经元 人工神经元 (Artificial Neuron), 简称神经元 (Neuron), 是构

年 0 月 4 日第 4 章前馈神经网络 过大量神经元之间的连接, 使得神经网络成为一种高度非线性的模型 神经元 之间的连接权重就是需要学习的参数, 可以通过梯度下降方法来进行学习 4. 神经元 人工神经元 (Artificial Neuron), 简称神经元 (Neuron), 是构 第 4 章 前馈神经网络 神经网络是一种大规模的并行分布式处理器, 天然具有存储并使用经验知识的能力 它从两个方面上模拟大脑 :() 网络获取的知识是通过学习来获取的 ;(2) 内部神经元的连接强度, 即突触权重, 用于储存获取的知识 Haykin [994] 人工神经网络 (Artificial Neural Network,ANN) 是指一系列受生物学和神经学启发的数学模型 这些模型主要是通过对人脑的神经元网络进行抽象,

More information

Microsoft Word - 机器学习与深度学习常见面试题(上).docx

Microsoft Word - 机器学习与深度学习常见面试题(上).docx 机器学习与深度学习常见面试题 ( 上 ) 一年一度的校园招聘已经开始了, 为了帮助参加校园招聘 社招的同学更好的准备面试, SIGAI 整理出了一些常见的机器学习 深度学习面试题 理解它们, 对你通过技术面试非常有帮助, 当然, 我们不能只限于会做这些题目, 最终的目标是真正理解机器学习与深度学习的原理 应用 1. 比较 Boosting 和 Bagging 的异同二者都是集成学习算法, 都是将多个弱学习器组合成强学习器的方法

More information

3.1 ( ) (Expectation) (Conditional Mean) (Median) Previous Next

3.1 ( ) (Expectation) (Conditional Mean) (Median) Previous Next 3-1: 3.1 ( )........... 2 3.1.1 (Expectation)........ 2 3.1.2............. 12 3.1.3 (Conditional Mean)..... 17 3.1.4 (Median)............ 22 Previous Next First Last Back Forward 1 1.. 2. ( ): ( ), 3.

More information

-2 4 - cr 5 - 15 3 5 ph 6.5-8.5 () 450 mg/l 0.3 mg/l 0.1 mg/l 1.0 mg/l 1.0 mg/l () 0.002 mg/l 0.3 mg/l 250 mg/l 250 mg/l 1000 mg/l 1.0 mg/l 0.05 mg/l 0.05 mg/l 0.01 mg/l 0.001 mg/l 0.01 mg/l () 0.05 mg/l

More information

koji-13.dvi

koji-13.dvi 26 13 1, 2, 3, 4, 5, 6, 7 1 18 1. xy D D = {(x, y) y 2 x 4 y 2,y } x + y2 dxdy D 2 y O 4 x 2. xyz D D = {(x, y, z) x 1, y x 2, z 1, y+ z x} D 3. [, 1] [, 1] (, ) 2 f (1)

More information

,!! #! > 1? = 4!! > = 5 4? 2 Α Α!.= = 54? Β. : 2>7 2 1 Χ! # % % ( ) +,. /0, , ) 7. 2

,!! #! > 1? = 4!! > = 5 4? 2 Α Α!.= = 54? Β. : 2>7 2 1 Χ! # % % ( ) +,. /0, , ) 7. 2 ! # %!% # ( % ) + %, ). ) % %(/ / %/!! # %!! 0 1 234 5 6 2 7 8 )9!2: 5; 1? = 4!! > = 5 4? 2 Α 7 72 1 Α!.= = 54?2 72 1 Β. : 2>7 2 1 Χ! # % % ( ) +,.

More information

Microsoft PowerPoint - 第8-3章-Network Module.pptx

Microsoft PowerPoint - 第8-3章-Network Module.pptx 第 8 3 章 :Network Module Definition Module detection Bayesian approach Markov clustering algorithm Network Modular Modularity Suppose we are given a candidate division of the vertices into some number of

More information

幻灯片 1

幻灯片 1 Chap. 17 Parameter Estimation Junhua Chen, PengFei XIao, Big Data Research Center, UESTC Email:huangchen.uestc@gmail.com All the problems of estimating parameters for a Bayesian network in this chapter

More information

! # %& ( %! & & + %!, ( Α Α Α Α Χ Χ Α Χ Α Α Χ Α Α Α Α

! # %& ( %! & & + %!, ( Α Α Α Α Χ Χ Α Χ Α Α Χ Α Α Α Α Ε! # % & ( )%! & & + %!, (./ 0 1 & & 2. 3 &. 4/. %! / (! %2 % ( 5 4 5 ) 2! 6 2! 2 2. / & 7 2! % &. 3.! & (. 2 & & / 8 2. ( % 2 & 2.! 9. %./ 5 : ; 5. % & %2 2 & % 2!! /. . %! & % &? & 5 6!% 2.

More information

clc

clc clc clear all % 一 初始化部分 %1.1 预处理样本数据 % 选取训练样本 (x,y) for i=1:126 x=0+0.0251*(i-1); y(i)=(sin(x)+(x.^2/9+x/3)*exp((-0.5)*(x.^2)))/2; % 待逼近函数 AllSamIn=0:0.0251:pi; % 训练样本输入 AllSamOut=y; % 训练样本输出 % 选取测试样本

More information

! # % & ( & # ) +& & # ). / 0 ) + 1 0 2 & 4 56 7 8 5 0 9 7 # & : 6/ # ; 4 6 # # ; < 8 / # 7 & & = # < > 6 +? # Α # + + Β # Χ Χ Χ > Δ / < Ε + & 6 ; > > 6 & > < > # < & 6 & + : & = & < > 6+?. = & & ) & >&

More information

《分析化学辞典》_数据处理条目_2.DOC

《分析化学辞典》_数据处理条目_2.DOC lg lg ) (lg µ lg lg lg g g g lg lg g lg g () f ma m ) ( ma f ) ( m f w w w w w / s s µ w sw w s w m s s m ( y Y ) w[ y ( a b Q w Q w w + Q w w a b )] a b H H H H H H α H α H H β H H H α H H α H H α α H

More information

! /. /. /> /. / Ε Χ /. 2 5 /. /. / /. 5 / Φ0 5 7 Γ Η Ε 9 5 /

! /. /. /> /. / Ε Χ /. 2 5 /. /. / /. 5 / Φ0 5 7 Γ Η Ε 9 5 / ! # %& ( %) & +, + % ) # % % ). / 0 /. /10 2 /3. /!. 4 5 /6. /. 7!8! 9 / 5 : 6 8 : 7 ; < 5 7 9 1. 5 /3 5 7 9 7! 4 5 5 /! 7 = /6 5 / 0 5 /. 7 : 6 8 : 9 5 / >? 0 /.? 0 /1> 30 /!0 7 3 Α 9 / 5 7 9 /. 7 Β Χ9

More information

➀ ➁ ➂ ➃ Lecture on Stochastic Processes (by Lijun Bo) 2

➀ ➁ ➂ ➃ Lecture on Stochastic Processes (by Lijun Bo) 2 Stochastic Processes stoprocess@yahoo.com.cn 111111 ➀ ➁ ➂ ➃ Lecture on Stochastic Processes (by Lijun Bo) 2 (Stationary Processes) X = {X t ; t I}, n 1 t 1,..., t n I, n F n (t 1,..., t n ; x 1,..., x

More information

世界经典科幻小说全集(第三卷)

世界经典科幻小说全集(第三卷) II I... 1... 4... 9...14...19...23...26...29...33...33...37...49...59...67... 110... 113...124...124...128...130...134...139...145...150...155...161 ...166...167...191...203...222...238...238...240...246...249...254...261...275

More information

幻灯片 1

幻灯片 1 列表 面向服务的计算 量子计算和量子信息 计算机视觉 机器学习 媒体计算 高级计算机视觉 人工智能 机器学习 安全协议形式化方法和验证 机器学习 计算机图形学 图像处理与模式识别 虚拟现实与可视化 高等计算机图形学 言语信息处理 计算机网络, 数据结构 算法设计与分析 深度学习与复杂网络 专业基础课程 : 面向服务的计算 Munindar P. Singh, Michael N. Huhns. Service-Oriented

More information

定积分的基本概念问题的提出 Yunming Xio ( 南京大学数学系 ) 微积分 I( 高等数学 ) Autumn / 23

定积分的基本概念问题的提出 Yunming Xio ( 南京大学数学系 ) 微积分 I( 高等数学 ) Autumn / 23 定积分的基本概念内容提要 1 定积分的基本概念 2 定积分的几何意义 3 定积分的基本性质 4 定积分中值定理 5 变限积分及其性质 6 微积分基本公式 Yunming Xio ( 南京大学数学系 ) 微积分 I( 高等数学 ) Autumn 2016 1 / 23 定积分的基本概念问题的提出 Yunming Xio ( 南京大学数学系 ) 微积分 I( 高等数学 ) Autumn 2016 2 /

More information

6 2016/5/ /6/19 z B (HDM) (CDM) CDM (Λ = 0) (k = +1) Friedmann ( ) dr 2 = Rmax R R 2 (4.1) dθ R(θ) = R max 2 t(θ) = R max 2c (1 cos θ), (4.2) (θ

6 2016/5/ /6/19 z B (HDM) (CDM) CDM (Λ = 0) (k = +1) Friedmann ( ) dr 2 = Rmax R R 2 (4.1) dθ R(θ) = R max 2 t(θ) = R max 2c (1 cos θ), (4.2) (θ 6 206/5/9 206/6/9 z B (HDM) (CDM) CDM (Λ = 0) (k = +) Friedmann ( ) dr 2 = Rmax R R 2 (4.) dθ R(θ) = R max 2 t(θ) = R max 2c ( cos θ), (4.2) (θ sin θ); (4.3) R(θ) θ = 0 θ = π (turn-around time) θ = 2π

More information

<4D F736F F D2035A1A BFBCD1D0CAFDD1A7D2BBD5E6CCE2BCB0B4F0B0B8BDE2CEF6A3A8CEC4B6BCB0E6A3A9>

<4D F736F F D2035A1A BFBCD1D0CAFDD1A7D2BBD5E6CCE2BCB0B4F0B0B8BDE2CEF6A3A8CEC4B6BCB0E6A3A9> 8 考研数学 ( 一 ) 真题及答案解析 ( 文都版 ) 来源 : 文都教育 一 选择题 :~8 小题, 每小题 4 分, 共 3 分. 下列每题给出的四个选项中, 只有一个选项是符合题目要求的.. 下列函数中, 在 处不可导的是 ( ) A. f ( ) si B. f ( ) si C. f ( ) cos D. f ( ) cos 答案 :(D) 解析 : 方法一 : f( ) f() si

More information

& & ) ( +( #, # &,! # +., ) # % # # % ( #

& & ) ( +( #, # &,! # +., ) # % # # % ( # ! # % & # (! & & ) ( +( #, # &,! # +., ) # % # # % ( # Ι! # % & ( ) & % / 0 ( # ( 1 2 & 3 # ) 123 #, # #!. + 4 5 6, 7 8 9 : 5 ; < = >?? Α Β Χ Δ : 5 > Ε Φ > Γ > Α Β #! Η % # (, # # #, & # % % %+ ( Ι # %

More information

试卷

试卷 竞赛试卷 ( 数学专业 参考答案 一 (5 分 在仿射坐标系中 求过点 M ( 与平面 :3x y + z 平行 且与 x y 3 z 直线 l : 相交的直线 l 的方程 4 解法一 : 先求 l 的一个方向向量 X Y Z 因为 l 过点 M 且 l 与 l 相交 所以有 4 X 3 - Y ( Z..4 分 即 X + Y Z...3 分 又因为 l 与 平行 所以有 联立上述两个方程解得 :

More information

精勤求学自强不息 Bor to w! (4) 设函数 s k l( ) 收敛, 则 k ( ) (A) (B) (C)- (D)- 答案 C k s k l( ) o( ) k o( ) 6 k ( k) o( ) 6 因为原级数收敛, 所以 k k. 选 C. (5) 设 是 维单位列向量, E

精勤求学自强不息 Bor to w! (4) 设函数 s k l( ) 收敛, 则 k ( ) (A) (B) (C)- (D)- 答案 C k s k l( ) o( ) k o( ) 6 k ( k) o( ) 6 因为原级数收敛, 所以 k k. 选 C. (5) 设 是 维单位列向量, E Bor to w 7 年全国硕士研究生入学统一考试数学三试题解析 一 选择题 :~8 小题, 每小题 4 分, 共 分, 下列每小题给出的四个选项中, 只有一项符合题目要求 的, 请将所选项前的字母填在答题纸... 指定位置上. cos () 若函数 f ( ) a b,, 在 处连续, 则 ( ) (A) ab (B) ab (C) ab (D) ab 答案 A cos lm lm, f ( )

More information

! Ν! Ν Ν & ] # Α. 7 Α ) Σ ),, Σ 87 ) Ψ ) +Ε 1)Ε Τ 7 4, <) < Ε : ), > 8 7

! Ν! Ν Ν & ] # Α. 7 Α ) Σ ),, Σ 87 ) Ψ ) +Ε 1)Ε Τ 7 4, <) < Ε : ), > 8 7 !! # & ( ) +,. )/ 0 1, 2 ) 3, 4 5. 6 7 87 + 5 1!! # : ;< = > < < ;?? Α Β Χ Β ;< Α? 6 Δ : Ε6 Χ < Χ Α < Α Α Χ? Φ > Α ;Γ ;Η Α ;?? Φ Ι 6 Ε Β ΕΒ Γ Γ > < ϑ ( = : ;Α < : Χ Κ Χ Γ? Ε Ι Χ Α Ε? Α Χ Α ; Γ ;

More information

许丽花 等 应用 3 种遗传分析方法分析养殖鲤与天然群体的遗传差异 第4期 图2 Fig 2 397 图中不同颜色表示不同的聚类 K 值 6 个鲤群体的贝叶斯遗传聚类分析图 Bayesian genetic cluster analysis of t he six populations of com mon carps 表 2 贝叶斯遗传聚类分析中每个群体分属 4 个聚类时的比例 T able 2

More information

2016考研数学三线性代数题目及试题答案

2016考研数学三线性代数题目及试题答案 6 考研数学三真题及答案解析 来源 : 文都教育 () 设函数 f ( ) 在 ( ) 内连续 ; 其导数如图所示 则 ( ) (A) 函数有 个极值点 曲线 f ( ) 在 个拐点 (B) 函数有 个极值点 曲线 f ( ) 在 个拐点 (C) 函数有 个极值点 曲线 f ( ) 在 个拐点 (D) 函数有 个极值点 曲线 f ( ) 在 个拐点 解析 : 导函数图形如图极值的怀疑点为 : a b

More information

02 1974 74 1983 162 1986 14 1979 75 1970 90 1977 69 443 1975 174 1967 10 11 1971 100 69 129 1986 226 129 1979 13 1990 381 1988 58 1986 24 20 30 50 1987 190 1989 158 159 42 1985 34 K.L. 1982 29 1987 39

More information

20 6 30 15 6 30 16 6 30 20 20 11 10 27

20 6 30 15 6 30 16 6 30 20 20 11 10 27 2 1 20 6 30 15 6 30 16 6 30 20 20 11 10 27 801-8511 050 (3530) 8380 http://www.customs.go.jp/moji/ http://www.customs.go.jp/ 1 4 10 5 7 11 8 6 6 3,180 2.1 6 4,533 29.5 5 4,157 18.4 4 5,732 23.1 9,023 1

More information

长 安 大 学 硕 士 学 位 论 文 基 于 数 据 仓 库 和 数 据 挖 掘 的 行 为 分 析 研 究 姓 名 : 杨 雅 薇 申 请 学 位 级 别 : 硕 士 专 业 : 计 算 机 软 件 与 理 论 指 导 教 师 : 张 卫 钢 20100530 长安大学硕士学位论文 3 1 3系统架构设计 行为分析数据仓库的应用模型由四部分组成 如图3 3所示

More information

6.3 正定二次型

6.3 正定二次型 6.3 正定二次型 一个实二次型, 既可以通过正交变换化为标准形, 也可以通过拉格朗日配方法化为标准形, 显然, 其标准形一般来说是不惟一的, 但标准形中所含有的项数是确定的, 项数等于二次型的秩 当变换为实变换时, 标准形中正系数和负系数的个数均是不变的 定理 ( 惯性定理 ) 设有二次型 f =x T Ax, 它的秩为 r, 如果有两个实的可逆变换 x=c y 及 x=c z 分别使 f =k

More information

untitled

untitled Ω min VaRβ ( x) x X T T T rx = E( x y) = x u = rp, x I = 1 R i R i f Ri Rf i R c Rc Rf Rp Rf ρpc...(4) c p c Rc ρcp ( Rp Rf) + Rf...(5) p Rc R f c Rp p ρcp R f R c p p ρ cp r A = rd D ra r rd r > > A A

More information

FZUBRIDGE

FZUBRIDGE 1 2 3 5 8 9 10 11 12 13 14 15 16 17 19 20 21 23 24 25 29 31 32 33 34 M g1 M 1g ( M 2g M 1g )(1 e ( t, ) ) 35 36 M Q M Q g g 1.15M 1.05Q p p 37 max 1 n e max n i1 1 2 i 38 39 n max M Q M Q g g

More information

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3 博 士 后 制 度 实 施 30 周 年 成 果 展 科 大 讯 飞 股 份 有 限 公 司 二 博 士 后 科 研 成 就 胡 国 平 博 士 在 博 士 后 工 作 站 期 间 承 担 的 项 目 为 畅 言 交 互 式 多 媒 体 教 学 系 统 畅 言 交 互 式 多 媒 体 教 学 系 统 是 基 于 科 大 讯 飞 国 际 领 先 的 中 英 文 合 成 识 别 及 自 动 口 语 评

More information

. () ; () ; (3) ; (4).. () : P.4 3.4; P. A (3). () : P. A (5)(6); B. (3) : P.33 A (9),. (4) : P. B 5, 7(). (5) : P.8 3.3; P ; P.89 A 7. (6) : P.

. () ; () ; (3) ; (4).. () : P.4 3.4; P. A (3). () : P. A (5)(6); B. (3) : P.33 A (9),. (4) : P. B 5, 7(). (5) : P.8 3.3; P ; P.89 A 7. (6) : P. () * 3 6 6 3 9 4 3 5 8 6 : 3. () ; () ; (3) (); (4) ; ; (5) ; ; (6) ; (7) (); (8) (, ); (9) ; () ; * Email: huangzh@whu.edu.cn . () ; () ; (3) ; (4).. () : P.4 3.4; P. A (3). () : P. A (5)(6); B. (3) :

More information

K-means

K-means zwp@ustc.edu.cn Office: 1006 Phone: 63600565 http://staff.ustc.edu.cn/~zwp/ http://fisher.stat.ustc.edu.cn 1.1....................... 1 1.2............... 6 1.3.................... 11 1.3.1...............

More information

2007 GRE Math-Sub Nov 3, 2007 Test time: 170 minutes

2007 GRE Math-Sub Nov 3, 2007 Test time: 170 minutes 2007 GRE Math-Sub Nov 3, 2007 Test time: 170 minutes ... zqs... 10 66 60... fz zqs vonneumann vonneumann sub... Bless by Luobo June 21, 2008 1. 2. g(x) = e 2x+1, cos 3x 1 lim x 0 x 2 g(g(x)) g(e) lim x

More information

: Previous Next First Last Back Forward 1

: Previous Next First Last Back Forward 1 7-3: : 7.3.................. 1 7.3.1.............. 2 7.3.2..... 8 7.3.3.............. 12 Previous Next First Last Back Forward 1 7.3,, (X 1,, X n )., H 0 : X F Karl Pearson χ 2. : F ˆF n, D( ˆF n, F ),

More information

: ; # 7 ( 8 7

: ; # 7 ( 8 7 (! # % & ( ) +,. / +. 0 0 ) 1. 2 3 +4 1/,5,6 )/ ) 7 7 8 9 : ; 7 8 7 # 7 ( 8 7 ; ;! #! % & % ( # ) % + # # #, # % + &! #!. #! # # / 0 ( / / 0! #,. # 0(! #,. # 0!. # 0 0 7 7 < = # ; & % ) (, ) ) ) ) ) )!

More information

器之 间 向一致时为正 相反时则为负 ③大量电荷的定向移动形成电 流 单个电荷的定向移动同样形成电流 3 电势与电势差 1 陈述概念 电场中某点处 电荷的电势能 E p 与电荷量 q Ep 的比值叫做该点处的电势 表达式为 V 电场中两点之间的 q 电势之差叫做电势差 表达式为 UAB V A VB 2 理解概念 电势差是电场中任意两点之间的电势之差 与参考点的选择无关 电势是反映电场能的性质的物理量

More information

Microsoft PowerPoint - 09_24_Convergence.ppt

Microsoft PowerPoint - 09_24_Convergence.ppt 第五章 : 随机变量的收敛性 随机样本 :IID 样本, 统计量 : 对随机样本的概括 Y = T X1 X X (,..., ) X1, X..., X X i ~ F Y 为随机变量,Y 的分布称为统计量的采样分布 如 : 样本均值 样本方差 样本中值 收敛性 : 当样本数量 趋向无穷大时, 统计量的变化 大样本理论 极限定理 渐近理论 对统计推断很重要 收敛性 主要讨论两种收敛性 依概率收敛

More information

# #! ) ( ( +,! %,! ( # # %& % ( ) +! +, +. /

# #! ) ( ( +,! %,! ( # # %& % ( ) +! +, +. / ! ( ) # # % % ( % % %! % % & % # #! ) ( ( +,! %,! ( # # %& % ( ) +! +, +. / 12 23 4 5 6 7 3.! (. ( / ( ) ). 1.12 ( 4 4 % & &!7 % (!!!!, (! % !!! % %!,! ( & (!! 8!!!,!!+!! & !!%! & 9 3 3 :;

More information

LN htm

LN htm kaoya.om Leure Noes 7 4/9/8 随机过程 一随机过程. 随机过程的描述 () 是一簇随机变量, 给定一个时间, 就是一个随机变量 () 以函数为样本的随机事件 因为是无限个随机变量, 所以需要任意 N 维分布才能完全描述其分布特性. 平稳 平稳的意思就是与绝对时间无关 如果一维 二维特性与绝对时间无关, 称宽平稳或广义平稳 以后说的平稳都指宽平稳 定义 : 随机过程的自相关函数定义为

More information

!!! #! )! ( %!! #!%! % + % & & ( )) % & & #! & )! ( %! ),,, )

!!! #! )! ( %!! #!%! % + % & & ( )) % & & #! & )! ( %! ),,, ) ! # % & # % ( ) & + + !!! #! )! ( %!! #!%! % + % & & ( )) % & & #! & )! ( %! ),,, ) 6 # / 0 1 + ) ( + 3 0 ( 1 1( ) ) ( 0 ) 4 ( ) 1 1 0 ( ( ) 1 / ) ( 1 ( 0 ) ) + ( ( 0 ) 0 0 ( / / ) ( ( ) ( 5 ( 0 + 0 +

More information

附件1:理论课程教学大纲修订样表

附件1:理论课程教学大纲修订样表 一 课程基本信息 概率论与数理统计 A 教学大纲 课程名称概率论与数理统计 A 课程代码 C4803001 英文名称 Probability Theory And Statistics A 归属学科 ( 系 部 ) 统计系 学分 4 学时 64 学时, 其中实践 4 学时开课学期 3 预修课程 高等数学 面向专业计算机 163(33 人 ) 二 课程性质与教学目标 概率论与数理统计 是研究大量随机现象统计规律性的一门学科,

More information

2 6 (A, s) = (P u 1 u 2 u n ) x t (s((u 1 ) x t ), s((u 2 ) x t ),, s((u n ) x t )) P A (s x s(t) (u 1), s x s(t) (u 2),, s x s(t) (u n)) P A (A, s x

2 6 (A, s) = (P u 1 u 2 u n ) x t (s((u 1 ) x t ), s((u 2 ) x t ),, s((u n ) x t )) P A (s x s(t) (u 1), s x s(t) (u 2),, s x s(t) (u n)) P A (A, s x 6 1 6.1 ( ). Γ φ Γ = φ Γ = ψ Γ = ψ φ Γ = φ?? θ xθ?? { x(α β), xα} = xβ x α α xα x x x y (α α ) α α α x y {x y, α} = α A s (A, s) = x ys(x) = s(y) t s(t) = s(t ) t t x y α t 1 t 2 α t 1 t 2 (A, s) = α s(t

More information

从零构建支持向量机(SVM)

从零构建支持向量机(SVM) (SVM) zhangh04@gail.co (SVM),,,,,,,,,,,,,,,,,,,,.,, {(x, y ), (x, y ),..., (x, y )}, x i R d, y {, }, h: R {, }, h(x i ) = y i, y i = ; h(x i ) = () y i =. i. y i h(x i ) =. (), x i, h(x i ) := sign(w

More information

年 10 月 30 日第 6 章网络优化与正则化 网络结构多样性神经网络的种类非常多, 比如卷积网络 循环网络等, 其结构也非常不同 有些比较深, 有些比较宽 不同参数在网络中的作用也有很大的差异, 比如连接权重和偏置的不同, 以及循环网络中循环连接上的权重和其它权

年 10 月 30 日第 6 章网络优化与正则化 网络结构多样性神经网络的种类非常多, 比如卷积网络 循环网络等, 其结构也非常不同 有些比较深, 有些比较宽 不同参数在网络中的作用也有很大的差异, 比如连接权重和偏置的不同, 以及循环网络中循环连接上的权重和其它权 第 6 章 网络优化与正则化 任何数学技巧都不能弥补信息的缺失 Cornelius Lanczos,1964 虽然神经网络具有非常强的表达能力, 但是当应用神经网络模型到机器学习时依然存在一些难点 主要分为两大类 : (1) 优化问题 : 神经网络模型是一个非凸函数, 再加上在深度网络中的梯度消失问题, 很难进行优化 ; 另外, 深层神经网络模型一般参数比较多, 训练数据也比较大, 会导致训练的效率比较低

More information

PowerPoint Presentation

PowerPoint Presentation 随机过程 Stochasstic processes 西安电子科技大学数学系教师冯海林 1 引言 随机过程的研究对象随机过程是研究随机现象随时间变化过程中的规律性的一门数学学科. 是概率论的深入和发展. 引言 随机过程应用广泛 随机过程在自然科学 社会科学以及工程技术的各领域均有应用. 在我校的一些专业 : 雷达 通信 无线电技术 自动控制 生物工程 经济管理等领域有着极为广泛的应用. 3 引言 教材与参考教材

More information

标题

标题 共 青 团 中 央 文 件 中 青 发 也 2010 页 8 号 茵 绎 关 于 表 彰 2009 年 度 全 国 优 秀 共 青 团 员 冶 全 国 优 秀 共 青 团 干 部 冶 全 国 五 四 红 旗 团 委 ( 团 支 部 ) 冶 的 决 定 (2010 年 4 月 28 日 ) 2009 年 以 来, 全 国 各 级 团 组 织 按 照 力 争 使 团 的 基 层 组 织 网 络 覆 盖

More information

# # # #!! % &! # % 6 & () ) &+ & ( & +, () + 0. / & / &1 / &1, & ( ( & +. 4 / &1 5,

# # # #!! % &! # % 6 & () ) &+ & ( & +, () + 0. / & / &1 / &1, & ( ( & +. 4 / &1 5, # # # #!! % &! # % 6 & () ) &+ & ( & +, () + 0. / & / &1 / &1, & ( 0 2 3 ( & +. 4 / &1 5, !! & 6 7! 6! &1 + 51, (,1 ( 5& (5( (5 & &1 8. +5 &1 +,,( ! (! 6 9/: ;/:! % 7 3 &1 + ( & &, ( && ( )

More information

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A 5 200 2 Vol 5 No JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb 200 2 2 50080 2 30024 O2 A 007-2683 200 0-0087- 05 A Goodness-of-fit Test Based on Empirical Likelihood and Application ZHOU

More information

5 551 [3-].. [5]. [6]. [7].. API API. 1 [8-9]. [1]. W = W 1) y). x [11-12] D 2 2πR = 2z E + 2R arcsin D δ R z E = πr 1 + πr ) 2 arcsin

5 551 [3-].. [5]. [6]. [7].. API API. 1 [8-9]. [1]. W = W 1) y). x [11-12] D 2 2πR = 2z E + 2R arcsin D δ R z E = πr 1 + πr ) 2 arcsin 38 5 216 1 1),2) 163318) 163318). API. TE256 A doi 1.652/1-879-15-298 MODE OF CASING EXTERNA EXTRUSION BASED ON THE PRINCIPE OF VIRTUA WORK 1) ZHAO Wanchun,2) ZENG Jia WANG Tingting FENG Xiaohan School

More information

% %! # % & ( ) % # + # # % # # & & % ( #,. %

% %! # % & ( ) % # + # # % # # & & % ( #,. % !!! # #! # % & % %! # % & ( ) % # + # # % # # & & % ( #,. % , ( /0 ) %, + ( 1 ( 2 ) + %, ( 3, ( 123 % & # %, &% % #, % ( ) + & &% & ( & 4 ( & # 4 % #, #, ( ) + % 4 % & &, & & # / / % %, &% ! # #! # # #

More information

M ( ) K F ( ) A M ( ) 1815 (probable error) F W ( ) J ( ) n! M ( ) T ( ) L ( ) T (171

M ( ) K F ( ) A M ( ) 1815 (probable error) F W ( ) J ( ) n! M ( ) T ( ) L ( ) T (171 1 [ ]H L E B ( ) statistics state G (150l--1576) G (1564 1642) 16 17 ( ) C B (1623 1662) P (1601--16S5) O W (1646 1716) (1654 1705) (1667--1748) (1687--H59) (1700 1782) J (1620 1674) W (1623 1687) E (1656

More information

1 7 10 240 í é é í º 182 230nm A X 240

More information

54 48 6-7 word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra

54 48 6-7 word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra Journal of South China Normal University Natural Science Edition 2016 48 3 53-58 doi 106054 /jjscnun201605006 1 2* 2 3 2 1 510631 2 3 510225 Glove TP3911 A 1000-5463 2016 03-0053-06 Research on Academic

More information

&! +! # ## % & #( ) % % % () ) ( %

&! +! # ## % & #( ) % % % () ) ( % &! +! # ## % & #( ) % % % () ) ( % &! +! # ## % & #( ) % % % () ) ( % ,. /, / 0 0 1,! # % & ( ) + /, 2 3 4 5 6 7 8 6 6 9 : / ;. ; % % % % %. ) >? > /,,

More information

吉林大学学报 工学版 244 第 4 卷 复杂 鉴于本文篇幅所限 具体公式可详见参考文 献 7 每帧的动力学方程建立及其解算方法如图 3 所示 图4 滚转角速度与输入量 η 随时间的变化波形 Fig 4 Waveform of roll rate and input η with time changing 图5 Fig 5 滚转角随时间的变化波形 Waveform of roll angle with

More information