第 31 卷 第 12 期 电 子 与 信 息 学 报 Vol.31No.12 2009 年 12 月 Journal of lectronics & nformation Technology Dec..2009 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 赵 晖 唐 朝 京 ( 国 防 科 技 大 学 电 子 科 学 与 工 程 学 院 长 沙 410073) 摘 要 : 为 了 合 成 具 有 真 实 感 的 视 频 序 列, 该 文 提 出 一 种 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 方 法 根 据 汉 语 的 发 音 规 律 和 音 素 与 视 素 的 对 应 关 系, 该 文 提 出 视 频 三 音 素 的 概 念 在 此 基 础 上, 建 立 隐 马 尔 可 夫 (HMM) 训 练 与 合 成 模 型, 在 训 练 过 程 中 使 用 了 视 频 音 频 联 合 特 征, 并 加 入 了 动 态 特 征 在 合 成 过 程 中, 连 接 视 频 三 音 素 HMM 模 型 形 成 句 子 HMM, 并 从 中 提 取 特 征 参 数, 合 成 可 视 语 音 从 主 观 和 客 观 评 估 结 果 来 看, 合 成 视 频 的 真 实 感 强, 满 意 度 较 高 关 键 词 : 可 视 语 音 合 成 ; 视 频 三 音 素 ; 隐 马 尔 可 夫 模 型 ; 联 合 特 征 中 图 分 类 号 :TP391.42 文 献 标 识 码 : 文 章 编 号 :1009-5896(2009)12-3010-05 Visual Speech Synthesis lgorithm Based on Chinese Visual Triphone hao Hui Tang Chao-jing (College of lectronic Science and ngineering, National niversity of Defense Technology, Changsha 410073, China) bstract: n order to synthesize real video sequence, a visual speech synthesis algorithm based on Chinese visual triphone is proposed. ccording to Chinese pronunciation principle and the relationship between phoneme and viseme, conception of visual triphone is presented. Hidden Markov Model(HMM) is established based on visual triphones. n the training stage, combined features including visual features and audio features are used. n the synthesis stage, sentence HMM is constructed by concatenating triphone HMMs, from which the feature parameters are extracted. From the result of subjective and objective evaluation, the synthesized video is real and satisfied. Key words: Visual speech synthesis; Visual triphone; Hidden Markov Model(HMM); Combined features 1 引 言 可 视 语 音 是 指 人 们 在 用 语 言 交 流 时 所 表 达 出 的 面 部 动 作, 它 能 在 一 定 程 度 上 传 达 人 们 想 要 表 达 的 意 思, 帮 助 人 们 加 深 对 语 言 的 理 解 研 究 表 明, 在 环 境 噪 声 较 大 或 听 者 有 听 力 障 碍 的 情 况 下, 如 果 在 给 出 声 音 信 息 的 同 时 能 给 出 一 个 讲 话 的 头, 则 会 大 大 改 善 人 们 对 声 音 的 理 解 [1,2] 近 年 来, 在 可 视 语 [3 7] 音 合 成 的 研 究 领 域 取 得 了 较 多 的 研 究 成 果, 但 其 所 使 用 的 视 素 模 型 多 是 静 态 的, 难 以 体 现 视 频 图 像 连 续 变 化 的 特 点, 且 很 可 能 产 生 跳 变 现 象 文 本 针 对 汉 语 发 音 特 点, 提 出 视 频 三 音 素 的 分 类 方 法, 并 在 此 基 础 上 提 出 一 种 基 于 视 频 三 音 素 的 HMM 训 练 和 合 成 模 型 2 汉 语 语 音 三 音 素 结 构 汉 语 普 通 话 由 音 节 连 接 而 成, 音 节 由 更 小 的 语 音 单 元 音 素 构 成, 即 汉 语 的 和 韵 母 虽 然 音 素 可 以 作 为 描 述 汉 语 普 通 话 的 最 小 单 位, 但 音 素 在 连 2008-12-05 收 到,2009-06-19 改 回 国 家 部 委 基 金 (51329060101) 资 助 课 题 续 语 流 中 很 难 以 稳 定 形 式 存 在 它 受 左 右 相 邻 音 素 的 影 响, 同 时 又 会 影 响 相 邻 音 素, 导 致 其 在 声 学 上 的 表 现 形 式 和 孤 立 音 节 有 很 大 区 别 而 三 音 素 描 写 的 正 是 一 个 音 素 的 稳 定 段 及 向 左 右 两 边 音 素 的 过 渡 部 分, 体 现 了 语 言 的 协 同 发 音 现 象 一 般 来 说, 三 音 素 将 和 韵 母 作 为 中 心 建 模 单 位, 并 考 虑 左 右 音 素 的 影 响 三 音 素 模 型 可 以 写 成 X-Y- 的 形 式, X 代 表 左 面 与 其 相 邻 的 或 韵 尾,Y 代 表 或 韵 母, 代 表 右 面 与 其 相 邻 的 或 韵 头 [8], 见 表 1 X a, o, e, er, i, i1, i2, u, ü, -n, -ng, 静 音, 21 个 b, p, m, f, d, t, n, l, g, k, h, j, q, x, z, c, s, zh, ch, sh, r 表 1 三 音 素 的 组 成 Y 韵 母 a, o, e, i, i1, i2, u, ü, er, ai, ao, an, ang, ia, iao, ian, iang, ua, uai, uan, uang, üan, ou, ong, uo, iou, iong, ei, en, eng, ie, in, ing, un, ün, üe, ui a, o, e, er, i, i1, i2, u,ü, 静 音, 21 个
第 12 期 赵 晖 等 : 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 3011 表 1 中 i1 对 应 zi,ci,si 中 的 i,i2 对 应 zhi, chi, shi 中 的 i; 而 er 虽 然 是 由 单 韵 母 e 和 r 组 成, 但 其 发 音 比 较 特 殊, 在 发 音 过 程 中 口 型 几 乎 没 有 发 生 变 化, 仍 认 为 它 是 单 韵 母 3 汉 语 视 频 三 音 素 视 素 (Viseme) 是 指 与 音 素 (phoneme) 相 对 应 的 [3,4] 唇 部 状 态 一 些 针 对 汉 语 视 素 的 研 究 文 章 仅 仅 考 虑 了 和 韵 母 单 独 发 音 时 所 对 应 的 静 态 视 素, 由 于 协 同 发 音 现 象 的 存 在, 利 用 静 态 视 素 合 成 可 视 语 音 时, 势 必 会 出 现 唇 部 图 像 不 连 续 或 跳 跃 的 情 况 为 解 决 此 问 题, 本 文 根 据 音 素 和 视 素 的 多 对 一 关 系, 将 汉 语 三 音 素 精 简 归 类, 得 到 视 频 三 音 素 采 用 已 有 的 研 究 成 果 [9], 根 据 唇 部 特 征 参 数, 利 用 模 糊 C- 均 值 算 法 对 音 素 聚 类 将 聚 类 为 B,D,J,, H 共 5 类, 将 韵 母 聚 类 为,,,, 共 5 类, 每 一 类 对 应 一 个 视 素, 对 表 1 中 X,Y 和 对 应 的 内 容 归 类, 见 表 2 根 据 表 2 的 归 类 结 果, 简 化 表 1 中 的 内 容, 得 到 视 频 三 音 素 的 组 成, 见 表 3 视 频 三 音 素 在 不 包 括 静 音 的 情 况 下 有 625 个, 在 包 括 静 音 的 情 况 下 有 750 个, 极 大 精 简 了 表 1 中 三 音 素 的 类 型 为 了 分 析 汉 语 视 频 三 音 素 的 统 计 特 性, 需 要 计 算 它 在 汉 语 语 料 中 的 分 布 概 率 从 理 论 上 讲, 如 果 某 一 视 频 三 音 素 在 汉 语 全 部 语 料 中 的 个 韵 母 类 类 表 2 根 据 唇 部 特 征 对 和 韵 母 归 类 的 结 果 X 中 韵 尾 分 类 Y 中 韵 母 分 类 中 韵 头 分 类 B D J H b, p, m, f d, t, n, l, g, k, h j, q, x z, c, s zh, ch, sh, r a, an, ang ao, o, ong e, er, en, eng i, i1, i2, ai, ei, in, ing u, ü, ou, un, ün a, ai, ao, an, ang, ia, iao, ian, iang, ua, uai, uan, uang, üan o, ou, ong, uo, iou, iong e, er, ei, en, eng, ie i, i1, i2, in, ing u, ü, un, ün, üe, ui a, ai, ao, an, ang o, ou, ong e, er, ei, en, eng, i, i1, i2, in, ing u, ü, un, ün X,,,,, B, D, J,, H, 静 音 表 3 视 频 三 音 素 的 组 成 B, D, J,, H Y 韵 母,,,,,,,,, B, D, J,, H, 静 音 数 为 N tri, 而 汉 语 中 全 部 语 料 所 包 含 的 视 频 三 音 素 的 总 个 数 为 N total, 则 该 视 频 三 音 素 的 分 布 概 率 Pdis = Ntri / Ntotal (1) 实 际 情 况 下, 不 可 能 通 过 计 算 全 部 语 料 来 得 到 因 此, 我 们 建 立 了 汉 语 双 模 态 语 料 库 Bi- P dis VSSDatabase, 其 中 的 双 模 态 语 料 包 含 视 频 和 音 频 信 息, 以 视 频 三 音 素 作 为 描 述 连 续 语 音 和 视 频 的 基 本 单 位 和 语 言 现 象, 能 够 覆 盖 各 种 语 言 现 象, 可 用 来 模 拟 汉 语 语 料 的 分 布 情 况 根 据 语 料 库 内 容 计 算 视 频 三 音 素 的 分 布 概 率 P ' dis = N ' tri / N ' total 当 某 个 视 ' 频 三 音 素 的 P dis < 1% 时, 说 明 其 出 现 概 率 很 小, 不 会 影 响 可 视 语 音 合 成 质 量 因 此, 在 训 练 时 舍 弃 此 类 视 频 三 音 素 经 统 计, 符 合 条 件 可 参 加 训 练 的 视 频 三 音 素 的 数 量 为 329 个 4 特 征 提 取 4.1 唇 部 特 征 参 数 利 用 2 维 阈 值 快 速 分 割 算 法 分 割 视 频 图 像, 提 取 出 唇 部 特 征, 如 图 1, 图 中 的 7 个 参 数 为 原 始 唇 部 参 数, x 为 唇 部 中 线 到 边 缘 的 距 离, u 0 为 唇 部 中 线 上 半 部 的 高 度, d 0 为 中 线 下 半 部 的 高 度, u 1, d 1, u 2, d 2 分 别 为 x 三 分 点 处 相 应 的 高 度 在 时 刻 t 的 图 像 帧, 原 始 唇 部 参 数 为 vt = [, x u0, d0, u1, d1, u2, d2] 图 1 唇 部 参 数 为 了 体 现 唇 部 运 动 时 的 动 态 特 性 [5], 计 算 唇 部 的 动 态 参 数 : L Δ vt = wv( μ ) vt+ μ (2) μ= L wv( μ ) 为 权 值 参 数, 由 原 始 唇 部 参 数 v t 和 动 态 唇 部 参 数 Δ vt 组 成 了 14 维 唇 部 特 征 参 数 Fvt = [ vt, Δ vt ] 4.2 音 频 特 征 参 数 Mel 倒 谱 系 数 (MFCC) 符 合 临 界 频 率 和 人 耳 听 觉 特 性, 区 分 能 力 较 强 计 算 公 式 如 下 :
3012 电 子 与 信 息 学 报 第 31 卷 N 2 π Cti (, ) = lg [ mel (, tj)cos ] ij ( 0.5) N N (3) j= 1 N 为 三 角 滤 波 器 个 数, mel (, t j ) 为 t 时 刻 第 j 个 滤 波 器 输 出 的 能 量,{ Cti (, )} i = 1,2,, P 为 t 时 刻 对 应 的 MFCC 参 数, P 为 阶 数 同 样, 为 了 体 现 音 频 特 征 参 数 的 动 态 特 性, 计 算 语 音 的 动 态 参 数 : L Δ at = wa( μ ) at+ μ (4) μ= L wa( μ ) 为 权 值 参 数, 由 原 始 音 频 参 数 a t 和 动 态 音 频 参 数 Δ a 组 成 了 36 维 音 频 特 征 参 数 F = [ a, Δ a ] t 5 HMM 的 训 练 与 可 视 语 音 合 成 at t t 利 用 双 模 态 语 音 特 征, 提 出 基 于 视 频 三 音 素 HMM 的 可 视 语 音 合 成 方 法 图 2 为 训 练 过 程, 从 双 模 态 语 料 库 中 提 取 语 料 并 切 分 三 音 素, 根 据 视 频 三 音 素 分 类 原 则 对 语 料 归 类, 分 别 提 取 唇 部 特 征 和 语 音 特 征, 形 成 视 频 音 频 联 合 特 征, 并 将 其 作 为 观 察 矢 量 训 练 HMM 模 型, 形 成 视 频 三 音 素 训 练 模 型 () 集 CVT-HMM i, i = 1, 2,, 329, 模 型 采 用 无 跨 越 从 左 向 右 模 型, 状 态 数 为 6 以 句 子 : 北 京 欢 迎 你 为 例, 拼 音 为 sil-beijinghuanyingni-sil, sil 代 表 静 音, 所 包 含 的 三 音 素 为 b(sil,ei),ei(b,j),j(ei,ing),ing(j,h), h(ing,uan), uan(h,ing), ing(uan,n), n(ing,i),i (n,sil), 根 据 表 2, 得 到 视 频 三 音 素 :B(sil,),(B,J), J(,),(J,D),D(,),(D,),(,D),D(,), (D,sil) 合 成 过 程 如 图 3 所 示, 输 入 待 合 成 的 文 本 内 容, 根 据 三 音 素 切 分 结 果, 连 缀 三 音 素 HMM 模 型, 形 成 对 应 输 入 文 本 的 句 子 HMM 模 型 根 据 Viterbi 算 法 得 到 文 本 的 联 合 特 征 参 数 FF 1 2 FT, 采 用 基 于 最 大 似 然 估 计 的 唇 形 生 成 算 法 得 到 唇 动 视 频 6 实 验 结 果 从 Bi-VSSDatabase 选 出 31070 个 句 子 录 制 时 使 用 高 清 数 码 摄 像 机 和 麦 克 风, 视 频 帧 速 率 为 24 Hz, 每 帧 图 像 的 分 辨 率 为 640 360, 语 音 采 样 率 为 44100 Hz, 量 化 值 为 16 bit 经 统 计, 预 料 中 包 含 共 705 个 视 频 三 音 素, 对 视 频 三 音 素 的 覆 盖 率 为 94.0%, 包 括 了 符 合 训 练 条 件 的 全 部 329 个 视 频 三 音 素, 能 够 保 证 HMM 的 正 常 训 练 与 合 成 挑 选 5 个 人 的 语 料 (3 男 2 女 ) 共 1000 个 句 子, 每 人 200 句, 其 中 150 5 句 为 训 练 用 数 据, 其 他 50 5 句 用 来 验 证 合 成 效 果 当 输 入 联 合 国 和 郑 和 下 西 洋 两 个 短 句 时, 输 出 的 视 频 合 成 效 果 如 图 4 所 示, 可 以 看 出, 合 成 的 视 频 图 像 平 稳 连 续, 真 实 感 强 图 5 为 这 两 个 短 句 的 实 际 唇 部 高 度 ( 图 1 中 l = u0 + d0) 与 合 成 唇 部 高 度 的 对 比 曲 线 实 线 为 唇 部 发 音 的 真 实 高 度 曲 线 ; 点 虚 线 为 采 用 视 频 单 音 素 的 方 法 合 成 的 视 频 唇 部 高 度 曲 线 ; 长 虚 线 为 本 文 方 法, 即 视 频 三 音 素 方 法 合 成 的 视 频 唇 部 高 度 曲 线 从 图 中 可 见, 基 于 单 音 素 的 方 法 存 在 视 频 帧 跳 变 的 情 况, 与 实 际 误 差 较 大 ; 而 基 于 视 频 三 音 素 的 方 法 由 于 考 虑 了 视 频 上 下 文 的 连 贯 性, 与 基 于 单 因 子 的 方 法 相 比, 唇 部 曲 线 更 加 平 滑, 合 成 的 唇 部 动 作 接 近 实 际, 与 实 际 唇 部 高 度 曲 线 十 分 吻 合 为 了 能 更 好 地 描 述 合 成 结 果, 需 要 对 输 出 的 合 成 唇 部 视 频 进 行 主 观 评 价 和 客 观 评 价 参 考 MS 图 2 HMM 的 训 练 过 程 图 3 基 于 汉 语 视 频 三 音 素 HMM 的 可 视 语 音 合 成 过 程
第 12 期 赵 晖 等 : 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 3013 图 4 可 视 语 音 合 成 效 果 图 图 5 唇 部 高 度 对 比 曲 线 评 分 方 法, 定 义 主 观 评 测 标 准 为 7 分 制 :5- 非 常 自 然,4.5- 自 然,4- 比 较 自 然,3.5- 不 太 自 然,3- 可 接 受,2- 比 较 差,1- 不 能 接 受 客 观 也 采 用 同 样 的 7 分 制 设 视 频 中 实 际 唇 部 高 度 序 列 为 l real ( 图 5 中 的 实 线 ), 合 成 唇 部 的 高 度 为 l syn ( 图 5 中 的 长 虚 线 ) 实 际 高 度 与 合 成 高 度 的 差 值 序 列 为 ldiff = abs( lreal lsyn) (5) 在 对 合 成 视 频 序 列 进 行 客 观 评 测 时, 既 要 考 虑 实 际 高 度 序 列 与 合 成 高 度 序 列 的 总 体 平 均 差 距, 又 要 考 虑 单 帧 的 个 体 差 距, 根 据 l Diff 的 均 值 和 方 差 Var 定 义 客 观 评 测 标 准, 见 表 4 随 机 抽 取 15 个 短 句 并 进 行 主 观 评 测 和 客 观 评 测, 见 表 5 客 观 评 测 分 表 4 客 观 标 准 标 准 定 义 5 <0.1 且 Var <0.001 4.5 <0.2 且 Var <0.002 4 <0.3 且 Var <0.004 3.5 <0.4 且 Var <0.01 3 <0.5 且 Var <0.03 2 <0.6 且 Var <0.1 1 0.5 且 Var 0.1 短 句 内 容 表 5 15 个 短 句 主 观 和 客 观 比 较 基 于 视 频 单 音 素 方 法 主 观 客 观 主 观 本 文 方 法 客 观 联 合 国 3 4 4 4.5 郑 和 下 西 洋 3.5 4 4 4 国 防 科 技 3 3 3 3.5 好 看 的 电 影 4 4.5 4.5 5 永 远 的 画 面 3 4 4 4.5 天 气 很 凉 3 3.5 4 4 没 完 没 了 3 3.5 4.5 4 社 会 主 义 3.5 4 4.5 4 排 第 一 4 4.5 5 5 大 江 东 去 3.5 3.5 3.5 3.5 这 座 山 很 高 3.5 4.5 4 5 多 多 益 善 3 4 3.5 4 莎 士 比 亚 4 4 4 4.5 人 民 解 放 军 2 3 3 3.5 五 星 级 饭 店 2 3 3 3 从 主 观 评 测 和 客 观 评 测 的 结 果 来 看, 用 本 文 方 法 所 合 成 的 可 视 语 音 满 意 度 较 高, 可 信 度 较 高 且 真 实 感 强 而 基 于 单 音 素 的 方 法 中 甚 至 出 现 了 主 观 满 意 度 比 较 差 的 情 况 ( 人 民 解 放 军 和 五 星 级 饭
3014 电 子 与 信 息 学 报 第 31 卷 店 ) 另 外, 无 论 何 种 方 法, 客 观 一 般 要 高 于 主 观, 说 明 人 眼 对 视 频 中 的 合 成 痕 迹 较 为 敏 感, 对 真 实 感 的 要 求 较 高 7 结 束 语 为 了 实 现 高 质 量 的 可 视 语 音 合 成, 本 文 提 出 一 种 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 方 法 实 验 结 果 表 明, 本 文 方 法 的 合 成 结 果 质 量 较 高, 图 像 连 续 平 稳, 真 实 感 强, 不 存 在 图 像 跳 变 的 情 况 下 一 步 的 工 作 要 进 一 步 优 化 现 有 HMM 的 模 型 结 构, 提 高 运 算 速 度, 以 满 足 实 时 性 要 求 参 考 文 献 [1] Summerfield Q. se of visual information in phonetic perception[j]. Phonetic, 1979, 36(4/5): 314-331. [2] McGurk H and Macdonald J. Hearing lips and seeing voices[j]. Nature, 1976, 264(5588): 746-748. [3] Perng Woei-luen, Wu Yung-kang, and Ming uh-young. mage talk: a real time synthetic talking head using one single image with Chinese text-to-speech capability[c]. Sixth Pacific Conference on Computer Graphics and pplications, Singapore, 1998: 140-148. [4] 王 志 明, 蔡 莲 红, 吴 志 勇. 汉 语 文 本 - 可 视 语 音 转 换 的 研 究 [J]. 小 型 微 型 计 算 机 系 统, 2002, 23(4): 474-477. Wang hi-ming, Cai Lian-hong, and Wu hi-yong. Study of text to visual speech in Chinese[J]. Mini-Micro-System, 2002, 23(4): 474-477. [5] Masuko T, Kobayashi T, and Tamura M, et al.. Text-to- visual speech synthesis based on parameter generation from HMM[C]. nternational Conference on coustics, Speech and Signal Processing, Seattle, S, 1998, 6: 3745-3748. [6] Jiang Jin-tao, ronoff J M, and Bernstein L. Development of a visual speech synthesizer via second-order isomorphism[c]. nternational Conference on coustics, Speech and Signal Processing, Las Vegas, S, 2008: 4677-4680. [7] hou Wei and Wang eng-fu. Speech animation based on Chinese mandarin triphone model. 6th /CS nternational Conference on Computer and nformation Science, Melbourne, ustralia, July 2007: 924-929. [8] 吴 华, 徐 波, 黄 泰 翼. 基 于 三 音 素 模 型 的 语 料 自 动 选 取 算 法 [J]. 软 件 学 报, 2000, 11(2): 271-276. Wu Hua, Xu Bo, and Huang Tai-yi. utomatic corpus selecting algorithm based on triphone models[j]. Journal of Software, 2000, 11(2): 271-276. [9] hao Hui and Tang Chao-jing. Visual speech synthesis based on Chinese dynamic visemes[c]. nternational Conference on nformation and utomation, hangjiajie, China, June, 2008: 139-143. 赵 晖 : 男,1980 年 生, 博 士 生, 研 究 方 向 为 多 媒 体 通 信 可 视 语 音 合 成 和 网 络 图 像 安 全 等. 唐 朝 京 : 男,1962 年 生, 教 授, 研 究 方 向 为 多 媒 体 通 信 网 络 攻 防 对 抗 等.