Microsoft Word - 081634.doc



Similar documents
学 习 习 总 书 记 重 要 讲 话 支 部 轮 训 活 动 大 会 现 场 分 组 讨 论

1

1

残疾儿童康复机构服务规范 第 3 部分:听障儿童康复机构_征求意见稿.doc

38 u i i i u i u uo o e iou eng ing iong er 18 on ian an en in un ang iang uang uo d t n l uo uo z c s ue

<4D F736F F D20372DBDCDADBBB4E4A470BEC7AABABA7EBB79ABF7ADB5B1D0BEC A1D0B6C0A4EBB6EA2E646F63>

i i i u u y er a a e e ia ia i ie i ua ua u ue y e o o uo uo yo i a ia ua ya ie ua ye a ia ua i u y a l eiao yo ia ia ya a a ia uaa ia ua

汉 俄 合 璧 韵 编 中 所 见 的 世 纪 汉 语 语 音 提 要 : 本 文 讨 论 巴 拉 第 等 编 的 汉 俄 合 璧 韵 编 中 的 汉 字 读 音 问 题, 由 此 观 察 19 世 纪 末 的 汉 语 的 音 系, 列 出 声 母 表 韵 母 表, 并 讨 论 其 中 观 察 到

人物篇 走在一條前景無限的長路 專訪姚道中 教授 何沐容 在中國 有一億五千萬人學習英文 相對 全美學習中文的人數 雖然逐年攀高 目前仍 僅達三十幾萬人 這對未來將躍上世界舞台之 頂 有著人口 土地 商機等各種豐厚潛力的 中國而言 要讓口中說的話 成為繼英語之後 第二個全球共通語言 讓更多外國朋友們

fa 5 ta 5 t ie 5 io 5 fa 55 ta 55 t ie 55 io 55 t i 5 i 5 t u 5 5 t t u t n 31 t 31 t a t an 31 t y 31 t an k i 53 21na t


<4D F736F F D20C4A3B0E520D3A2D3EFBFDAD3EFBBFABFBCD6D0D3A2D3EFC8FBD2F4D3EFD2F4CAB6B1F0B5C4B8C4BDF8D0CDB7BDB7A8D1D0BEBF2E646F63>

(CIP) : /. :, (/ ) ISBN T S H CI P (2006) CH IJIASH EN GXIAN G YINSHI WEN H U A Y U CHENGY U 1

untitled

( CIP ) /,,. - :, ISBN H193.2 CIP (2004) JIAOSHI KOUYU YISHU (0898 ) B /

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

(CIP) : /. :, (/ ) ISBN T S H CI P (2006) XIANGPIAOWANLI JIUW ENH UA YU CH ENGYU

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -


2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

2 90%

江苏省高等学校

CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Ps22Pdf

Microsoft Word - 19王建华.doc

Microsoft Word 定版

Microsoft Word doc

元培科技大學 年度「傑出校友」推薦表

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

编 号 :BK01 教 学 资 源 库 支 持 信 息 技 术 与 课 程 深 度 整 合 促 进 学 习 方 式 与 教 学 模 式 的 变 革 与 创 新 资 源 简 介 提 供 小 学 初 中 高 中 15 门 学 科 同 步 教 学 资 源 25.5 万 余 条 涵 盖 教 学 参 考 教

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

Dan Buettner / /

三 教 学 建 议 1. 字 音 教 学 哲 的 声 母 是 zh, 不 要 读 成 z 承 的 声 母 是 ch, 不 要 读 成 c ; 韵 母 是 en 倮, 不 要 读 成 en 倦 的 声 母 是 j, 不 要 读 成 q 则 的 声 母 是 z, 不 要 读 成 zh 颂 的 声 母 是


填 东 海 精 卫 填 海 比 喻 不 畏 艰 难, 努 力 奋 斗 用 这 则 成 语 教 育 学 生 要 有 志 向, 做 事 情 要 学 习 精 卫 填 海 的 精 神, 不 怕 困 难, 锲 而 不 舍 三 教 学 建 议 1. 字 音 教 学 盾 的 韵 母 是 uen, 写 作 un,

2. 读 课 文, 填 空 : (1) 树 上 垂 挂 着 择 怎 侉 (2) 孔 雀 好 像 美 人 拖 着 (3) 象 身 上 刺 着, 耳 朵 上 戴 着, 脖 子 上 系 着 (4) 象 主 人 敲 着, 象 小 姐 踩 着 一 摇 一 晃 的 (5) 小 松 鼠 歪 着, 朝 你 挤 眉

2008 3,,,,,,,( ), (),,,??,,,?,,,, ; (2003, 2005, 2006), ; (2006),,?,,?,,,,,,(, : http :/ / p oe m. guoxue. com :8080/ ), 2, 3,4, ,,,,,,,,,, : (


é é



A A B 1

校园之星

2011年上海市高校精品课程申报表(本科)

中 国 管 理 科 学 年 则 基 于 离 差 最 大 化 的 思 想 综 合 利 用 各 种 赋 权 法 的 优 势 提 出 了 一 种 组 合 赋 权 方 法 求 解 最 优 规 划 模 型 来 确 定 组 合 权 重 王 中 兴 李 桥, 则 认 为 需 要 确 定 的 集 成 权 重 与 已

j n yín

4.1 * / # ,500 5,548^ % ,340 11, , ,000 2, % , % 27.9 ** 7,340 1

CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT ()


jiàn shí

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流



Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

~ ~

1 引言

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~

142 14, 1 ( 1), E E, N 43 N, km 2,,, 1 Fig. 1 Adm inistration map of counties in m iddle and lower reaches of L iaohe R

Mixtions Pin Yin Homepage

第三期芳草地彩版.doc


Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

经 济 与 管 理 耿 庆 峰 : 我 国 创 业 板 市 场 与 中 小 板 市 场 动 态 相 关 性 实 证 研 究 基 于 方 法 比 较 视 角 87 Copula 模 型 均 能 较 好 地 刻 画 金 融 市 场 间 的 动 态 关 系, 但 Copula 模 型 效 果 要 好 于





untitled

考 招 分 離 制 度 v 考 試 與 入 學 招 生 分 開 辦 理 考 試 後 取 得 成 績, 需 向 對 應 之 招 生 委 員 會 報 名, 才 可 取 得 選 填 志 願 及 入 學 資 格





宗 天台宗等其他东亚佛教宗派的研究还多 早期的的西方学者之所以对禅有所向往 一部份是缘于如铃木大拙 7? 之流的日本僧人或学者对禅的推广 其中有 些人本身也学习坐禅 西方学术界的禅学研究原本是跟着如柳田圣山等日本学者的研究 轨迹走的 甚至可以说是源自日本的禅学研究 之后 这些早期的西方禅学研究学者进

第2期定稿.FIT)

, (, 2002).,,. 2002, 16 (), 9, 10, 109.,, 9, 2 (), 7, 30 %(, 2003).,, , 1 557,. 1, (, 2003). ( scenario eart hquake lo ss model

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

c o n t e n t 目 录 学术要闻纵览 刊名题字 王元化 6 封面摄影 徐勇民 7 教育战略协同创新中心成立暨首届教育战略研究学术研讨会在我校召开 装帧设计 Daisy 9 我校在俄罗斯高等经济研究大学设立工作室 大夏人文 编委会 第二届思勉原创奖评审会在我校举行 10 我校成立全国首个

标题

涓浗鏂囧寲

晋委[1999]41号

P.2 6:45 7:00 pm 7:00 7:10 pm 7:10 7:30 pm 7:30 8:00 pm 8:00 8:30 pm P.3 P.4 P.6 P.7 P.10 P.10 P.11 P.12 P.13 P.14 P.15 P.16 P.17 P.24 P.25 P.26 P.27

附件四:

% % CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT % % % % 28.6%

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education


标题

2013 年 科普工作全面扎实推进 科普能力建设稳步增强 科 普队伍继续壮大 科普经费投入增长显著 科普基础设施日益完善 全国科技活动周 等一系列重大科普活动得到公众广泛参与 针对 农村 青少年等特定地区 特定人群的科普活动在保持原有特色的 基础上不断创新 新媒体科普迅速发展 官方的科技资源网络共享

續論

,, , 1 (,2006) %, 1. 47,, %, 4. 5, 84 %(,2008a,2008b,2009),,,,, : %, %,?,,,,,,,,, (20

[1-3] (Smile) [4] 808 nm (CW) W 1 50% 1 W 1 W Fig.1 Thermal design of semiconductor laser vertical stack ; Ansys 20 bar ; bar 2 25 Fig

第二部分

píng liú zú

(Pattern Recognition) 1 1. CCD

mu% l u () () 穴 雪 () ()

Integration of English-Chinese Word Segmentation and Word Alignment

,, 2,,,,,,,,, S7-400 PLC, F M mm ;, AGC 6 mm ;,, 3 AGC AFC ( ) ( ), I/O ET 200M, PROFIBUS-DP S7 400 PLC 1 S7-400 PLC ( HMI) ET200M, PROFIBUS

Transcription:

第 31 卷 第 12 期 电 子 与 信 息 学 报 Vol.31No.12 2009 年 12 月 Journal of lectronics & nformation Technology Dec..2009 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 赵 晖 唐 朝 京 ( 国 防 科 技 大 学 电 子 科 学 与 工 程 学 院 长 沙 410073) 摘 要 : 为 了 合 成 具 有 真 实 感 的 视 频 序 列, 该 文 提 出 一 种 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 方 法 根 据 汉 语 的 发 音 规 律 和 音 素 与 视 素 的 对 应 关 系, 该 文 提 出 视 频 三 音 素 的 概 念 在 此 基 础 上, 建 立 隐 马 尔 可 夫 (HMM) 训 练 与 合 成 模 型, 在 训 练 过 程 中 使 用 了 视 频 音 频 联 合 特 征, 并 加 入 了 动 态 特 征 在 合 成 过 程 中, 连 接 视 频 三 音 素 HMM 模 型 形 成 句 子 HMM, 并 从 中 提 取 特 征 参 数, 合 成 可 视 语 音 从 主 观 和 客 观 评 估 结 果 来 看, 合 成 视 频 的 真 实 感 强, 满 意 度 较 高 关 键 词 : 可 视 语 音 合 成 ; 视 频 三 音 素 ; 隐 马 尔 可 夫 模 型 ; 联 合 特 征 中 图 分 类 号 :TP391.42 文 献 标 识 码 : 文 章 编 号 :1009-5896(2009)12-3010-05 Visual Speech Synthesis lgorithm Based on Chinese Visual Triphone hao Hui Tang Chao-jing (College of lectronic Science and ngineering, National niversity of Defense Technology, Changsha 410073, China) bstract: n order to synthesize real video sequence, a visual speech synthesis algorithm based on Chinese visual triphone is proposed. ccording to Chinese pronunciation principle and the relationship between phoneme and viseme, conception of visual triphone is presented. Hidden Markov Model(HMM) is established based on visual triphones. n the training stage, combined features including visual features and audio features are used. n the synthesis stage, sentence HMM is constructed by concatenating triphone HMMs, from which the feature parameters are extracted. From the result of subjective and objective evaluation, the synthesized video is real and satisfied. Key words: Visual speech synthesis; Visual triphone; Hidden Markov Model(HMM); Combined features 1 引 言 可 视 语 音 是 指 人 们 在 用 语 言 交 流 时 所 表 达 出 的 面 部 动 作, 它 能 在 一 定 程 度 上 传 达 人 们 想 要 表 达 的 意 思, 帮 助 人 们 加 深 对 语 言 的 理 解 研 究 表 明, 在 环 境 噪 声 较 大 或 听 者 有 听 力 障 碍 的 情 况 下, 如 果 在 给 出 声 音 信 息 的 同 时 能 给 出 一 个 讲 话 的 头, 则 会 大 大 改 善 人 们 对 声 音 的 理 解 [1,2] 近 年 来, 在 可 视 语 [3 7] 音 合 成 的 研 究 领 域 取 得 了 较 多 的 研 究 成 果, 但 其 所 使 用 的 视 素 模 型 多 是 静 态 的, 难 以 体 现 视 频 图 像 连 续 变 化 的 特 点, 且 很 可 能 产 生 跳 变 现 象 文 本 针 对 汉 语 发 音 特 点, 提 出 视 频 三 音 素 的 分 类 方 法, 并 在 此 基 础 上 提 出 一 种 基 于 视 频 三 音 素 的 HMM 训 练 和 合 成 模 型 2 汉 语 语 音 三 音 素 结 构 汉 语 普 通 话 由 音 节 连 接 而 成, 音 节 由 更 小 的 语 音 单 元 音 素 构 成, 即 汉 语 的 和 韵 母 虽 然 音 素 可 以 作 为 描 述 汉 语 普 通 话 的 最 小 单 位, 但 音 素 在 连 2008-12-05 收 到,2009-06-19 改 回 国 家 部 委 基 金 (51329060101) 资 助 课 题 续 语 流 中 很 难 以 稳 定 形 式 存 在 它 受 左 右 相 邻 音 素 的 影 响, 同 时 又 会 影 响 相 邻 音 素, 导 致 其 在 声 学 上 的 表 现 形 式 和 孤 立 音 节 有 很 大 区 别 而 三 音 素 描 写 的 正 是 一 个 音 素 的 稳 定 段 及 向 左 右 两 边 音 素 的 过 渡 部 分, 体 现 了 语 言 的 协 同 发 音 现 象 一 般 来 说, 三 音 素 将 和 韵 母 作 为 中 心 建 模 单 位, 并 考 虑 左 右 音 素 的 影 响 三 音 素 模 型 可 以 写 成 X-Y- 的 形 式, X 代 表 左 面 与 其 相 邻 的 或 韵 尾,Y 代 表 或 韵 母, 代 表 右 面 与 其 相 邻 的 或 韵 头 [8], 见 表 1 X a, o, e, er, i, i1, i2, u, ü, -n, -ng, 静 音, 21 个 b, p, m, f, d, t, n, l, g, k, h, j, q, x, z, c, s, zh, ch, sh, r 表 1 三 音 素 的 组 成 Y 韵 母 a, o, e, i, i1, i2, u, ü, er, ai, ao, an, ang, ia, iao, ian, iang, ua, uai, uan, uang, üan, ou, ong, uo, iou, iong, ei, en, eng, ie, in, ing, un, ün, üe, ui a, o, e, er, i, i1, i2, u,ü, 静 音, 21 个

第 12 期 赵 晖 等 : 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 3011 表 1 中 i1 对 应 zi,ci,si 中 的 i,i2 对 应 zhi, chi, shi 中 的 i; 而 er 虽 然 是 由 单 韵 母 e 和 r 组 成, 但 其 发 音 比 较 特 殊, 在 发 音 过 程 中 口 型 几 乎 没 有 发 生 变 化, 仍 认 为 它 是 单 韵 母 3 汉 语 视 频 三 音 素 视 素 (Viseme) 是 指 与 音 素 (phoneme) 相 对 应 的 [3,4] 唇 部 状 态 一 些 针 对 汉 语 视 素 的 研 究 文 章 仅 仅 考 虑 了 和 韵 母 单 独 发 音 时 所 对 应 的 静 态 视 素, 由 于 协 同 发 音 现 象 的 存 在, 利 用 静 态 视 素 合 成 可 视 语 音 时, 势 必 会 出 现 唇 部 图 像 不 连 续 或 跳 跃 的 情 况 为 解 决 此 问 题, 本 文 根 据 音 素 和 视 素 的 多 对 一 关 系, 将 汉 语 三 音 素 精 简 归 类, 得 到 视 频 三 音 素 采 用 已 有 的 研 究 成 果 [9], 根 据 唇 部 特 征 参 数, 利 用 模 糊 C- 均 值 算 法 对 音 素 聚 类 将 聚 类 为 B,D,J,, H 共 5 类, 将 韵 母 聚 类 为,,,, 共 5 类, 每 一 类 对 应 一 个 视 素, 对 表 1 中 X,Y 和 对 应 的 内 容 归 类, 见 表 2 根 据 表 2 的 归 类 结 果, 简 化 表 1 中 的 内 容, 得 到 视 频 三 音 素 的 组 成, 见 表 3 视 频 三 音 素 在 不 包 括 静 音 的 情 况 下 有 625 个, 在 包 括 静 音 的 情 况 下 有 750 个, 极 大 精 简 了 表 1 中 三 音 素 的 类 型 为 了 分 析 汉 语 视 频 三 音 素 的 统 计 特 性, 需 要 计 算 它 在 汉 语 语 料 中 的 分 布 概 率 从 理 论 上 讲, 如 果 某 一 视 频 三 音 素 在 汉 语 全 部 语 料 中 的 个 韵 母 类 类 表 2 根 据 唇 部 特 征 对 和 韵 母 归 类 的 结 果 X 中 韵 尾 分 类 Y 中 韵 母 分 类 中 韵 头 分 类 B D J H b, p, m, f d, t, n, l, g, k, h j, q, x z, c, s zh, ch, sh, r a, an, ang ao, o, ong e, er, en, eng i, i1, i2, ai, ei, in, ing u, ü, ou, un, ün a, ai, ao, an, ang, ia, iao, ian, iang, ua, uai, uan, uang, üan o, ou, ong, uo, iou, iong e, er, ei, en, eng, ie i, i1, i2, in, ing u, ü, un, ün, üe, ui a, ai, ao, an, ang o, ou, ong e, er, ei, en, eng, i, i1, i2, in, ing u, ü, un, ün X,,,,, B, D, J,, H, 静 音 表 3 视 频 三 音 素 的 组 成 B, D, J,, H Y 韵 母,,,,,,,,, B, D, J,, H, 静 音 数 为 N tri, 而 汉 语 中 全 部 语 料 所 包 含 的 视 频 三 音 素 的 总 个 数 为 N total, 则 该 视 频 三 音 素 的 分 布 概 率 Pdis = Ntri / Ntotal (1) 实 际 情 况 下, 不 可 能 通 过 计 算 全 部 语 料 来 得 到 因 此, 我 们 建 立 了 汉 语 双 模 态 语 料 库 Bi- P dis VSSDatabase, 其 中 的 双 模 态 语 料 包 含 视 频 和 音 频 信 息, 以 视 频 三 音 素 作 为 描 述 连 续 语 音 和 视 频 的 基 本 单 位 和 语 言 现 象, 能 够 覆 盖 各 种 语 言 现 象, 可 用 来 模 拟 汉 语 语 料 的 分 布 情 况 根 据 语 料 库 内 容 计 算 视 频 三 音 素 的 分 布 概 率 P ' dis = N ' tri / N ' total 当 某 个 视 ' 频 三 音 素 的 P dis < 1% 时, 说 明 其 出 现 概 率 很 小, 不 会 影 响 可 视 语 音 合 成 质 量 因 此, 在 训 练 时 舍 弃 此 类 视 频 三 音 素 经 统 计, 符 合 条 件 可 参 加 训 练 的 视 频 三 音 素 的 数 量 为 329 个 4 特 征 提 取 4.1 唇 部 特 征 参 数 利 用 2 维 阈 值 快 速 分 割 算 法 分 割 视 频 图 像, 提 取 出 唇 部 特 征, 如 图 1, 图 中 的 7 个 参 数 为 原 始 唇 部 参 数, x 为 唇 部 中 线 到 边 缘 的 距 离, u 0 为 唇 部 中 线 上 半 部 的 高 度, d 0 为 中 线 下 半 部 的 高 度, u 1, d 1, u 2, d 2 分 别 为 x 三 分 点 处 相 应 的 高 度 在 时 刻 t 的 图 像 帧, 原 始 唇 部 参 数 为 vt = [, x u0, d0, u1, d1, u2, d2] 图 1 唇 部 参 数 为 了 体 现 唇 部 运 动 时 的 动 态 特 性 [5], 计 算 唇 部 的 动 态 参 数 : L Δ vt = wv( μ ) vt+ μ (2) μ= L wv( μ ) 为 权 值 参 数, 由 原 始 唇 部 参 数 v t 和 动 态 唇 部 参 数 Δ vt 组 成 了 14 维 唇 部 特 征 参 数 Fvt = [ vt, Δ vt ] 4.2 音 频 特 征 参 数 Mel 倒 谱 系 数 (MFCC) 符 合 临 界 频 率 和 人 耳 听 觉 特 性, 区 分 能 力 较 强 计 算 公 式 如 下 :

3012 电 子 与 信 息 学 报 第 31 卷 N 2 π Cti (, ) = lg [ mel (, tj)cos ] ij ( 0.5) N N (3) j= 1 N 为 三 角 滤 波 器 个 数, mel (, t j ) 为 t 时 刻 第 j 个 滤 波 器 输 出 的 能 量,{ Cti (, )} i = 1,2,, P 为 t 时 刻 对 应 的 MFCC 参 数, P 为 阶 数 同 样, 为 了 体 现 音 频 特 征 参 数 的 动 态 特 性, 计 算 语 音 的 动 态 参 数 : L Δ at = wa( μ ) at+ μ (4) μ= L wa( μ ) 为 权 值 参 数, 由 原 始 音 频 参 数 a t 和 动 态 音 频 参 数 Δ a 组 成 了 36 维 音 频 特 征 参 数 F = [ a, Δ a ] t 5 HMM 的 训 练 与 可 视 语 音 合 成 at t t 利 用 双 模 态 语 音 特 征, 提 出 基 于 视 频 三 音 素 HMM 的 可 视 语 音 合 成 方 法 图 2 为 训 练 过 程, 从 双 模 态 语 料 库 中 提 取 语 料 并 切 分 三 音 素, 根 据 视 频 三 音 素 分 类 原 则 对 语 料 归 类, 分 别 提 取 唇 部 特 征 和 语 音 特 征, 形 成 视 频 音 频 联 合 特 征, 并 将 其 作 为 观 察 矢 量 训 练 HMM 模 型, 形 成 视 频 三 音 素 训 练 模 型 () 集 CVT-HMM i, i = 1, 2,, 329, 模 型 采 用 无 跨 越 从 左 向 右 模 型, 状 态 数 为 6 以 句 子 : 北 京 欢 迎 你 为 例, 拼 音 为 sil-beijinghuanyingni-sil, sil 代 表 静 音, 所 包 含 的 三 音 素 为 b(sil,ei),ei(b,j),j(ei,ing),ing(j,h), h(ing,uan), uan(h,ing), ing(uan,n), n(ing,i),i (n,sil), 根 据 表 2, 得 到 视 频 三 音 素 :B(sil,),(B,J), J(,),(J,D),D(,),(D,),(,D),D(,), (D,sil) 合 成 过 程 如 图 3 所 示, 输 入 待 合 成 的 文 本 内 容, 根 据 三 音 素 切 分 结 果, 连 缀 三 音 素 HMM 模 型, 形 成 对 应 输 入 文 本 的 句 子 HMM 模 型 根 据 Viterbi 算 法 得 到 文 本 的 联 合 特 征 参 数 FF 1 2 FT, 采 用 基 于 最 大 似 然 估 计 的 唇 形 生 成 算 法 得 到 唇 动 视 频 6 实 验 结 果 从 Bi-VSSDatabase 选 出 31070 个 句 子 录 制 时 使 用 高 清 数 码 摄 像 机 和 麦 克 风, 视 频 帧 速 率 为 24 Hz, 每 帧 图 像 的 分 辨 率 为 640 360, 语 音 采 样 率 为 44100 Hz, 量 化 值 为 16 bit 经 统 计, 预 料 中 包 含 共 705 个 视 频 三 音 素, 对 视 频 三 音 素 的 覆 盖 率 为 94.0%, 包 括 了 符 合 训 练 条 件 的 全 部 329 个 视 频 三 音 素, 能 够 保 证 HMM 的 正 常 训 练 与 合 成 挑 选 5 个 人 的 语 料 (3 男 2 女 ) 共 1000 个 句 子, 每 人 200 句, 其 中 150 5 句 为 训 练 用 数 据, 其 他 50 5 句 用 来 验 证 合 成 效 果 当 输 入 联 合 国 和 郑 和 下 西 洋 两 个 短 句 时, 输 出 的 视 频 合 成 效 果 如 图 4 所 示, 可 以 看 出, 合 成 的 视 频 图 像 平 稳 连 续, 真 实 感 强 图 5 为 这 两 个 短 句 的 实 际 唇 部 高 度 ( 图 1 中 l = u0 + d0) 与 合 成 唇 部 高 度 的 对 比 曲 线 实 线 为 唇 部 发 音 的 真 实 高 度 曲 线 ; 点 虚 线 为 采 用 视 频 单 音 素 的 方 法 合 成 的 视 频 唇 部 高 度 曲 线 ; 长 虚 线 为 本 文 方 法, 即 视 频 三 音 素 方 法 合 成 的 视 频 唇 部 高 度 曲 线 从 图 中 可 见, 基 于 单 音 素 的 方 法 存 在 视 频 帧 跳 变 的 情 况, 与 实 际 误 差 较 大 ; 而 基 于 视 频 三 音 素 的 方 法 由 于 考 虑 了 视 频 上 下 文 的 连 贯 性, 与 基 于 单 因 子 的 方 法 相 比, 唇 部 曲 线 更 加 平 滑, 合 成 的 唇 部 动 作 接 近 实 际, 与 实 际 唇 部 高 度 曲 线 十 分 吻 合 为 了 能 更 好 地 描 述 合 成 结 果, 需 要 对 输 出 的 合 成 唇 部 视 频 进 行 主 观 评 价 和 客 观 评 价 参 考 MS 图 2 HMM 的 训 练 过 程 图 3 基 于 汉 语 视 频 三 音 素 HMM 的 可 视 语 音 合 成 过 程

第 12 期 赵 晖 等 : 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 3013 图 4 可 视 语 音 合 成 效 果 图 图 5 唇 部 高 度 对 比 曲 线 评 分 方 法, 定 义 主 观 评 测 标 准 为 7 分 制 :5- 非 常 自 然,4.5- 自 然,4- 比 较 自 然,3.5- 不 太 自 然,3- 可 接 受,2- 比 较 差,1- 不 能 接 受 客 观 也 采 用 同 样 的 7 分 制 设 视 频 中 实 际 唇 部 高 度 序 列 为 l real ( 图 5 中 的 实 线 ), 合 成 唇 部 的 高 度 为 l syn ( 图 5 中 的 长 虚 线 ) 实 际 高 度 与 合 成 高 度 的 差 值 序 列 为 ldiff = abs( lreal lsyn) (5) 在 对 合 成 视 频 序 列 进 行 客 观 评 测 时, 既 要 考 虑 实 际 高 度 序 列 与 合 成 高 度 序 列 的 总 体 平 均 差 距, 又 要 考 虑 单 帧 的 个 体 差 距, 根 据 l Diff 的 均 值 和 方 差 Var 定 义 客 观 评 测 标 准, 见 表 4 随 机 抽 取 15 个 短 句 并 进 行 主 观 评 测 和 客 观 评 测, 见 表 5 客 观 评 测 分 表 4 客 观 标 准 标 准 定 义 5 <0.1 且 Var <0.001 4.5 <0.2 且 Var <0.002 4 <0.3 且 Var <0.004 3.5 <0.4 且 Var <0.01 3 <0.5 且 Var <0.03 2 <0.6 且 Var <0.1 1 0.5 且 Var 0.1 短 句 内 容 表 5 15 个 短 句 主 观 和 客 观 比 较 基 于 视 频 单 音 素 方 法 主 观 客 观 主 观 本 文 方 法 客 观 联 合 国 3 4 4 4.5 郑 和 下 西 洋 3.5 4 4 4 国 防 科 技 3 3 3 3.5 好 看 的 电 影 4 4.5 4.5 5 永 远 的 画 面 3 4 4 4.5 天 气 很 凉 3 3.5 4 4 没 完 没 了 3 3.5 4.5 4 社 会 主 义 3.5 4 4.5 4 排 第 一 4 4.5 5 5 大 江 东 去 3.5 3.5 3.5 3.5 这 座 山 很 高 3.5 4.5 4 5 多 多 益 善 3 4 3.5 4 莎 士 比 亚 4 4 4 4.5 人 民 解 放 军 2 3 3 3.5 五 星 级 饭 店 2 3 3 3 从 主 观 评 测 和 客 观 评 测 的 结 果 来 看, 用 本 文 方 法 所 合 成 的 可 视 语 音 满 意 度 较 高, 可 信 度 较 高 且 真 实 感 强 而 基 于 单 音 素 的 方 法 中 甚 至 出 现 了 主 观 满 意 度 比 较 差 的 情 况 ( 人 民 解 放 军 和 五 星 级 饭

3014 电 子 与 信 息 学 报 第 31 卷 店 ) 另 外, 无 论 何 种 方 法, 客 观 一 般 要 高 于 主 观, 说 明 人 眼 对 视 频 中 的 合 成 痕 迹 较 为 敏 感, 对 真 实 感 的 要 求 较 高 7 结 束 语 为 了 实 现 高 质 量 的 可 视 语 音 合 成, 本 文 提 出 一 种 基 于 汉 语 视 频 三 音 素 的 可 视 语 音 合 成 方 法 实 验 结 果 表 明, 本 文 方 法 的 合 成 结 果 质 量 较 高, 图 像 连 续 平 稳, 真 实 感 强, 不 存 在 图 像 跳 变 的 情 况 下 一 步 的 工 作 要 进 一 步 优 化 现 有 HMM 的 模 型 结 构, 提 高 运 算 速 度, 以 满 足 实 时 性 要 求 参 考 文 献 [1] Summerfield Q. se of visual information in phonetic perception[j]. Phonetic, 1979, 36(4/5): 314-331. [2] McGurk H and Macdonald J. Hearing lips and seeing voices[j]. Nature, 1976, 264(5588): 746-748. [3] Perng Woei-luen, Wu Yung-kang, and Ming uh-young. mage talk: a real time synthetic talking head using one single image with Chinese text-to-speech capability[c]. Sixth Pacific Conference on Computer Graphics and pplications, Singapore, 1998: 140-148. [4] 王 志 明, 蔡 莲 红, 吴 志 勇. 汉 语 文 本 - 可 视 语 音 转 换 的 研 究 [J]. 小 型 微 型 计 算 机 系 统, 2002, 23(4): 474-477. Wang hi-ming, Cai Lian-hong, and Wu hi-yong. Study of text to visual speech in Chinese[J]. Mini-Micro-System, 2002, 23(4): 474-477. [5] Masuko T, Kobayashi T, and Tamura M, et al.. Text-to- visual speech synthesis based on parameter generation from HMM[C]. nternational Conference on coustics, Speech and Signal Processing, Seattle, S, 1998, 6: 3745-3748. [6] Jiang Jin-tao, ronoff J M, and Bernstein L. Development of a visual speech synthesizer via second-order isomorphism[c]. nternational Conference on coustics, Speech and Signal Processing, Las Vegas, S, 2008: 4677-4680. [7] hou Wei and Wang eng-fu. Speech animation based on Chinese mandarin triphone model. 6th /CS nternational Conference on Computer and nformation Science, Melbourne, ustralia, July 2007: 924-929. [8] 吴 华, 徐 波, 黄 泰 翼. 基 于 三 音 素 模 型 的 语 料 自 动 选 取 算 法 [J]. 软 件 学 报, 2000, 11(2): 271-276. Wu Hua, Xu Bo, and Huang Tai-yi. utomatic corpus selecting algorithm based on triphone models[j]. Journal of Software, 2000, 11(2): 271-276. [9] hao Hui and Tang Chao-jing. Visual speech synthesis based on Chinese dynamic visemes[c]. nternational Conference on nformation and utomation, hangjiajie, China, June, 2008: 139-143. 赵 晖 : 男,1980 年 生, 博 士 生, 研 究 方 向 为 多 媒 体 通 信 可 视 语 音 合 成 和 网 络 图 像 安 全 等. 唐 朝 京 : 男,1962 年 生, 教 授, 研 究 方 向 为 多 媒 体 通 信 网 络 攻 防 对 抗 等.