[ 编 者 的 话 ] [from the EDITOR] Dan Schonfeld Area Editor, Special 主 编 Issues 邓 立 deng@microsoft.com dans@uic.edu http://signalprocessingsociety.org/ publications/periodicals/spm The Evolution of Signal Processing 拥 抱 信 号 处 理 的 新 黄 金 时 代 Signal processing is in the 信 号 处 理 对 信 息 社 会 起 到 了 至 midst of a major transition 关 重 要 的 作 用 信 号 处 理 随 from a focus on classical signals in electrical engineering 处 可 见 : 在 手 机 电 视 汽 车 GPS 调 制 解 调 器 扫 描 仪, 以 及 applications to a much wider 各 种 各 样 的 通 讯 系 统 和 电 子 设 备 中 都 usage devoted to the analysis of signals 可 看 到 信 号 处 理 的 踪 迹 现 代 手 机 的 in a broad spectrum of science and engineering disciplines. Signal processing 确 是 最 有 代 表 性 的 例 子 语 音 音 频 图 像 视 频 和 图 形 都 在 这 些 小 小 的 professionals are thus no longer limited 奇 迹 中 进 行 处 理 和 增 强 这 都 有 to the traditional use of signal processing 赖 于 数 十 年 来 人 们 对 媒 体 信 号 处 理 的 methodologies in speech, image, video, 研 究, 而 这 些 研 究 都 曾 在 我 们 的 IEEE acoustics, radar, and sonar. Instead, the 信 号 处 理 杂 志 (SPM) 上 出 现 tools of signal processing are currently 近 年 来 技 术 的 进 步 已 经 预 示 着 信 being employed to embark on new frontiers in science and technology by analy- 号 处 理 崭 新 的 黄 金 时 代 的 来 临 有 多 个 令 人 兴 奋 的 方 向, 如 生 物 信 息 学 sis of signals in diverse fields of 人 类 语 言 技 术 网 络 与 安 全, 正 在 摆 astronomy, energy, finances, genomics, 脱 传 统 上 对 原 始 信 息 内 容 进 行 信 号 处 Digital Object Identifier 10.1109/MSP.2010.937751 数 字 对 象 标 识 符 10.1109/MSP.2008.930482 geosciences, privacy, security, social networks, and much more. 理 的 领 域 新 时 代 的 挑 战 则 超 越 了 处 理 低 层 次 波 形 类 信 号 的 传 统 角 色, The adoption of signal processing 成 为 理 解 和 挖 掘 高 层 次 以 人 为 中 心 techniques in emerging fields of science 的 语 义 信 号 与 信 息 的 新 角 色 在 信 号 and technology will require a profound 处 理 的 某 些 领 域 已 发 生 了 这 样 的 根 本 change in signal processing education 性 转 变 有 望 在 未 来 数 年 的 研 究 中, and practice across multidisciplinary 这 样 的 转 变 在 信 号 处 理 的 更 多 研 究 领 fields. Future signal processing practitioners must therefore gain a much 域 中 更 加 普 遍 除 了 传 统 的 信 号 处 理 领 域, 如 编 broader educational background in a 码 分 析 增 强 合 成 以 及 对 普 通 wide spectrum of sciences and engineering. The signal processing engi- 的 媒 体 和 通 讯 信 号 识 别 外,SPM 还 告 诉 我 们 的 读 者 有 关 信 号 处 理 的 新 趋 势 neers of tomorrow will be expected to 新 技 术 的 发 展 有 赖 于 非 传 统 的 信 号 have rudimentary skills in various fields 处 理 课 题, 其 中 包 括 对 高 层 次 信 息 源 in biology, chemistry, physics, economics, and computer science. 和 内 容 的 理 解 挖 掘, 以 及 检 索, 这 些 往 往 都 嵌 入 在 低 层 次 信 号 之 中 为 The need to master broad and diverse 了 让 新 的 技 术 趋 势 形 成 更 深 刻 的 社 会 disciplines is a major reversal of the 影 响, 在 学 术 界 与 工 业 研 究 机 构 间, trend in engineering education over the 信 号 处 理 与 其 他 相 关 学 科 间, 我 们 需 past few decades, whereby engineering 要 比 以 往 任 何 时 候 都 强 的 互 动 SPM fields became increasingly specialized 尤 其 是 要 促 进 这 些 互 动 and sacrificed some of the basic educational background in sciences and engi- 在 前 任 主 编, 张 希 福 教 授 的 领 导 下, 凭 借 其 编 辑 小 组 的 勤 奋 工 作, 以 neering. To some extent, future edu cational 及 我 们 学 会 主 管 出 版 的 副 主 席, 刘 国 trends are likely to return to their roots 瑞 教 授 所 做 的 基 础 工 作,SPM 状 况 颇 by assimilating some of the practices 佳, 这 有 在 全 球 200 多 个 电 气 工 程 出 used in engineering many decades ago 版 物 中 名 列 前 茅 为 证 在 新 主 编 的 过 when students were exposed to a large 渡 期, 我 得 到 了 张 教 授 和 刘 教 授 非 常 number of courses in the fields of science 宝 贵 的 指 导 和 支 持, 对 此 我 衷 心 感 and technology. 谢 同 时 我 也 很 幸 运, Antonio The changes required in future Ortega 教 授 Dan Schonfeld 教 授 engineering education will not be easy Ghassan AlRegib 教 授, 以 及 吴 旻 教 and will require some compromise in 授 分 别 同 意 担 负 起 专 题 文 章 专 刊, the level of depth gained by students in 专 栏 / 论 坛 和 电 子 通 讯 的 领 域 编 辑 的 责 their core curriculum. Nonetheless, 任 他 们 将 与 我 和 编 辑 部 密 切 合 作 the expansion of engineering curricula 我 们 将 不 负 你 们, 也 就 是 我 们 的 读 者 的 期 望 (continued on page 6) 与 其 他 出 版 物 有 所 不 同, 我 们 的 IEEE SIGNAL PROCESSING MAGAZINE Li Deng, Editor-in-Chief Microsoft Research AREA EDITORS Feature Articles Antonio Ortega, University of Southern California Columns and Forums Ghassan AlRegib, Georgia Institute of Technology Special Issues Dan Schonfeld, University of Illinois at Chicago e-newsletter Z. Jane Wang, University of British Columbia EDITORIAL BOARD Alex Acero Microsoft Research John G. Apostolopoulos Hewlett-Packard Laboratories Les Atlas University of Washington Jeff Bilmes University of Washington Holger Boche Fraunhofer HHI, Germany Liang-Gee Chen National Taiwan University Ed Delp Purdue University Adriana Dumitras Apple Inc. Brendan Frey University of Toronto Sadaoki Furui Tokyo Institute of Technology, Japan Alex Gershman Darmstadt University of Technology, Germany Mazin Gilbert AT&T Research Jenq-Neng Hwang University of Washington Alex Kot Nanyang Technological University, Singapore Vikram Krishnamurthy University of British Columbia, Canada Chin-Hui Lee Georgia Institute of Technology Digital Object Identifier 10.1109/MSP.2010.937894 Jian Li University of Florida-Gainesville Tom Luo University of Minnesota Soo-Chang Pei National Taiwan University Fernando Pereira ISTIT, Portugal Roberto Pieraccini Speech Cycle Inc. Majid Rabbani Eastman Kodak Company Phillip A. Regalia Catholic University of America Nicholas Sidiropoulos Tech University of Crete, Greece Yoram Singer Google Research Henry Tirri Nokia Research Center Anthony Vetro MERL Xiaodong Wang Columbia University Patrick J. Wolfe Harvard University ASSOCIATE EDITORS COLUMNS AND FORUM Andrea Cavallaro Queen Mary, University of London Berna Erol Ricoh California Research Center Rodrigo Capobianco Guido University of Sao Paulo, Brazil Deepa Kundur Texas A&M Andres Kwasinski Rochester Institute of Technology Rick Lyons Besser Associates Aleksandra Mojsilovic IBM T.J. Watson Research Center Douglas O Shaughnessy INRS, Canada C. Britton Rorabaugh DRS C3 Systems Co. Greg Slabaugh Medicsight PLC, U.K. Alessandro Vinciarelli IDIAP EPFL Stephen T.C. Wong Methodist Hospital-Cornell Dong Yu Microsoft Research ASSOCIATE EDITORS E-NEWSLETTER Marcelo Bruno ITA, Brazil Gwenael Doerr Technicolor, France Shantanu Rane MERL Yan Lindsay Sun University of Rhode Island IEEE PERIODICALS MAGAZINES DEPARTMENT Geraldine Krolin-Taylor Senior Managing Editor Jessica Barragué Associate Editor Susan Schneiderman Business Development Manager +1 732 562 3946 Fax: +1 732 981 1855 Felicia Spagnoli Advertising Production Mgr. Janet Dudar Senior Art Director Gail A. Schnitzer Assistant Art Director Theresa L. Smith Production Coordinator Dawn M. Melley Editorial Director Peter M. Tuohy Production Director Fran Zappulla Staff Director, Publishing Operations IEEE prohibits discrimination, harassment, and bullying. For more information, visit http://www.ieee.org/web/ aboutus/whatis/policies/p9-26.html. IEEE SIGNAL PROCESSING SOCIETY Mos Kaveh President K.J. Ray Liu President-Elect Michael D. Zoltowski Vice President, Awards and Membership V. John Mathews Vice President, Conferences Min Wu Vice President, Finance Ali H. Sayed Vice President, Publications Ahmed Tewfik Vice President, Technical Directions Mercy Kowalczyk Executive Director and Associate Editor Linda C. Cherry Manager, Publications IEEE SIGNAL PROCESSING MAGAZINE [2] SEPTEMBER 2010 IEEE 信 号 处 理 杂 志 [1]
[编者的话] 杂志不聚焦于新的研究成果 我们的 志专注于对重要理论 算法 工具 以及与信号处理相关的应用进行全面 解读的指南性文章 IEEE 信号处理学 会的每位会员每两个月就会收到一期 SPM 每期包括三个主要类别的文章 专刊文章 专题文章 和专栏/论坛文 章 最近发行的信号处理内部电子通 讯是SPM 每月推出的电子出版物 服 务于学会的所有会员 应对信号处理的新黄金时代的重 大挑战并不容易 在将 SPM 打造为一 个反映我们整个社团长期或短期的兴 趣的杂志的过程中 我们寻求您的积 极参与 如果您对于改善 SPM 中任何 一个部分有任何想法 请联络 我 我很欢迎您成为 SPM 的作者 专 栏作家 客座编辑 和/或审阅人 并 在信号与信息处理的崭新的 令人兴 奋的时代中分享这个社团的乐观精 神 Photo: NASA Innovation doesn t just happen. Read first-person accounts of IEEE members who were there. IEEE Global History Network www.ieeeghn.org 09-HIST-0382b-GHN-7x4.75-Final.indd 1 [2] 4/5/10 12:12:54 PM IEEE 信号处理杂志
[ 专 题 报 告 ] Ron Schneiderman DSP 对 新 医 学 影 像 设 计 的 影 响 数 字 信 号 处 理 (DSP) 对 于 医 学 影 像 现 状 的 推 进 产 生 重 大 影 响 DSP 的 优 点 众 所 周 知 : 可 以 实 时 操 作 高 可 靠 性 非 常 节 能 而 且 相 对 便 宜 但 是, 医 学 影 像 市 场 还 迫 切 需 要 更 多 的 技 术 创 新 更 多 关 注 的 是 更 高 的 图 像 质 量 和 设 计 更 小 型 的 系 统 在 未 来 数 年, 我 们 预 期 医 学 影 像 应 用 将 实 现 从 局 限 于 基 本 的 诊 断 功 能 传 统 影 像 准 到 一 个 小 型 化, 高 精 度 便 携 式 医 疗 成 像 设 备 组 成 的 新 的 生 态 系 统 的 重 大 转 变 半 导 体 市 场 研 究 公 司 Databeans 的 研 究 总 监 和 总 裁,Susie Inouye 说 便 携 式 系 统 的 迅 速 发 展 促 生 了 手 持 式 设 备, 某 些 情 况 下, 医 疗 和 家 庭 监 控 设 备 更 耐 磨 在 所 有 这 些 系 统 中,DSP 无 处 不 在 因 此, 医 疗 设 备 制 造 商 和 芯 片 厂 商 都 在 努 力 扩 大 医 疗 诊 断 应 用, 并 针 对 不 断 增 长 的 市 场 引 进 新 产 品 通 用 电 气 公 司 (GE) 今 年 早 些 时 候 发 布 了 其 vscan 扫 描 仪, 大 概 有 一 个 手 机 大 小, 售 价 不 超 过 10,000 美 元 西 门 子 已 经 升 级 了 三 年 前 首 次 推 出 的 Acuson P10 手 持 式 扫 描 仪 东 芝 公 司 最 近 也 通 过 一 个 全 新 的 笔 记 本 电 脑 系 统 进 入 便 携 式 超 声 波 市 场 日 立 公 司 也 提 供 了 一 个 笔 记 本 电 脑 大 小 的 系 统 名 为 Viamo, 主 要 设 计 针 对 那 些 需 要 高 端 超 声 检 查 但 却 动 弹 不 得 的 病 人 使 用 GE 传 感 与 检 测 科 技 推 出 了 一 款 轻 量 级 (13 磅 ) 的 便 携 式 数 字 成 像 工 具 DXR250V, 其 特 点 就 是 在 这 些 先 前 仅 限 于 计 算 机 X 线 摄 影 和 X 线 光 片 的 应 用 中 缩 短 扫 描 时 间, 最 大 程 度 地 降 低 辐 射 照 射 新 的 GE 的 设 备 可 以 连 接 到 一 台 笔 记 本 电 脑 产 生 用 于 即 时 检 查 图 像 一 间 很 小 的 公 司,Signostics 的 数 字 对 象 标 识 符 10.1109/MSP.2010.936828 一 款 手 机 大 小, 半 磅 重 的 Signos 手 持 式 超 声 波 系 统, 近 期 获 得 美 国 食 品 和 药 物 管 理 局 (FDA) 认 证 Signostics 克 服 了 开 发 手 掌 大 小 超 声 产 品 的 设 计 上 的 艰 难 挑 战,Analog Devices 的 医 疗 技 术 分 部 主 任,Patrick O Doherty 说, 该 部 门 正 在 与 Signostics 紧 密 合 作, 为 数 据 转 换 信 号 调 理 和 要 实 现 其 设 计 的 传 感 器 提 供 关 键 的 信 号 处 理 技 术 Signos 涵 盖 多 个 医 学 应 用, 包 括 腹 部 评 估, 如 膀 胱, 腹 主 动 脉 瘤 筛 选 和 创 伤 评 估, 还 有 肌 肉 骨 骼 和 基 本 产 科 SonoSite 公 司 作 为 床 边 检 验 市 场 的 另 一 位 参 与 者, 提 供 了 一 个 随 身 携 带 的 超 声 波 系 统, 主 要 是 在 医 生 的 办 数 字 信 号 处 理 对 于 医 学 影 像 现 状 的 推 进 产 生 重 大 影 响 公 室 中 使 用 Philips Medical 近 10 年 前 推 出 一 款 手 持 式 超 声 设 备 名 为 OptiGo, 该 设 备 退 出 了 市 场, 据 说 因 为 当 时 人 们 都 质 疑 医 疗 成 像 设 备 的 图 像 质 量 如 此 之 差 不 同 的 系 统 应 用 目 前 有 数 个 医 学 影 像 技 术 并 存 磁 共 振 成 像 (MRI) 提 供 了 非 常 清 晰 的 人 体 图 像, 用 于 疾 病 和 伤 害 诊 断 的 范 围 非 常 广 泛 全 世 界 每 年 进 行 超 过 6000 万 美 元 的 MRI 诊 断 程 序 MRI 是 一 种 非 侵 入 性 技 术, 不 使 用 磁 共 振 电 离 辐 射 生 成 人 体 的 图 像 由 于 它 能 够 定 制 检 查, 以 满 足 诸 如 视 场 角 的 特 定 参 数, 对 于 很 多 不 同 的 医 疗 状 况, 这 是 可 选 的 诊 断 方 法, 包 括 癌 肿 瘤, 韧 带 撕 裂, 和 阿 尔 茨 海 默 氏 病 电 脑 断 层 扫 描 (CT) 是 另 一 形 式 的 扫 描, 产 生 人 体 内 部 器 官 的 三 维 图 像 随 着 技 术 的 提 高,CT 的 使 用 越 来 越 频 繁, 为 内 部 器 官 骨 骼 软 组 织 和 血 管 的 分 析 和 诊 断 提 供 更 清 晰, 更 详 细 的 图 片 CT 扫 描 成 像 的 进 步 从 根 本 上 改 变 了 诊 断 成 像 的 实 际 操 作 方 法 和 经 济 学 意 义,Databeans 的 Susie Inouye 说 ( 现 在, 在 美 国 每 年 有 超 过 62 万 名 病 人 进 行 过 CT 扫 描 检 查, 而 在 1980 年 则 是 3 万 人 ) 系 统 集 成 的 进 步 有 助 于 显 着 提 升 照 片 的 数 量 ( 或 片 数 ), 可 采 用 CT 机, 提 高 图 像 的 细 节 和 质 量 数 字 化 X 射 线 是 诊 断 技 术 从 传 统 的 X 射 线 系 统 迈 出 的 重 要 一 步, 其 中 每 个 组 件 的 信 号 衰 减 消 耗 了 原 始 X 射 线 信 号 的 60% 通 过 增 加 一 个 用 于 数 字 X 射 线 成 像 的 数 字 探 测 器, 可 以 捕 获 80% 以 上 的 原 始 图 像 信 息 数 字 化 的 X 射 线 辐 射 的 使 用 也 减 少 了 病 人 的 辐 射 剂 量, 通 过 去 掉 摄 影 处 理 过 程, 减 少 了 诊 断 时 间 高 性 能 的 数 字 信 号 处 理 器 可 以 控 制 其 功 能 和 信 号 调 节, 以 获 取 和 改 善 数 字 X 射 线 图 像 的 清 晰 度 数 字 X 射 线 的 另 一 个 重 要 优 势 是 它 能 够 存 储 和 传 输 的 数 字 图 像 诊 断 超 声 成 像 系 统 生 成 并 传 递 声 波, 并 捕 获 反 射 波, 然 后 将 其 转 换 为 可 视 化 图 象 对 于 接 收 到 的 声 波 所 进 行 的 信 号 处 理 过 程 包 括 插 值 抽 取 数 据 滤 波 和 重 建 可 编 程 DSP 和 片 上 系 统 芯 片 (SoC) 设 计 用 来 实 现 实 时 的 复 杂 数 学 算 法, 以 便 有 效 地 满 足 这 些 系 统 的 处 理 需 求 另 一 种 医 学 影 像 系 统 是 正 电 子 发 射 断 层 扫 描 (PET) 如 同 MRI 一 样, 也 是 一 种 无 创 诊 断 技 术 通 过 从 身 体 ( 由 病 人 食 用 的 放 射 性 化 学 元 素 所 产 生 ) 辐 射 排 放 产 生 特 定 的 器 官 或 组 织 生 理 图 像 PET 系 统 通 常 使 用 DSP 处 理 不 同 的 输 入 放 大 器 增 益, 并 通 过 实 际 系 统 控 制 光 电 倍 增 管 高 压 电 源 探 测 环 结 IEEE 信 号 处 理 杂 志 [3]
[ 专 题 报 告 ] 合 件 的 运 动 控 制 和 病 人 出 / 入 DSP 也 可 以 用 于 PET 扫 描 仪 控 制 和 信 号 处 理 单 元 洛 杉 矶 的 Westside Medical Associates 和 比 佛 利 山 庄 的 Westside Medical Imaging(WMI) 最 近 报 告 说, 早 期 的 PET 扫 描 可 以 在 早 期, 可 治 疗 阶 段 确 诊 老 年 痴 呆 症 在 纽 约 大 学 (NYU)Langone 医 学 中 心 的 研 究 调 查 证 实 了 我 们 长 期 持 有 的 信 念 就 是 我 们 可 以 使 用 先 进 的 成 像 技 术 在 阿 尔 茨 海 默 病 人 尚 未 出 现 症 状 的 早 期 进 行 识 别, 加 州 大 学 洛 杉 矶 分 校 Geffen 医 学 院 的 医 学 教 授,WMI 的 主 任,Norman Lepor 博 士 说 纽 约 大 学 的 研 究 团 队 一 直 使 用 名 为 匹 兹 堡 复 合 物 B 的 荧 光 成 像 剂 能 够 使 乙 型 淀 粉 样 蛋 白 斑 块 发 光, 这 是 发 现 阿 兹 海 默 氏 症 的 一 个 特 征 根 据 研 究 人 员 的 研 究, 并 不 是 大 脑 中 存 在 乙 型 淀 粉 样 蛋 白 斑 的 所 有 病 人 均 发 展 为 阿 兹 海 默 氏 症 西 门 子 已 经 开 发 出 一 种 新 的 成 像 系 统, 名 为 Somatom Definition Flash 扫 描 仪, 使 用 相 对 较 低 剂 量 的 辐 射, 并 只 针 对 一 个 身 体 的 特 定 区 域 进 行 扫 描 ( 参 见 辐 射 照 射 可 能 要 求 设 备 的 设 计 作 出 变 更 ) DSP 厂 商 利 润 的 增 长 几 个 主 要 的 芯 片 公 司 正 在 努 力 推 动 改 善 医 疗 成 像 系 统 的 准 确 度 和 效 率 的 现 状 TI 长 期 以 来 一 直 是 提 供 数 字 信 号 处 理 器 和 医 疗 成 像 应 用 相 关 设 备 的 领 军 者, 并 于 2007 年 成 立 了 医 学 影 像 DSP 部 门 次 年, 又 推 出 1500 万 美 元 的 医 学 院 校 基 金, 希 望 在 未 来 的 三 至 五 年 内 对 医 学 技 术 产 生 的 重 大 影 响 TI 的 DSP 医 疗 影 像 业 务 发 展 及 市 场 部 经 理 Ken Nesteroff 说, 超 音 波 是 DSP 应 用 医 学 影 像 系 统 中 较 好 的 例 证 之 一 ( 参 见 图 1) 当 然, 也 有 很 多 的 模 拟 解 决 方 案, 我 们 会 针 对 这 些 开 发 特 定 的 部 件,Nesteroff 特 别 提 到 在 DSP 方 面, 我 们 把 更 多 处 理 放 在 后 端 处 理 部 分 您 通 常 看 到 的 是 B 超, 彩 超, 多 普 勒 功 能 中 的 千 兆 级 DSP, 有 时 是 射 频 信 号 解 调 后 端 功 能 主 要 是 将 扫 描 转 换 为 用 于 显 示 数 据 在 便 携 式 系 统 中, 该 行 业 完 全 脱 离 PC 机 后 端, 而 转 向 更 多 的 片 上 系 统 方 法 TI 目 前 正 在 改 进 其 嵌 入 式 处 理 器 软 件 工 具 包, 该 工 具 包 于 2009 年 3 辐 射 照 射 可 能 要 求 设 备 的 设 计 作 出 变 更 最 近 数 月 以 来, 对 于 病 人 而 言, 辐 射 风 险 已 成 为 一 个 大 问 题, 同 时 也 成 了 各 医 疗 成 像 系 统 制 造 商 放 射 科 医 师 和 医 生 的 热 门 话 题 联 邦 监 管 机 构 认 为 必 要 的 CT 扫 描 可 发 现 众 多 的 健 康 问 题, 但 他 们 同 时 也 发 现 越 来 越 多 的 证 据 表 明 暴 露 于 辐 射 的 人 可 能 会 增 加 其 在 未 来 罹 患 癌 症 的 风 险 正 因 如 此, 美 国 FDA 的 医 疗 器 械 中 心 (CDRH) 已 经 启 动 了 一 个 倡 议, 这 可 能 迫 使 成 像 设 备 制 造 商 重 新 设 计 他 们 的 产 品, 在 辐 射 剂 量 超 过 建 议 的 水 平 时, 就 可 以 提 醒 医 护 人 员 当 FDA 在 4 月 初 举 行 的 首 个 系 列 会 议 中 讨 论 了 如 何 保 护 病 人 免 受 不 必 要 的 辐 射 照 射 FDA 表 示, 其 目 标 是 支 持 医 学 成 像 所 带 来 的 好 处, 同 时 尽 量 降 低 风 险 CDRH 的 主 任,Jeffrey Shuren 博 士 说 : 美 国 人 受 到 来 自 医 疗 成 像 的 辐 射 照 射, 在 过 去 20 年 大 幅 度 增 加 事 实 上, 最 近 的 研 究 表 明, 过 去 30 年 来, 普 通 美 国 人 的 总 辐 射 照 射 量 增 长 了 近 一 倍, 主 要 来 自 于 CT 扫 描 和 其 他 下 一 代 成 像 测 试 例 如, 腹 部 CT 扫 描 的 辐 射 剂 量 大 约 是 胸 部 X 光 检 查 的 400 倍 相 比 之 下, 牙 科 X 光 检 查 需 要 大 约 胸 部 X 光 检 查 的 辐 射 剂 量 的 一 半 FDA 声 称, 计 划 向 CT 和 X 光 透 视 设 备 制 造 商 发 出 针 对 性 的 需 求, 从 而 在 他 们 的 机 器 设 备 设 计 中 纳 入 直 观 重 要 的 防 护 措 施, 以 便 开 发 更 安 全 的 技 术, 并 提 供 适 当 的 培 训, 支 持 从 业 人 员 的 安 全 使 用 该 机 构 于 3 月 下 旬 举 行 首 个 系 列 公 开 听 证 会 以 听 取 需 要 设 立 什 么 样 的 要 求 为 了 赋 予 病 人 权 利, 并 提 高 认 识,FDA 正 在 与 其 他 组 织 合 作 开 发 和 传 播 患 者 医 学 影 像 历 史 记 录 卡 该 工 具 可 以 从 FDA 的 网 站 上 获 取, 让 病 人 追 踪 他 们 自 己 的 医 学 影 像 历 史, 并 与 他 们 的 医 生 分 享, 特 别 是 当 这 些 影 像 可 能 没 有 包 含 在 他 们 的 医 疗 记 录 内 时 医 学 影 像 与 技 术 联 盟 (MITA), 一 个 代 表 了 医 学 影 像 和 放 射 治 疗 系 统 制 造 商 的 协 会, 声 称 他 们 支 持 措 施 减 少 不 必 要 的 辐 射 照 射, 并 最 大 程 度 减 少 医 疗 过 失 的 倡 议 美 国 放 射 技 师 协 会 声 称 支 持 MITA 在 所 有 CT 新 产 品 中 纳 入 辐 射 剂 量 检 查 功 能 方 面 所 做 的 努 力, 儿 科 成 像 辐 射 安 全 联 盟 也 一 样, 该 联 盟 领 导 温 柔 影 像 运 动, 以 减 少 接 受 医 学 影 像 检 查 的 儿 童 所 承 受 的 辐 射 剂 量 月 推 出, 用 来 协 助 医 疗 诊 断 超 声 厂 商 开 发 更 精 确 和 更 经 济 的 系 统, 而 且 速 度 很 快 Nesteroff 说, 新 工 具 包 的 关 键 之 处 是 在 图 像 处 理 方 面 的 进 展 TI 也 看 到 了 其 最 新 的 基 于 多 核 DSP 的 SoC 架 构 在 医 学 影 像 中 的 机 会, 该 DSP 合 并 有 定 点 和 浮 点 运 算 能 力 专 为 通 信 基 础 设 施 设 备 所 设 计, 新 的 DSP 的 运 行 速 度 高 达 1.2 GHz, 其 引 擎 可 提 供 高 达 每 秒 2560 亿 次 乘 法 累 加 运 算 (256 GMACS) 和 每 秒 1280 亿 次 浮 点 运 算 (128 GFLOPS) Analog Devices 作 为 医 学 影 像 行 业 的 一 个 长 期 合 作 者, 最 近 推 出 了 一 款 新 的 电 流 / 数 字 转 换 器 芯 片, 使 得 高 层 数 CT 系 统 能 够 捕 获 实 时 的 移 动 图 像, 如 跳 动 的 心 脏, 而 且 具 有 高 精 确 度 和 细 节 信 息 该 芯 片 将 光 电 二 极 管 阵 列 信 号 转 化 为 数 字 信 号, 根 据 Analog Devices 的 资 料 显 示, 与 较 旧 的 型 号 相 比, 可 以 将 CT 检 测 系 统 的 电 耗 降 低 50%, 主 要 是 通 过 更 高 度 集 成 的 设 计 来 实 现 需 要 铭 记 的 是 人 设 的 成 像 系 统 都 将 作 医 疗 诊 断 用, 要 保 持 图 像 质 量, 不 能 损 失 信 息, 医 生 才 能 进 行 辨 别,Analog Devices 医 疗 保 健 技 术 部 门 的 战 略 营 销 经 理 Tony Zarola 如 是 [4] IEEE 信 号 处 理 杂 志
[ 专 题 报 告 ] 说 更 高 的 图 像 分 辨 率 会 转 换 成 更 多 的 像 素,Zarola 说, 这 就 意 味 着 在 更 多 的 数 据 和 更 高 后 端 图 像 处 理 要 求 一 个 显 而 易 见 的 目 标 就 是 在 扫 描 期 间, 获 得 更 多 图 像 信 息 的 同 时 更 少 地 照 射 ( 减 少 扫 描 时 间 ) 有 害 的 X 射 线 就 系 统 中 的 电 子 器 件 而 言, 更 多 扫 描 线 就 意 味 着 需 要 更 多 通 道, 更 高 的 图 像 分 辨 率 就 转 化 为 更 多 的 像 素, 而 更 高 的 信 噪 比 的 无 线 设 备 提 供 给 更 低 的 噪 声, 因 而 可 获 得 更 好 的 对 比 度 要 传 输 更 多 来 自 接 收 器 的 数 据, 增 加 的 通 道 数 就 需 要 增 加 整 个 系 统 的 带 宽,Zarola 补 充 道 这 可 能 会 导 致 我 们 要 面 对 在 现 有 带 宽 有 限 的 基 础 设 施 传 输 数 据 的 挑 战 DSP 的 优 势 意 义 重 大, 他 强 调, 范 围 从 降 低 带 宽 到 智 能 压 缩 算 法 的 使 用 ( 可 以 使 用 有 损 压 缩, 但 随 后 对 图 像 的 完 整 性 所 造 成 的 影 响 将 需 要 特 征 化 ) 为 了 获 得 更 好 的 图 像 质 量, 可 使 用 各 种 后 处 理 图 像 增 强 算 法 能 够 提 高 对 比 度 或 减 少 系 统 噪 声 的 影 响,Zaroloa 如 是 说 同 样, 面 临 的 挑 战 将 是 保 持 图 像 的 完 整 性 一 个 巨 大 的 市 场 医 学 成 像 已 经 是 一 个 巨 大 的 市 场, 并 持 续 不 断 地 增 长, 在 很 大 程 度 上 得 益 于 由 于 技 术 的 进 步, 以 及 日 益 普 及 的 便 携 式 成 像 产 品 据 Reportlinker 所 作 的 市 场 研 究 表 明, 医 学 成 像 设 备 的 全 球 市 场 预 计 到 2015 年 将 达 到 约 370 亿 美 元 MRI 预 计 在 2005-2015 年 期 间 增 长 速 度 最 快 的 成 像 方 式, 其 年 复 合 增 长 率 (CAGR) 为 9.8% 另 一 家 市 场 研 究 集 团,Global Industry Analysts 声 称, 美 国 日 本 和 欧 洲 占 有 CT 扫 描 仪 全 球 市 场 用 户 基 数 的 85% 以 上 据 Global Industry Analysts 的 说 法, 全 球 CT 扫 描 仪 市 场 主 要 有 四 家 公 司 :GE 医 疗 西 门 子 医 疗 东 芝 医 疗 系 统, 以 及 飞 利 浦 医 疗 保 健 其 他 主 要 参 与 者 包 括 日 立 医 疗 公 司 和 日 本 岛 津 医 疗 系 统 技 术 的 快 速 升 级 也 对 CT 扫 描 仪 产 生 了 影 响 在 CT 领 域 的 主 要 趋 势 是 朝 着 组 合 扫 描 仪 的 方 向 转 变, 主 要 是 组 合 了 PET 和 CT 成 像 能 力 的 复 合 扫 描 仪 Global Industry Analysts 声 称, 自 50 年 代 初 引 进 后, 超 声 波 赢 得 医 疗 影 像 市 场 越 来 越 多 的 份 额 超 声 设 备 小 型 化, 并 持 续 不 断 地 将 电 子 系 统 纳 入 超 声 技 术 是 主 流 趋 势, 该 成 像 技 术 的 成 功 多 归 功 与 此 超 声 设 备 的 整 体 市 场 在 美 国 已 接 近 饱 和 ; 然 而, 心 脏 科 还 是 继 续 体 现 了 超 声 终 端 产 品 的 快 速 增 长, 预 计 2010 年 在 美 国 境 内 的 收 益 将 达 到 6.84 亿 美 元 这 个 市 场 基 本 上 是 使 用 新 的 技 术 上 更 先 进 系 统 话 的 新 产 品 更 换 和 升 级 老 化 设 备 的 需 求 所 驱 动 美 国 和 欧 洲 加 在 一 起, 约 占 全 球 60% 的 医 学 超 声 设 备 市 场 份 额, 尽 管 根 据 市 场 调 研 公 司 的 说 法, 亚 太 市 场 正 在 迅 速 崛 起 根 据 Global Industry Analysts 的 说 法, 医 疗 超 声 市 场 的 主 要 参 与 者 有 Aloka 公 司 B-K Medical Esaote SPA GE 医 疗 集 团 日 立 医 疗 系 统 美 国 公 司 Medison 有 限 公 司 飞 利 浦 医 疗 西 门 子 医 疗 SonoSite 公 司 TomTec 成 像 系 统 公 司 GmbH 和 东 芝 医 疗 系 统 有 限 公 数 字 化 的 X 射 线 辐 射 的 使 用 也 减 少 了 病 人 的 辐 射 剂 量, 通 过 去 掉 摄 影 处 理 过 程, 减 少 了 诊 断 时 间 司 据 报 道, 飞 利 浦 西 门 子 通 用 电 气 和 东 芝 占 全 球 市 场 份 额 的 80% MRI 市 场 预 计 在 2010 年 将 达 到 的 5.5 亿 美 元, 推 出 的 高 场 系 统 和 诸 如 功 能 性 神 经 成 像 磁 共 振 血 管 造 影 术 无 创 结 肠 镜 检 查 以 及 乳 腺 MR 等 新 技 术 推 动 了 这 个 市 场 MRI 设 备 的 关 键 卖 点 似 乎 是 较 高 图 像 质 量 和 成 本 效 益 根 据 Global Industry Analysts 的 说 法,GE 医 疗, 西 门 子 医 疗 系 统, 飞 利 浦 医 疗 系 统 称 霸 全 球 MRI 设 备 市 场, 其 他 知 名 公 司 包 括 Esaote 公 司 日 立 东 芝 医 疗 系 统 公 司 Fonar 公 司 IMRIS 与 Medtronic 研 究 了 医 学 影 像 市 场 的 另 一 个 研 究 机 构,Frost & Sullivan 最 近 发 布 了 一 份 报 告, 提 到 在 欧 洲 刮 起 了 一 阵 有 关 医 学 成 像 的 研 究 与 发 展 (R&D) 的 风 潮, 特 别 是 心 脏 科 的 应 用 F&S 预 期 制 造 商 在 超 声 心 动 图 方 面 还 有 巨 大 的 市 场 机 会, 藉 此 可 以 为 私 人 执 业 医 生 提 供 便 携 式 基 于 PC 的 超 声 系 统 巨 大 的 DSP 需 求 数 字 信 号 处 理 进 入 医 疗 系 统 市 场 的 切 入 点 在 那 里? Databeans 预 测, 销 往 全 球 医 疗 成 像 应 用 的 DSP 的 收 益 将 增 长 近 一 倍, 从 2008 年 3140 万 美 元 增 长 到 2014 年 的 6060 万 美 元 ( 参 见 表 1), 主 要 是 这 些 系 统 的 市 场 有 所 增 长, 而 且 在 数 个 方 面 的 技 术 也 都 有 所 进 步 其 中 一 个 技 术 进 步 就 是 将 X 光 片 转 化 成 了 数 字 文 件 DSP 有 助 于 将 捕 获 点 的 X 射 线 信 号 转 换 成 数 字 图 像, 而 无 需 对 图 像 完 整 性 进 行 取 舍 正 如 TI 在 一 份 有 关 医 学 成 像 未 来 的 报 告 中 所 指 出 的 那 样, 能 够 提 供 实 时 数 字 图 像 的 能 力 使 得 数 字 X 射 线 机 可 应 用 于 外 科 手 术, 能 够 让 医 生 在 手 术 中 看 到 精 确 的 图 像 就 在 几 年 前,MRI 也 进 行 了 改 进, 能 够 在 短 的 时 间 内 提 供 更 高 质 量 的 图 像 此 外, 扩 散 MRI 允 许 研 究 人 员 创 建 脑 图 谱, 以 便 通 过 跟 踪 技 术 研 究 完 全 不 同 的 大 脑 区 域 之 间 的 关 系 功 能 性 MRI 现 在 可 以 迅 速 扫 描 大 脑 以 便 测 量 因 神 经 活 动 而 引 起 的 信 号 变 化 DSP 也 在 远 程 医 疗 方 面 发 挥 着 至 关 重 要 的 作 用, 特 别 是 视 频 会 议 和 远 程 呈 现 系 统 中, 可 支 持 多 种 格 式 根 据 TI 的 报 告 中 的 陈 述,DSP 的 使 用 是 贯 穿 这 些 实 例 的 一 个 共 同 的 主 题 更 重 要 的 是, 这 项 技 术 对 全 球 的 医 疗 水 平 产 生 了 意 义 深 远 的 影 响 [SP] IEEE 信 号 处 理 杂 志 [5]
[ 专 题 报 告 ] Ultrasound System Where DSP Fits Transducer T/R Switches HV MUX LNA Signal Chain Power Passive LPF Temp Sense Amplifier Stage Amplifier + Filter VCA PGA Low Pass Filter Time Gain Control CW (Analog Beamformer) REF ADC DAC DAC Analog Front End ADC Core and I/O Power Clocking Back End Spectral Doppler Processing Front End Transmit Beamformer Receive Beamformer Middle B Mode Processing Beamformer Control Unit Preprocessing Color/Power Doppler Processing Scan Conversion Post Processing Plug ~ ac Line ac/dc Supply with Green Mode Controller System Power Main Power Supply Legend Processor Interface Supply Voltage Supervisor Power ADC/DAC Amplifier Logic Power LPW RS232 USB 1394 802.11 Common Interfaces Other IDE/ATA Ultrasound OS/UI MMC/ SDIO Display Backlight Touchscreen Audio Amp Audio Output Product Availability and Design Disclaimer - The system block diagram depicted above and the devices recommended are designed in this manner as a reference. Source: Texas Instruments. DSP RF Demodulation B-Mode Color Flow Spectral Doppler SOC (DSP + MPU) Scan Conversion Speckle Reduction System Control O/S Display Storage [ 图 1] 该 系 统 框 图 是 TI 针 对 DSP 和 其 他 设 备 所 建 议 的 参 考 设 计, 可 以 用 在 超 声 医 学 成 像 系 统 的 设 计 中 ( 图 得 到 了 使 用 许 可 ) [6] IEEE 信 号 处 理 杂 志
[ Miles N. Wernick Yongyi Yang Jovan G. Brankov Grigori Yourganov Stephen C. Strother ] 医 学 成 像 中 的 机 器 学 习 [ 来 自 医 学 成 像 的 结 论 ] 一 个 多 世 纪 以 来, 在 许 多 领 域, 创 造 ( 和 再 创 造 ) 了 多 个 自 动 决 策 和 建 模 的 统 计 方 法 在 这 方 面, 重 要 的 问 题 包 括 模 式 分 类 回 归 控 制 系 统 辨 识 和 预 测 近 年 来, 这 些 思 想 被 确 认 为 机 器 学 习 这 个 统 一 概 念 下 的 不 同 实 例 这 是 有 关 1) 在 现 有 数 据 内 部 量 化 关 系 的 算 法 的 发 展, 以 及 2) 利 用 这 些 已 识 别 的 模 式, 并 基 于 新 数 据 作 出 预 测 光 学 字 符 识 别, 即 根 据 前 面 的 实 例 自 动 识 别 印 刷 字 符, 就 是 一 个 机 器 学 习 的 经 典 工 程 实 例 但 本 文 将 讨 论 使 用 机 器 学 习 的 非 常 不 同 的 方 式, 您 可 能 不 是 那 么 熟 悉, 我 们 将 通 过 实 例 来 演 示 这 些 概 念 在 医 学 成 像 中 所 扮 演 的 角 色 在 现 代 计 算 的 背 景 下, 机 器 学 习 已 引 起 了 空 前 浓 厚 的 兴 趣, 例 如 商 业 智 能 检 测 垃 圾 邮 件, 以 及 欺 诈 和 信 用 评 分 相 对 于 其 他 领 域, 在 医 疗 成 像 领 域 采 用 现 代 机 器 学 习 技 术 则 进 展 较 慢 然 而, 由 于 计 算 机 的 能 力 越 来 越 强 大, 因 此 对 采 用 先 进 的 算 法 颇 有 兴 趣, 可 方 便 我 们 使 用 医 学 影 像, 并 增 强 我 们 从 中 获 取 的 信 息 尽 管 机 器 学 习 这 个 术 语 相 对 较 新, 机 器 学 习 的 理 念 已 应 用 到 医 学 成 像 数 十 年, 或 许 最 引 人 注 目 的 是 在 计 算 机 辅 助 诊 断 (CAD) 和 脑 功 能 活 动 定 位 领 域 我 们 并 不 会 在 这 篇 简 短 的 文 章 中 回 顾 这 个 领 域 的 丰 富 文 献 我 们 的 目 标 反 而 是 1 数 字 对 象 标 识 符 10.1109/MSP.2010.936730 BRAND X PICTURES ) 介 绍 目 前 机 器 学 习 领 域 的 一 些 主 要 的 先 进 技 术 以 飨 读 者,2) 解 释 说 明 如 何 在 医 学 成 像 中 以 不 同 的 方 式 使 用 这 些 技 术, 其 中 使 用 了 如 下 来 自 我 们 的 研 究 的 例 子 : CAD * 基 于 内 容 的 图 像 检 索 (CBIR) 图 像 质 量 自 动 评 估 * 脑 成 像 机 器 学 习 简 介 在 这 篇 简 短 的 指 导 性 文 章 中, 利 用 我 们 过 去 在 这 一 领 域 的 工 作 实 例, 尝 试 介 绍 一 些 广 泛 适 用 的 基 本 技 术, 并 说 明 这 些 技 术 被 如 何 用 于 各 种 医 学 成 像 背 景 如 需 更 进 一 步 的 信 息, 有 兴 趣 的 读 者 可 以 参 考 那 些 有 关 机 器 学 习 的 众 所 周 知 的 介 绍, 如 参 考 文 献 [1] 和 [2] 中 所 作 的 精 彩 论 述 有 监 督 学 习 在 机 器 学 习 中, 人 们 往 往 旨 在 根 据 输 入 变 量 x 预 测 输 出 变 量 y 要 达 到 这 个 目 的, 则 假 定 输 入 和 输 出 间 基 本 服 从 一 个 函 数 关 系, y = f() x, 称 之 为 预 测 模 型, 如 图 1 所 示 在 有 监 督 学 习 中, 借 助 于 由 x 和 y 均 已 知 的 例 子 组 成 的 训 练 数 据 发 现 预 测 模 型 我 们 把 所 有 可 用 的 例 子 对 记 为 ( xy i i), i = 1,..., Nf, 我 们 假 设 x 由 个 变 量 n ( 称 为 特 征 ) 组 成, 那 么 x R n! 一 般 而 言, 该 预 测 模 型 的 输 出 可 以 是 一 个 向 量 ( 例 如 在 多 类 分 类 器 中 ), 但 为 了 简 单 起 见, 我 们 将 把 注 意 力 集 中 到 标 量 输 出 的 情 况 * IEEE 信 号 处 理 杂 志 [7]
x f ( ) y Input Predictive Model Output [ 图 1] 在 有 监 督 学 习 中, 预 测 模 型 表 示 输 入 变 量 x 与 输 出 变 量 y 之 间 的 假 设 关 系 从 历 史 上 来 看, 某 种 程 度 上 来 说, 有 时 人 为 地 将 其 分 成 两 个 学 习 问 题 : 分 类 和 回 归 分 类 是 指 在 特 别 小 而 离 散 的 选 择 集 合 中 做 出 决 策 ( 如 识 别 肿 瘤 是 恶 性 或 良 性 ), 而 回 归 则 是 对 可 能 的 连 续 值 输 出 变 量 进 行 估 计 ( 如 疾 病 严 重 程 度 的 诊 断 评 估 Y) 如 果 一 个 分 类 问 题 中 的 选 择 由 离 散 的 数 值 表 示 ( 例 如, y =+ 1 代 表 恶 性, y =- 1 则 代 表 良 性 ), 那 么 就 很 容 易 地 看 到, 图 1 中 的 模 型 则 等 同 地 表 示 了 分 类 和 回 归 支 持 向 量 机 分 类 : 最 大 间 距 法 让 我 们 来 看 看 图 2 中 所 描 述 的 简 单 模 式 分 类 问 题, 其 目 的 是 使 用 决 策 边 界 T 将 向 量 x = ( x, x ) T 1 2 分 成 两 类, 我 们 T 使 用 线 性 模 型 fx () = wx+ b, 因 此 在 这 个 两 维 的 例 子 中,T 是 一 条 直 线 传 统 上 来 说, 模 型 的 参 数 ( 此 例 中 为 w 和 b) 通 过 诸 如 最 小 二 乘 或 最 大 似 然 等 经 典 准 则 确 定 图 2 解 释 说 明 为 什 么 这 种 做 法 很 容 易 失 败 ( 在 这 种 情 况 下, 就 是 Fisher 判 别 ), 特 别 是 不 符 合 该 方 法 的 分 布 假 设 时 在 图 2(a) 中, 数 据 点 D 对 Fisher 判 别 边 界 有 不 利 的 影 响, 而 导 致 B 点 误 判, 即 使 是 D 点 位 于 类 别 1 很 远 的 地 方, 不 应 受 到 如 此 程 度 的 影 响 x 2 x 2 S Fisher Linear Discriminant Support Vector Machine T S 1 C A C w E A B (a) B (b) Class 1 Class 2 Margin Class 1 Class 2 [ 图 2] Fisher 线 性 判 别 法 (LD) 和 支 持 向 量 机 在 这 个 例 子 中, (a) 因 为 训 练 实 例 D 对 决 策 边 界 的 不 良 影 响,Fisher LD 未 能 将 其 分 成 两 类 (b)svm 则 只 使 用 点 A B 和 C, 即 所 谓 的 支 持 向 量, 来 定 义 决 策 边 界, 完 全 不 受 D 点 的 影 响 S 2 T D x 1 D x 1 而 Vapnik 提 出 支 持 向 量 机 (SVM)[2] 则 解 决 了 这 一 缺 点, 通 过 只 考 虑 那 些 位 于 他 们 很 接 近 不 属 于 的 类 别 的 训 练 样 本 来 确 定 判 定 边 界 这 一 思 想 在 如 图 2 所 示 的 情 况 下 最 容 易 理 解, 如 图 2 所 示, 这 两 个 类 别 通 过 一 个 线 性 决 策 边 界 严 格 可 分, 正 如 Wernick 在 文 献 [3] 中 所 探 讨 的 一 样 在 这 种 情 况 下, 可 将 两 个 类 别 的 间 距 最 大 化 的 分 离 线 通 常 通 过 如 下 的 方 法 寻 找 : 1) 画 出 数 据 点 的 类 别 凸 包 ( 就 像 环 绕 着 每 个 数 据 点 的 群 组 撑 开 一 个 橡 皮 筋 ; 称 其 为 区 域 S1 和 S2) 2) 寻 找 点 C 和 E, 让 区 域 S1 和 S2 与 他 们 之 间 的 距 离 最 小 3) 画 出 连 接 点 C 和 E 的 线 段 的 垂 直 平 分 线, 则 就 得 到 了 决 策 边 界 第 2 步 是 通 过 使 用 采 用 标 准 方 法 [3] 求 解 一 个 二 次 规 划 ( 约 束 优 化 ) 问 题 来 完 成 的 在 线 性 分 类 器 中, 向 量 w 被 称 为 判 别 向 量 在 SVM 的 术 语 中, 图 2 中 的 点 A B 和 C 被 称 之 为 支 持 向 量, 这 时 一 个 类 比 于 力 学 而 衍 生 出 来 的 术 语 如 果 图 2 中 的 点 A B 和 C 是 物 理 支 持, 则 足 够 为 他 们 之 间 的 夹 心 板 提 供 足 够 的 力 学 稳 定 性 很 显 然, 支 持 向 量 是 来 自 训 练 数 据, 可 以 明 确 定 义 该 模 型 的 那 些 最 适 合 的 实 例 确 切 地 说, 对 于 特 定 的 测 试 例 子, 可 以 根 据 支 持 向 量 写 出 模 型, 如 下 所 示 : i I i i i (1) s f T ( x ) α yx x b 其 中 仅 将 是 支 持 向 量 的 训 练 实 例 进 行 求 和, 并 使 用 优 化 过 程 中 的 拉 格 朗 日 乘 子 确 定 系 数 支 持 向 量 机 方 法 的 好 处 在 于 分 类 学 自 动 专 注 于 难 以 归 类 的 实 例 点 A,B 和 C; 式 (1) 中 的 计 算 结 果 随 着 支 持 向 量 的 数 量 而 改 变, 并 不 是 因 为 空 间 维 数 的 增 加 而 变 化 ( 在 某 些 问 题 中, 空 间 维 度 非 常 大 ) 此 外, 可 以 证 明 支 持 向 量 机 能 够 在 训 练 误 差 和 模 型 复 杂 性 间 取 得 平 衡, 从 而 避 免 过 拟 合, 其 中 一 个 缺 陷 就 是 根 据 训 练 实 例 将 模 型 微 调 得 非 常 好, 但 对 于 新 数 据 却 无 能 为 力 这 种 方 法 被 称 为 结 构 风 险 最 小 化 所 描 述 的 公 式 远 远 没 有 顾 及 到 通 过 线 性 边 界 不 能 将 两 个 类 别 完 全 分 开 的 可 能 性 但 是 这 种 情 况 通 过 将 松 弛 变 量 引 入 二 次 优 化 问 题 就 很 容 易 地 得 到 解 决, 从 而 使 错 分 的 训 练 数 据 的 数 目 降 到 最 低 此 外, 支 持 向 量 机 可 以 很 容 易 地 实 现 回 归, 而 不 是 通 过 所 谓 的 不 敏 感 成 本 函 数 进 行 分 类 [2] 非 线 性 模 型 : 核 方 法 机 器 学 习 的 一 个 重 要 突 破 就 是 已 获 承 认 的 所 谓 的 核 方 法 [2], 它 提 供 了 一 个 简 单 和 广 泛 适 用 的 手 段, 通 过 内 积, 从 任 意 的 线 性 模 型 获 取 一 个 非 线 性 模 型 即 便 是 经 典 的 方 法, 如 Fisher 判 别 或 主 成 分 分 析, 都 可 以 通 过 核 方 法 很 容 易 地 转 化 为 灵 活 的 非 线 性 方 法 为 了 理 解 核 方 法, 考 虑 应 用 以 下 的 假 设 的 一 系 列 的 步 骤 将 线 性 SVM 转 化 成 为 一 个 非 线 性 技 术 假 设 我 们 先 对 每 一 个 来 自 训 练 集 的 输 入 向 量 x i 进 行 非 线 性 变 换 U, 并 训 练 一 个 线 性 分 类 器 用 于 区 分 变 换 后 的 向 量 U ( x i ) 的 类 别 如 果 转 换 的 空 间 维 度 较 原 来 的 空 间 高, 可 分 性 将 会 增 强, 转 换 维 度 的 确 不 是 有 限 的 [8] IEEE 信 号 处 理 杂 志
乍 看 之 下, 将 每 个 输 入 向 量 转 换 到 一 个 高 维 空 间 似 乎 是 不 切 实 际 的 然 而, 核 方 法 让 我 们 认 识 到 无 需 真 正 地 进 行 变 换 就 可 用 得 到 期 望 的 结 果 使 用 变 换 并 应 用 于 式 (1) 中 的 SVM 模 型, 就 可 以 得 到 变 换 后,(1) 就 变 为 : N f( x) wk( x, x) (2) i 1 i 请 注 意, ( 2 ) 式 中 的 变 换 U 仅 以 内 积 T Kxx ( i, ) _U( xi) U ( x) 的 形 式 出 现, 那 么 式 (2) 就 可 以 写 为 : N f( x) wk i ( x, xi) (3) i 1 因 此, 可 以 看 到 我 们 实 际 上 没 有 必 要 去 计 算 U ( 甚 至 不 用 明 确 定 义 ) 相 反, 只 需 简 单 地 定 义 核 函 数 K (,) $$ 而 已, 结 果 表 明, 任 何 半 正 定 函 数 就 足 够 了 机 器 学 习 中 常 用 的 核 函 数 包 括 径 向 基 函 数 ( 高 斯 ) 和 多 项 式 直 觉 上 来 说, 核 的 作 用 就 是 衡 量 测 试 向 量 x 和 每 个 支 持 向 量 x i 间 的 相 似 性 ; 这 些 相 似 性 将 用 于 获 得 输 出 结 果 属 于 这 些 类 别 之 一 的 向 量 可 能 是 与 属 于 这 一 类 的 支 持 向 量 最 相 似, 因 此 这 些 相 似 度 就 传 达 了 所 需 要 的 信 息 要 记 住 的 关 键 点 是 这 些 相 似 性 比 较 只 是 相 对 于 支 持 向 量, 对 于 靠 近 判 定 边 界 的 实 例 就 问 题 多 多 稍 后 我 们 将 看 到 在 乳 腺 X 光 摄 影 背 景 下 这 些 支 持 向 量 的 视 觉 实 例 关 联 向 量 机 : 贝 叶 斯 学 习 和 稀 疏 约 束 支 持 向 量 机 的 一 个 重 要 的 改 进 就 是 Tipping 提 出 的 所 谓 的 关 联 向 量 机 (RVM)[5] 我 们 发 现 RVM 在 数 个 医 学 成 像 应 用 中 的 性 能 异 乎 寻 常 地 良 好, 通 常 比 其 他 可 选 择 方 法, 包 括 SVM, 计 算 成 本 低 很 多 RVM 强 调 稀 疏 性 ( 即 降 低 模 型 的 复 杂 度 ), 因 此 与 压 缩 感 知 的 思 想 密 切 相 关 [6] 就 像 SVM 一 样,RVM 使 用 了 被 称 为 关 联 向 量 的 训 称 数 据 子 集, 但 关 联 向 量 通 常 要 比 支 持 向 量 少 得 多 正 如 SVM 一 样, 关 联 向 量 机 也 以 核 模 型 开 始 N f( x) wk i ( x, xi) (4) i 1 然 而,SVM 是 以 最 大 分 类 间 隔 准 则 为 基 础, 而 关 联 向 量 机 则 使 用 了 贝 叶 斯 方 法 RVM 假 设 核 加 权 w i 服 从 高 斯 先 验 分 布, 具 有 零 均 值 和 方 差 a - 1-1 i RVM 则 进 一 步 假 设 aa i 服 从 超 Gamma 先 验 分 布 选 择 这 些 模 型 的 直 接 后 果 就 是 核 加 权 w i 总 的 先 验 分 布 为 一 个 多 元 t 分 布 由 于 该 分 配 是 关 于 w i 空 间 的 轴 线 紧 密 集 的, 那 么 先 验 分 布 的 大 部 分 的 值 都 几 乎 为 零 因 此, 最 终 求 和 只 涉 及 到 少 数 几 个 非 零 项 w i, 相 关 的 训 练 实 例 被 称 为 相 关 向 量 使 用 这 个 机 制, 通 常 可 以 避 免 过 拟 合, 而 且 RVM 的 计 算 时 间 则 相 对 较 短 令 人 惊 讶 的, 尽 管 具 有 这 样 的 优 势,RVM 在 医 学 成 像 中 的 使 用 还 相 对 较 少, 特 别 是 与 广 为 人 知 的 SVM 方 法 相 比 较 i 虽 然 RVM 和 SVM 都 完 全 以 训 练 数 据 的 子 集 为 基 础 给 出 决 策 (RVM 中 使 用 相 关 向 量,SVM 中 使 用 支 持 向 量 ), 这 些 子 集 通 常 是 完 全 不 同 的 支 持 向 量 都 是 位 于 决 策 边 界 的 实 例, 而 相 关 向 量 则 通 常 传 播 到 整 个 分 布 稍 后 我 们 将 在 有 关 乳 腺 X 光 摄 影 的 上 下 文 中 看 到 这 种 差 异 不 幸 的 是,RVM 不 像 SVM 那 样 有 一 个 简 单 的 几 何 解 释, 因 此 在 本 文 中 将 不 会 给 出 一 个 图 形 方 面 的 实 例 ; 我 们 请 读 者 参 考 文 献 [5], 其 中 包 含 数 个 非 常 精 彩 的 插 图 统 计 重 采 样 的 鲁 棒 性 和 评 价 统 计 数 据 重 采 样 [7] 指 的 是 用 来 评 价 机 器 学 习 模 型 的 性 能 和 改 善 鲁 棒 性, 并 估 计 统 计 显 着 性 水 平 的 系 列 技 术 尽 管 重 采 样 没 有 预 测 模 型 那 么 受 关 注, 但 也 同 样 重 要 机 器 学 习 与 经 典 决 策 和 估 计 理 论 的 主 要 不 同 之 处 在 于 它 着 重 于 在 只 有 来 自 数 据 本 身 的 数 据 基 础 分 布 的 知 识 的 状 况 在 这 种 环 境 下, 统 计 显 著 性 检 验 就 不 能 使 用 传 统 的 方 式 处 理, 因 为 零 分 布 是 未 知 的 幸 运 的 是, 零 分 布 的 经 验 估 计 可 以 很 容 易 地 通 过 置 换 重 采 样 获 取 为 了 理 解 置 换 重 采 样, 我 们 考 虑 如 下 状 况, 这 里 有 两 套 数 据,w 1 和 w 2, 我 们 希 望 测 试 某 些 假 设, 例 如 他 们 的 均 值 是 否 一 致 由 于 我 们 不 知 道 事 实 上 w 1 和 w 2 是 否 服 从 相 同 的 分 布 ( 乃 至 分 布 形 式 ), 我 们 就 无 法 直 接 评 估 显 著 性 但 是 我 们 可 以 通 过 重 排 数 据 上 的 标 签, 创 建 一 个 经 验 零 分 布, 例 如 故 意 创 建 两 个 数 据 集, 其 中 的 数 据 来 自 w 1 和 w 2 的 混 合 组 请 注 意, 往 往 重 要 的 只 是 标 签, 而 不 是 数 据 本 身 被 重 排 ( 例 如, 在 时 间 序 列 问 题 中 ) 通 过 以 各 个 可 能 的 方 式 ( 或 至 少 以 某 些 相 当 大 量 的 随 机 方 式 ) 置 换 数 据, 我 们 就 可 以 获 取 实 例 数 据, 其 中 我 们 知 道 这 两 个 群 体 服 从 相 同 的 分 布, 从 而 刻 画 了 零 假 设 重 采 样 可 发 挥 核 心 作 用 的 另 一 个 地 方 是 在 解 决 以 下 模 型 验 证 问 题 中 : 如 果 我 们 用 所 有 可 用 的 数 据 训 练 我 们 的 模 型, 那 么 就 没 有 留 下 测 试 模 型 或 优 化 参 数 所 需 的 数 据 在 这 里 使 用 置 换 重 采 样 方 法 有 交 叉 验 证 和 bootstrap 方 法, 都 需 要 独 立 同 分 布 (IID) 的 重 采 样 对 象 在 k - 折 交 叉 验 证 中, 数 据 集 被 随 机 地 分 为 k 个 组 ; 其 中 的 (k -1) 个 组 用 于 训 练 模 型, 保 留 下 来 的 那 一 组 则 用 于 测 试 此 过 程 需 要 进 行 k 次 ( 每 个 被 拿 出 来 的 组 都 要 执 行 一 次 ), 然 后 把 结 果 组 合 起 来, 通 常 是 求 平 均 在 基 本 bootstrap 法 中, 数 据 而 是 是 用 包 含 N 个 数 据 实 例 的 集 合 进 行 训 练, 这 些 数 据 实 例 通 过 在 整 个 数 据 集 中 随 机 置 换 N 次 的 重 采 样 获 得 偶 然 有 一 些 没 有 被 选 入 训 练 集 实 例, 则 都 将 留 给 测 试 用 就 像 在 交 叉 验 证 中 一 样, 该 过 程 将 重 复 进 行, 结 果 则 通 过 求 平 均 进 行 结 合 对 于 基 本 bootstrap 法 而 言, 众 所 周 知 是 以 向 下 偏 误 为 代 价, 可 以 降 低 估 计 方 差 的 预 测 准 确 度 ( 即 基 本 bootstrap 法 给 出 了 悲 观 的 性 能 估 计 ) 0.632 bootstrap 法 采 用 了 偏 差 修 正 项 对 此 进 行 了 改 进, 在 更 先 进 的 bootstrap 中 [8], 尝 试 解 释 说 明 因 过 拟 合 产 生 的 偏 差 在 使 用 置 换 获 得 经 验 零 分 布 的 问 题 中, 替 代 假 设 的 经 验 零 分 布 通 过 可 以 通 过 bootstrap 获 得 统 计 重 采 样 不 仅 被 广 泛 地 用 于 测 试 预 测 模 型, 还 可 以 改 善 其 性 能 有 关 的 例 子 包 括 bootstrap aggregation ( 即 bagging) 技 术, 以 及 非 参 数, 预 测, 活 化, 影 响 力, 复 现 性, 影 像 学 中 的 重 采 样 框 架 (NPAIRS)[9], 本 文 将 在 稍 后 作 出 解 释 IEEE 信 号 处 理 杂 志 [9]
乳 腺 X 线 影 像 诊 断 中 的 计 算 机 辅 助 检 测 CAD(computer aided detection, 计 算 机 辅 助 检 测 ) 在 过 去 数 十 年 都 是 非 常 活 跃 的 研 究 领 域, 所 以 我 们 不 打 算 在 此 对 有 关 文 献 进 行 全 面 考 察 感 兴 趣 的 读 者 可 以 参 考 有 关 计 算 机 辅 助 检 测 乳 腺 X 线 影 像 的 总 结 与 回 顾, 比 如 文 献 [10] 和 [11] 或 许 CAD 最 大 的 成 功 就 在 于 乳 腺 成 像 研 究 表 明, 如 果 有 两 个 放 射 科 医 师 判 读 同 一 个 乳 房 X 光 检 查 结 果, 可 明 显 提 高 癌 症 筛 查 的 敏 感 度, 但 这 将 以 增 加 工 作 量 和 成 本 为 代 价 CAD 软 件 可 以 用 作 一 个 替 代 的 第 二 读 者, 以 更 低 的 成 本 提 高 放 射 科 医 师 的 诊 断 准 确 性 为 目 的 计 算 机 辅 助 检 测 的 CAD, 即 CADe, 计 算 机 会 提 醒 放 射 科 医 师 潜 在 的 病 灶 : 计 算 机 辅 助 诊 断, 即 CADx, 可 预 测 病 灶 是 恶 性 的 可 能 性 有 多 大 CAD 体 系 通 常 包 括 下 列 主 要 步 骤 :1) 应 用 自 动 图 像 分 析, 提 取 定 量 特 征 向 量 以 便 表 征 相 关 图 片 的 内 容, 以 及 2) 应 用 模 式 分 类 器, 以 确 定 所 提 取 特 征 向 量 可 能 属 于 那 个 类 别 自 动 提 取 图 像 特 征 包 括 图 像 对 比 度, 与 几 何 形 状 形 态 学 和 纹 理 特 征 此 外, 还 有 针 对 该 病 人 提 供 的 其 他 形 式 的 可 用 信 息 机 器 学 习 的 应 用 范 围 从 线 性 判 别 (LD) 分 析 模 糊 逻 辑 技 术 神 经 网 络 和 委 员 会 的 机 器, 直 到 本 文 在 前 面 所 说 明 的 最 近 的 基 于 核 的 方 法 ( 如 SVM 和 RVM) 接 下 来, 我 们 将 描 述 两 个 机 器 学 习 用 于 数 字 化 乳 腺 X 光 筛 查 的 例 子, 这 两 个 例 子 均 来 自 我 们 自 己 的 研 究 工 作 : 微 钙 化 点 簇 的 检 测 (CADe) 和 分 类 (CADx) CADe: 微 钙 化 检 测 Microcalcifications (MCs) 指 乳 腺 组 织 内 微 小 的 钙 沉 积, 在 乳 腺 x 光 片 上 显 示 为 小 亮 点 ( 参 见 图 3) 微 钙 化 点 簇 是 乳 腺 癌 的 重 要 指 标, 在 30-50% 的 病 例 中 出 现 单 个 的 MCs 有 时 很 难 发 现, 因 为 其 形 状, 方 向, 亮 度 和 大 小 ( 通 常 为 0.05-1mm) 的 变 化, 而 且 还 因 为 周 围 的 乳 腺 组 织 存 在 混 杂 纹 理 微 钙 化 检 测 一 向 是 深 入 调 查 的 目 标 ( 例 如 文 献 [12]) 已 经 证 明 现 代 机 器 学 习 方 法 对 此 非 常 有 效, 就 如 我 们 接 下 来 要 解 释 的 那 样 SVM 检 测 器 在 文 献 [13] 中, 我 们 训 练 了 一 个 SVM, 依 据 围 绕 该 点 的 较 小 感 兴 趣 区 域 (ROI) 为 基 础, 用 于 确 定 乳 腺 X 光 影 像 的 每 个 位 置 是 否 存 在 MC( MC 存 在 类 ) 或 不 存 在 ( MC 不 存 在 类 ) SVM 通 过 放 射 专 家 所 识 别 出 来 的 MC 存 在 的 ROI 进 行 训 练 ( 参 见 图 4) MC 通 常 只 占 据 了 一 个 乳 腺 X 光 片 的 一 小 部 分, 因 此 MC 不 存 在 的 ROI 要 比 MC 存 在 的 ROI 多 要 充 分 利 用 这 一 优 势, 我 们 开 发 了 连 续 增 强 学 习 (SEL) 中 的 流 程, 提 高 了 SVM 分 类 器 的 预 测 能 力 在 SEL 中, 通 过 从 整 个 可 用 训 练 图 像 中 选 择 最 具 代 表 性 的 MC 不 存 在 实 例, 重 迭 调 整 SVM 训 练, 同 时 保 持 训 练 实 例 的 总 数 较 小 以 受 测 乳 腺 X 光 影 像 集 合 为 基 础, 通 过 衡 量 自 由 响 应 的 受 试 者 操 作 特 性 (FROC) 曲 线, 我 们 可 用 说 明 了 SEL- 在 现 代 计 算 的 背 景 下, 机 器 学 习 已 引 起 了 空 前 浓 厚 的 兴 趣, 例 如 商 业 智 能 检 测 垃 圾 邮 件, 以 及 欺 诈 和 信 用 评 分 SVM 方 法 在 有 文 献 可 考 的 数 个 先 进 的 方 法 中, 性 能 最 佳, 检 测 概 率 与 每 幅 图 像 假 阳 性 的 平 均 数 量 绘 制 了 图 5 图 3 给 出 了 一 个 实 例 图 像 的 部 分, 以 及 相 应 的 SVM 输 出 RVM 检 测 器 在 乳 腺 X 光 筛 查 中, 计 算 时 间 可 以 说 是 一 个 非 常 严 峻 的 问 题, 其 中 的 图 像 可 以 包 含 非 常 多 的 必 须 评 估 的 3000h 5000 像 素 点 尽 管 SVM 获 得 了 非 常 卓 越 的 检 测 性 能, 但 是 非 常 耗 时, 因 为 支 持 向 量 的 数 量 可 能 十 分 巨 大 为 了 解 决 这 个 问 题, 在 文 献 [14] 中, 我 们 开 发 了 一 种 基 于 RVM( 如 前 所 述 ) 的 方 法, 该 方 法 能 够 产 生 一 个 非 常 稀 疏 决 策 函 数, 从 而 显 著 节 省 计 算 时 间, 而 同 时 也 可 以 得 到 类 似 SVM 的 检 测 性 能 为 了 进 一 步 加 快 算 法, 我 们 探 索 一 个 两 阶 段 的 分 类 方 法, 我 们 使 用 一 个 计 算 量 较 小 的 线 性 RVM 作 为 第 一 阶 段, 用 于 快 速 消 除 非 MC 的 像 素, 然 后 再 使 用 一 个 非 线 性 的 RVM 分 类 器 检 测 中 剩 余 的 MC 我 们 的 研 究 结 果 表 明,RVM 方 法 实 现 与 SVM 几 乎 相 同 的 检 测 精 度 的 同 时, 计 算 量 降 低 了 35 倍 SVM 与 RVM 如 前 所 述,SVM 和 RVM 都 是 基 于 核 的 方 法, 两 者 都 仅 以 训 练 数 据 的 子 集 为 基 础 作 出 决 策 ü SVM 中 的 支 持 向 量 和 RVM 中 的 关 联 向 量, 都 用 来 刻 画 各 个 类 别 但 是,SVM 和 RVM 倾 向 于 选 择 非 常 不 同 的 向 量 来 表 示 类 别 SVM 选 择 非 常 靠 近 决 策 边 界 的 向 量 作 为 支 持 向 量, 而 RVM 则 倾 向 选 择 两 个 类 别 最 典 型 的 向 量 作 为 关 联 向 量 图 4 中 给 出 了 支 持 向 量 和 关 联 向 量 的 实 例 请 注 意, MC 存 在 和 MC 不 存 在 的 支 持 向 量 非 常 难 于 区 分, 因 为 它 们 都 位 于 决 策 边 界 的 附 近, 而 MC 存 在 和 MC 不 存 在 的 关 联 向 量 则 分 别 是 病 变 区 域 和 背 景 区 域 的 明 确 实 例 CADx: 微 钙 化 点 簇 的 诊 断 大 量 的 研 究 已 表 明 计 算 机 化 的 CADx 旨 在 很 难 将 良 性 MC 和 恶 性 MC 区 分 时 对 放 射 科 医 师 提 供 帮 助 在 文 献 [15] 中, 证 明 了 一 个 CADx 系 统 能 够 比 放 射 科 医 师 更 准 确 地 分 类 点 簇 化 的 MC 该 方 法 使 用 了 前 馈 神 经 网 络 (FFNN), 使 用 从 点 簇 化 MC 图 像 自 动 提 取 的 测 度 进 行 训 练 在 机 器 学 习 最 新 进 展 的 推 动 下, 我 们 在 文 献 [16] 进 行 查 找, 以 便 确 定 最 先 进 的 机 器 学 习 方 法 [SVM 核 Fisher 判 别 (KFD) RVM 委 员 会 机 器 ( 包 括 总 体 均 值 和 Adaboost, 这 是 一 个 众 所 周 知 的 boosting 方 法 )], 较 之 前 的 方 法, 如 FFNN, 能 够 进 一 步 改 善 将 MC 点 簇 分 为 恶 性 或 良 性 肿 瘤 的 分 类 性 能 我 们 使 用 了 文 献 [15] 中 定 义 的 以 单 个 MC 的 形 状 和 大 小 为 依 据 的 特 征, 以 及 作 为 一 个 点 簇 的 总 体 分 布, 已 知 这 些 都 都 与 放 射 科 医 师 常 用 的 特 征 定 性 相 关 评 价 研 究 表 明, 核 方 法 (SVM KFD 和 RVM) 性 能 上 彼 此 类 似 ( 就 受 试 者 操 作 特 性 (ROC) 曲 线 下 面 的 区 域 而 言 ), 但 在 统 计 意 义 上, 其 性 能 都 比 FFNN 和 AdaBoost 显 着 改 善 基 于 内 容 的 图 像 检 索 (CBIR)CADx [10] IEEE 信 号 处 理 杂 志
虽 然 看 起 来 很 途 光 明, 但 CADx 在 应 用 于 临 床 实 践 时 遇 到 阻 力, 部 分 原 因 是 放 射 科 医 生 在 进 行 培 训 都 是 解 释 视 觉 数 据, 很 少 处 理 定 量 的 X 线 信 息, 如 乳 腺 恶 性 肿 瘤 的 可 能 性 等 因 此, 当 提 出 一 个 数 值, 而 没 有 其 它 的 支 持 证 据, 即 便 是 放 射 科 医 生 也 很 难 完 美 地 将 这 个 数 字 纳 入 到 诊 断 结 论 中 就 其 本 身 而 论, 传 统 CADx 分 类 器 经 常 被 质 疑 为 是 一 个 黑 盒 子 方 法 为 了 避 免 这 一 缺 陷, 我 们 一 直 主 张 采 用 另 一 种 方 法, 也 就 是 基 于 内 容 的 图 像 检 索 (CBIR)[17][18], 使 用 一 个 图 像 搜 索 引 擎 通 过 展 示 来 自 过 去 案 例 中 的 相 关 信 息, 在 有 困 难 的 案 例 中 为 放 射 科 医 生 的 诊 断 听 过 信 息 检 索 到 示 例 病 变 能 够 使 放 射 科 医 生 明 确 地 比 较 已 知 病 案 和 未 知 案 例 这 种 方 法 的 主 要 优 点 在 于 能 够 提 供 针 对 病 案 的 证 据, 以 支 持 放 射 科 医 师 作 出 基 于 病 案 的 推 断, 而 不 是 作 为 一 个 附 加 的 决 策 者 对 于 一 个 检 索 系 统 而 言, 要 成 为 一 个 有 用 的 诊 断 助 手, 检 索 到 的 图 像 必 须 与 放 射 科 医 师 感 知 到 的 查 询 图 像 真 正 相 关, 否 则 他 们 可 能 只 是 简 单 地 将 其 忽 略 在 2000[17] 年, 我 们 提 出 了 一 个 有 监 督 学 习 方 法, 用 于 对 放 射 科 医 师 的 图 像 相 似 性 概 念 进 行 建 模, 以 便 用 于 CBIR 我 们 的 基 本 原 理 是 对 通 用 的 图 像 检 索 使 用 设 计 的 数 学 上 的 距 离 测 度, 可 能 不 能 充 分 刻 画 图 像 图 像 临 床 概 念 上 的 相 关 性, 这 些 都 是 专 家 观 察 者 所 作 的 复 杂 评 估 在 我 们 的 方 法 中, 通 过 应 用 于 图 像 特 征 的 非 线 性 回 归 模 型 对 两 幅 病 变 图 像 的 感 知 相 似 度 进 行 建 模 该 模 型 通 过 对 实 例 使 用 有 监 督 学 习 而 确 定, 这 些 实 例 收 集 自 人 类 观 察 者 的 研 究, 或 者 来 自 在 线 用 户 反 馈 ( 在 该 系 统 使 用 期 间 所 获 得 的 ) 具 体 来 说, 我 们 首 先 通 过 包 含 其 关 键 相 关 特 征 的 向 量 u 刻 画 病 变 接 下 来, 通 过 预 测 模 型 fuv (,) 产 生 一 个 相 似 度 系 数 (SC), 比 对 特 征 向 量 u 和 数 据 库 条 目 的 相 应 特 征 向 量 v 具 有 最 高 SC 值 的 图 像 将 被 从 数 据 库 中 检 索 出 来, 并 呈 现 给 用 户 在 我 们 的 研 究 中, 采 用 了 非 线 性 回 归 SVM 和 一 般 回 归 神 经 网 络 (GRNN) 进 行 建 模 fuv (,) 事 实 已 证 明 我 们 的 学 习 测 度 远 远 要 比 其 他 可 用 的 度 量 有 效 [17][18] 为 了 解 释 说 明 感 知 相 似 度, 图 6 是 一 个 使 用 多 维 尺 度 (MDS) 的 算 法 创 建 的 平 面 图, 显 示 了 30 个 微 钙 化 簇 MDS 是 一 个 系 列 技 术, 其 目 的 将 高 维 数 据 映 射 到 低 维 表 示 并 保 持 保 持 相 对 距 离 ( 即 如 果 两 个 点 在 高 维 空 间 中 彼 此 接 近, 则 MDS 试 图 在 低 维 空 间 中 也 将 它 们 放 置 在 彼 此 接 近 的 地 方 ) 在 图 6 中, 散 点 图 中 的 每 个 微 钙 化 簇 是 由 一 个 标 记 ( 方 形 或 圆 形 ) 表 示 MDS 在 尝 试 放 置 这 些 点 时, 使 得 视 觉 上 类 似 的 微 钙 化 簇 ( 如 同 人 类 观 察 者 判 断 的 一 样,) 在 散 点 图 也 放 置 得 接 近 彼 此 对 应 于 这 些 数 据 点 的 微 钙 化 簇 的 实 例 表 示 为 加 号 (+) 的 集 合 这 些 实 例 的 视 觉 检 查 表 明, 平 面 图 的 纵 轴 与 微 钙 化 点 的 密 度 密 切 相 关, 而 横 轴 则 反 映 了 点 簇 的 形 状 必 须 要 注 意 的 是 在 这 个 空 间 里 的 恶 性 和 良 性 病 变 之 间, 有 一 个 合 理 的, 但 并 非 十 全 十 美 分 离 平 面 最 近, 我 们 建 议 采 用 CBIR 推 动 传 统 CADx 分 类 器 的 性 能 [18] 具 体 来 说, 使 用 与 放 射 科 医 生 评 估 的 图 像 相 类 似 的 数 据 库 图 像 来 改 善 SVM 分 类 器, 从 而 提 高 在 当 前 病 案 中 的 准 确 度 我 们 目 前 正 在 调 研 CBIR 对 放 射 科 医 师 的 诊 断 行 为 的 影 响 诊 断 行 为 预 测 的 自 动 图 像 质 量 评 估 Mammogram SVM Output Detected Region Lesion Positions (a) (b) (c) [ 图 3] (a) 包 含 微 钙 化 点 的 乳 腺 X 光 影 响 的 实 例 (b) SVM 检 测 器 的 输 出 y (c) 使 用 y 后 检 测 到 的 微 钙 化 点 簇 位 置 诊 断 成 像 可 以 被 看 作 是 由 成 像 设 备 图 像 处 理 器 ( 例 如 图 像 重 建 算 法 和 显 示 ) 和 人 类 观 察 者 ( 如 放 射 科 医 生 ) 组 成 的 管 道 需 要 评 估 图 像 采 集 和 处 理 阶 段 的 设 计 选 择 对 最 终 解 释 阶 段 的 影 响 的 原 则 性 方 法 Support Vectors MC Present MC Absent (a) Relevance Vectors MC Present MC Absent (b) [ 图 4] (a) SVM 的 支 持 向 量 的 比 较 (b) 用 来 检 测 微 钙 化 点 簇 的 RVM 的 关 联 向 量 SVM 自 动 选 择 位 于 决 策 边 界 的 实 例 作 为 支 持 向 量 ( 因 此 MC 不 存 在 和 MC 存 在 的 支 持 向 量 看 起 来 很 类 似 ), 而 RVM 则 趋 于 选 择 的 两 个 类 别 中 更 典 型 的 向 量 作 为 关 联 向 量 ( 因 此 两 组 关 联 向 量 看 起 来 非 常 不 同 ) IEEE 信 号 处 理 杂 志 [11]
一 般 传 统 上 评 估 成 像 设 备 和 图 像 重 建 软 件 仅 仅 使 用 基 本 的 保 真 度 指 标, 如 信 噪 比 (SNR) 均 方 误 差, 以 及 偏 置 和 方 差 然 而 这 些 指 标 都 是 用 来 比 较 受 统 计 意 义 下 不 同 类 型 的 模 糊, 噪 声 和 伪 影 影 响 的 图 像 [19] 在 X 光 成 像 方 面,Lusted 在 二 十 世 纪 70 年 代 就 认 识 到 这 一 点 [20], 他 指 出, 从 物 理 学 的 观 点 来 看, 图 像 可 以 忠 实 地 再 现 组 织 的 形 状 和 纹 理, 然 而 并 未 包 含 有 用 的 诊 断 信 息 在 Science 上 很 有 影 响 力 的 一 篇 文 章 中 [20],Lusted 推 测, 要 衡 量 一 个 诊 断 用 成 像 实 验 的 价 值, 那 么 在 使 用 成 像 实 验 时, 我 们 必 须 评 估 观 察 者 的 行 为 换 句 话 说, 如 果 要 将 图 像 用 于 病 变 检 测, 那 么 图 像 质 量 的 好 坏 应 由 具 有 检 测 病 变 能 力 的 观 察 者 来 进 行 判 断 这 种 方 法 被 成 为 基 于 任 务 的 图 像 质 量 评 价 称 Lusted 进 一 步 地 讲, 来 自 古 典 检 测 理 论 的 ROC 曲 线 是 一 种 描 述 诊 断 行 为, 进 而 图 像 质 量 的 理 想 的 手 段 此 方 法 使 得 ROC 分 析 在 医 学 成 像 领 域 得 到 了 广 泛 的 应 用 和 实 现, 例 如 在 Metz 等 人 所 发 布 的 Rockit 中 [21] 图 7 给 出 了 人 类 观 察 者 的 行 为 如 何 受 所 呈 现 的 图 像 类 型 影 响 的 例 子 在 这 种 情 况 下, 呈 现 给 人 类 观 察 者 的 是 一 幅 通 过 单 光 子 发 射 计 算 机 断 层 成 像 技 术 (SPECT) 获 得 的 心 肌 灌 注 影 像 ( 心 壁 ) 以 使 用 相 同 的 数 据 集 合 通 过 不 同 的 方 式 重 建 的 图 像 为 基 础, 要 求 该 观 察 者 判 断 是 否 有 指 示 灌 注 不 足 的 暗 区 图 7 给 出 了 12 种 不 同 的 重 建 结 果, 通 过 使 用 一 步 或 五 步 迭 代 的 有 序 子 集 期 望 最 大 化 算 法 (OS-EM), 以 及 具 有 可 变 半 高 宽 (FWHM) 的 高 斯 滤 波 器 获 得 病 灶 位 于 箭 头 所 指 的 位 置, 沿 着 图 7 的 顶 部 和 底 部 的 数 值 是 观 察 者 所 说 的 信 心 度 ( 分 为 1-6 个 等 级,6 表 示 信 心 度 最 高 ) 请 注 意, 随 着 图 片 被 处 理 得 越 来 越 光 滑, 观 察 者 的 对 于 存 在 病 灶 的 信 心 度 先 上 升, 后 下 降 对 于 最 佳 平 滑 级 别 的 选 择 就 是 目 标 的 一 个 实 例, 其 中 定 量 图 像 质 量 度 量 是 必 要 的 TP Fraction 1 0.9 0.8 0.7 0.6 SVM Classifier SVM-SEL 0.5 Wavelet DoG 0.4 IDTF Neural Network 0.3 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Average Number of FP Clusters [ 图 5] 用 于 检 测 乳 腺 X 光 影 像 中 的 MC 的 不 同 方 法 的 检 测 性 能 通 过 一 个 连 续 学 习 SVM 获 得 了 最 佳 性 能, 以 每 幅 图 像 执 行 一 次 FP 聚 类 的 代 价 即 可 实 现 约 94% 的 检 出 率 (TP 分 数 ), 而 经 典 技 术 (DoG) 大 约 只 有 68% 的 检 出 率 尽 管 重 采 样 没 有 预 测 模 型 那 么 受 关 注, 但 也 同 样 重 要 人 类 观 察 者 的 机 器 学 习 模 型 在 诊 断 成 像 中, 衡 量 图 像 质 量 的 黄 金 标 准 就 是 对 使 用 给 定 图 像 集 合 时, 测 量 观 察 者 ( 如 放 射 科 医 生 ) 的 诊 断 水 平 进 行 统 计 研 究 不 幸 的 是, 这 些 研 究 费 用 和 复 杂 性 让 它 们 无 法 日 常 使 用 因 此, 数 字 观 察 者 ü 模 仿 人 类 观 察 者 行 为 的 算 法 目 前 已 被 广 泛 地 用 作 人 类 观 察 者 的 代 替 物 一 个 被 称 为 Hotelling observer(cho)[22] 的 特 殊 数 字 观 察 者, 现 已 被 广 泛 使 用, 特 别 是 在 核 医 学 成 像 方 面 CHO 是 一 个 Fisher LD, 应 用 于 对 图 像 进 行 带 通 滤 波 ( 通 道 ) 而 得 到 的 输 入 特 征 这 些 通 道 的 灵 感 来 自 人 类 视 觉 系 统 中 有 关 感 受 野 的 概 念 由 于 它 对 于 图 像 质 量 评 价 的 原 则 性 方 法,CHO 理 所 当 然 地 在 该 领 域 占 有 非 常 重 要 的 一 席 之 地, 并 享 有 巨 大 声 望 然 而,CHO 并 不 能 完 美 地 捕 捉 人 类 观 察 者 的 表 现, 因 此, 我 们 提 出 了 一 个 新 的 方 法, 其 中 基 于 任 务 的 图 像 质 量 评 估 问 题 被 当 做 有 监 督 学 习 或 系 统 识 别 问 题 [23] 也 就 是 说, 其 目 的 就 是 确 定 x 中 的 图 像 特 征 与 观 察 者 评 分 y 之 间 的 未 知 的 人 类 观 察 者 映 射 fx (), 其 中 观 察 者 评 分 反 映 了 人 类 观 察 者 认 为 图 像 中 存 在 异 常 的 信 心 可 以 从 来 自 人 类 观 察 者 的 实 例 数 据 学 习 到 该 关 系, 在 没 有 人 类 观 察 者 数 据 可 用 的 场 合, 该 模 型 则 可 用 于 在 新 的 情 境 下 做 出 预 测 在 我 们 的 工 作 中, 到 目 前 为 止, 一 直 保 留 CHO 中 使 用 的 通 道, 均 包 含 在 向 量 x 中, 但 我 们 把 这 些 通 道 作 为 SVM fx () 的 输 入, 我 们 将 其 训 练 用 来 在 训 练 实 例 ( xy), i 1,..., N = 的 基 础 上 预 测 观 察 者 评 分 由 此 产 生 的 算 法 被 称 为 通 道 化 SVM (CSVM). i i f 结 果 分 析 在 文 献 [23] 中, 我 们 比 较 了 CSVM 和 CHO 在 心 肌 SPECT 成 像 中 对 图 像 质 量 的 评 价 在 这 个 实 验 中, 在 一 个 涉 及 到 其 他 60 个 图 像 的 培 训 课 程 后, 两 个 医 用 物 理 学 家 评 价 了 100 幅 嘈 杂 图 像 中 的 缺 陷 可 见 度, 并 就 确 定 一 个 6 个 点 大 小 的 病 灶 的 信 心 进 行 评 分 人 类 观 察 者 在 平 滑 滤 波 器 有 6 个 不 同 的 选 择,OS-EM 重 构 算 法 的 迭 代 次 数 也 有 两 个 不 同 选 择 的 情 况 完 成 此 任 务 ( 见 图 7) 为 了 证 明 这 一 方 法 的 泛 化 能 力, 我 们 用 分 布 广 泛 的 图 像 训 练 了 CHO 和 CSVM, 然 后 都 在 一 个 不 同 的, 但 同 样 也 很 广 泛 的 图 像 范 围 内 进 行 测 试 具 体 来 说, 我 们 使 用 滤 波 器 FWHW 的 每 个 值 和 OS-EM 五 次 迭 代 下 的 图 像 训 练 了 两 个 观 察 者, 然 后 使 用 滤 波 器 FWHW 的 每 个 值 和 OS-EM 一 次 迭 代 下 的 图 像 对 观 察 者 进 行 测 试 仅 使 用 基 于 训 练 图 像 的 五 折 交 叉 验 证 对 CHO 和 CSVM 的 参 数 进 行 了 充 分 优 化, 以 便 将 测 量 泛 化 误 差 降 到 最 小 因 此, 对 于 两 个 观 察 者 而 言, 测 试 图 像 没 有 以 任 何 方 式 用 于 模 型 参 数 的 选 择 图 8 中 对 位 于 ROC 曲 线 下 面 (AUC) 的 数 字 观 察 者 区 域 的 数 字 观 察 者 的 预 测 进 行 了 比 较, 以 便 反 映 人 类 观 察 者 的 真 实 能 力 在 这 种 情 况 下,CHO 表 现 相 对 较 差 的, 无 法 匹 配 人 类 观 察 者 AUC 曲 线 的 形 状 或 幅 度, 而 CSVM 能 够 在 这 两 种 情 况 下 生 成 相 当 准 确 的 AUC 预 测 每 个 错 误 条 都 代 表 对 测 试 数 据 进 行 5 折 交 叉 验 证 时 所 计 算 的 标 准 偏 差 这 个 实 验 证 明 了 利 用 机 器 学 习, 而 不 是 固 定 模 型 生 成 预 测 有 着 潜 在 的 好 处 由 于 该 方 法 的 普 遍 性, 机 器 学 习 可 以 用 [12] IEEE 信 号 处 理 杂 志
来 对 人 类 观 察 者 在 许 多 临 床 工 作 中 的 行 为 作 出 预 测, 而 不 只 是 病 变 检 测, 而 CHO 是 专 门 设 计 用 于 病 变 检 测, 因 此 不 适 合 进 行 推 广 脑 功 能 定 位 脑 成 像 涉 及 到 对 大 脑 空 间 表 征 ( 图 ) 的 创 建, 有 助 于 了 解 处 于 正 常 和 疾 病 过 程 中 各 脑 区 的 作 用 脑 成 像 是 其 中 一 个 非 常 不 同 的 应 用 领 域, 因 此, 我 们 只 针 对 以 下 两 个 主 要 方 面 进 行 了 讨 论 :1) 在 许 多 情 况 下, 脑 成 像 对 预 测 输 出 y 的 关 注 要 远 远 低 于 从 脑 图 中 获 得 的 模 型 fx () 本 身 ; 以 及 2) 由 于 脑 成 像 中 可 用 的 数 据 实 例 数 量 相 对 较 少, 非 线 性 模 型 并 不 总 是 优 于 简 单 的 线 性 方 法 脑 成 像 领 域 至 少 已 经 快 速 增 长 了 25 年 在 本 文 有 限 的 篇 幅 内 是 不 可 能 给 出 本 领 域 的 均 衡 调 查 及 其 使 用 的 机 器 学 习, 所 以 我 们 只 给 出 一 个 简 要 概 述 在 20 世 纪 80 年 代, 主 导 脑 成 像 的 技 术 是 正 电 子 发 射 断 层 扫 描 (PET) 和 SPECT 脑 功 能 图 分 析 中 的 第 一 个 机 器 学 习 方 法 就 是 将 人 工 神 经 网 络 (ANN) 应 用 于 糖 代 谢 的 PET 图 像 [24] 然 而, 随 着 在 1990 年 发 现 血 氧 水 平 依 赖 (BOLD) 的 信 号, 可 以 间 接 测 量 区 域 神 经 活 动, 功 能 磁 共 振 成 像 (fmri) 和 相 关 技 术 的 应 用 有 了 爆 炸 性 增 长 [25] 当 时 脑 成 像 中 的 实 验 和 分 析 范 式 仍 是 以 单 变 量 一 般 线 性 模 型 (GLM) 与 推 论 统 计 检 验 [26] 为 基 础, 在 某 些 情 况 下 则 是 以 他 们 的 预 测, 机 器 学 习 当 量, 高 斯 简 单 贝 叶 斯 [27] 为 基 础 使 用 相 关 的 多 元 分 类 方 法 的 论 文 近 期 有 所 增 多, 这 被 该 领 域 的 某 些 人 称 为 读 心 术 最 近 的 综 述, 包 括 历 史 的 观 点, 参 见 文 献 [28], 往 往 都 忽 略 简 单 的 多 元 方 法, 如 主 成 分 分 析 和 LD, 应 用 于 疾 病 群 的 PET 扫 描 [29], 其 中 反 映 了 针 对 大 脑 网 络 的 测 量 协 方 差 结 构, 超 过 20 年 的 工 作 成 果 在 最 近 的 fmri 脑 成 像 文 献 中, 这 一 网 络 主 题 最 近 势 头 强 劲, 主 要 聚 焦 于 测 绘 所 谓 的 默 认 模 式 脑 网 络, 使 用 的 手 段 包 括 逐 对 体 素 相 关 性 [30], 或 种 子 像 素 / 行 为 的 偏 最 小 二 乘 法 (PLS)[31], 独 立 成 分 分 析 (ICA)[32][33], 以 及 最 近 的 非 线 性 动 力 学 [34] 和 图 论 与 白 的 问 题, 再 加 上 脑 白 质 网 络 的 结 构 化 扫 描 [35] 我 们 自 己 的 大 部 分 工 作 集 中 在 如 何 评 价 和 优 化 性 能 的 问 题 上, 以 及 如 何 从 广 泛 的 可 用 机 器 学 习 工 具 挑 选 最 佳 的 信 号 探 测 器 我 们 尤 其 致 力 于 研 究 较 小 的 样 本 规 模 的 影 响, 其 中 将 渐 近 分 析 理 论 应 用 于 多 元 机 器 学 习 模 式, 如 果 影 响 存 在, 则 无 法 提 供 太 多, 如 果 有 的 话, 则 用 于 引 导 脑 图 分 析 是 一 个 非 常 不 适 定 的 问 题, 其 中 通 常 有 数 万 或 数 十 万 计 的 体 素, 但 只 有 数 十 或 数 百 次 大 脑 扫 描 因 此, 小 样 本 的 限 制 对 于 脑 成 像 中 的 医 学 用 途 而 言, 可 能 是 最 重 要 的 判 别 脑 图 为 了 说 明 机 器 学 习 在 脑 成 像 中 的 应 用, 让 我 们 设 想 这 样 的 研 究, 在 其 中 我 们 希 望 产 生 一 个 图 像 用 来 显 示 新 药 对 脑 功 能 的 区 域 性 影 响 ( 本 文 的 两 位 的 作 者,Wernick 和 Strother, 就 是 针 对 制 药 业 进 行 这 样 的 商 业 分 析 ) 要 做 到 这 一 点, 可 以 对 N 位 受 试 者 组 成 的 小 组 进 行 两 次 扫 描, 一 次 是 在 服 用 新 的 药 物 后, 一 次 是 在 投 用 安 慰 剂 后 然 后 分 析 2N 幅 图 对 于 一 个 检 索 系 统 而 言, 要 成 为 一 个 有 用 的 诊 断 助 手, 检 索 到 的 图 像 必 须 与 放 射 科 医 师 感 知 到 的 查 询 图 像 真 正 相 关, 否 则 他 们 可 能 只 是 简 单 地 将 其 忽 略 像, 以 获 得 描 述 药 效 的 图 像 我 们 希 望 这 一 发 现 不 仅 能 描 述 这 个 特 定 的 受 试 者 小 组, 也 能 推 广 到 更 广 泛 的 人 群 针 对 这 个 问 题, 许 多 机 器 学 习 方 法 潜 在 的 基 本 思 想 就 是 在 高 维 空 间 中 将 每 个 图 像 当 作 一 个 向 量, 每 个 分 量 都 代 表 扫 描 中 的 一 个 体 素 的 值 在 这 个 例 子 中, 我 们 的 数 据 可 以 被 看 作 是 由 两 类 图 像 组 成 : 药 物 和 安 慰 剂 为 了 将 维 数 降 低 到 可 管 理 的 水 平, 并 降 低 噪 声, 常 见 的 方 法 是 通 过 奇 异 值 分 解 (SVD) 变 换 数 据 接 下 来, 一 个 训 练 过 的 分 类 器 根 据 降 维 数 据 将 药 物 图 像 和 安 慰 剂 图 像 区 分 开 来 在 传 统 的 模 式 分 类 应 用 中, 训 练 分 类 器 的 目 的 是 要 对 新 数 据 作 出 决 策 事 实 上, 神 经 影 像 学 中 这 样 的 例 子 越 来 越 多, 例 如 在 测 谎, 或 个 别 病 人 的 疾 病 诊 断 中 然 而, 在 许 多 研 究 中, 其 目 的 仅 仅 是 为 了 了 解 大 脑 在 不 同 的 条 件 下 本 质 上 有 什 么 不 同, 也 就 是 说, 药 物 和 安 慰 剂 条 件 在 这 种 情 况 下, 所 需 的 信 息 就 编 码 在 预 测 模 型 fx () 自 身 中 当 采 用 线 性 模 型 时, 期 望 的 脑 图 被 编 码 在 判 别 向 量 中, 而 判 别 向 量 ( 从 SVD 空 间 反 投 影 到 图 像 空 间 ) 是 用 来 描 述 物 和 安 慰 剂 条 件 下 体 素 的 突 显 度 图 9 给 出 了 这 样 一 个 图 像 的 例 子 ( 我 们 称 其 为 空 间 激 活 模 式 ), 在 经 过 阈 值 处 理 后, 叠 加 在 一 个 用 于 将 多 个 受 试 者 的 大 脑 移 动 到 大 致 相 同 空 间 的 模 板 结 构 化 图 像 上 此 图 像 中 每 个 染 色 的 体 素 表 示 体 素 对 药 物 与 安 慰 剂 区 别 的 程 度, 因 此 该 图 像 描 绘 了 影 响 的 空 间 分 布 Larger, More Elongated Denser Sparser Smaller, More Round Benign Malignant [ 图 6] 可 视 化 各 个 乳 腺 X 线 影 像 上 出 现 的 异 常 间 关 系 的 统 计 工 具, 其 中 距 离 反 映 了 异 常 间 相 对 的 相 似 之 处, 则 由 人 类 专 家 进 行 判 断 通 过 多 维 尺 度 分 析, 一 个 力 求 在 可 以 随 时 可 视 化 的 较 低 维 图 上 表 示 高 维 数 据, 同 时 又 能 保 持 数 据 点 间 相 对 距 离 ( 相 似 度 ) 的 统 计 工 具, 将 MC 点 簇 描 绘 在 这 个 两 维 图 上 每 个 红 色 加 号 (+) 组 描 绘 了 与 散 点 图 中 给 定 的 点 相 关 的 真 实 MC 点 簇 这 表 明 所 绘 图 的 纵 轴 与 各 点 簇 的 密 度 相 关, 而 横 轴 则 是 与 其 形 状 相 关 IEEE 信 号 处 理 杂 志 [13]
4 6 6 5 4 3 FWHM = 1 pixel FWHM = 2 pixels FWHM = 3 pixels FWHM = 4 pixels FWHM = 5 pixels FWHM = 6 pixels 5 Iterations 1 Iteration 4 5 5 5 4 3 [ 图 7] 一 个 人 类 观 察 者 有 关 出 现 异 常 的 判 断 ( 在 心 肌 灌 注 缺 损 的 情 况 下 ), 是 依 据 用 于 创 建 图 像 的 重 构 算 法 参 数 给 出 的 ( 此 处 的 参 数 为 迭 代 次 数, 后 重 构 光 滑 核 的 宽 度 (FWHM)) 以 上 所 有 图 像 的 缺 损 位 置 都 用 箭 头 作 出 指 示, 但 任 何 人 士 要 求 来 判 断 是 否 有 不 同 意 见, 在 他 们 从 三 个 值 的 缺 陷, 即 缺 陷 可 能 是 不 存 在, 到 六 个 价 值, 意 思 是 缺 陷 确 实 存 在 我 们 的 算 法 预 测 这 种 行 为 的 能 力 使 得 我 们 能 够 为 一 个 具 体 的 诊 断 任 务 优 化 给 定 的 算 法 请 注 意, 在 这 个 基 础 介 绍 中, 我 们 一 直 都 没 有 描 述 在 使 用 机 器 学 习 算 法 之 前 需 要 应 用 的 一 系 列 重 要 的 预 处 理 步 骤 文 献 [36] 中 进 行 了 详 细 的 讨 论 模 型 样 本 大 小 和 信 噪 比 对 数 据 分 析 技 术 的 评 价 已 清 楚 地 表 明, 最 佳 工 具 的 选 择 关 键 取 决 于 手 头 数 据 的 信 号 和 噪 声 结 构, 样 本 大 小 [37][38] 例 如, 图 10( 来 自 文 献 [38]) 就 说 明 了 直 到 有 足 够 的 数 据 实 例 支 持 对 非 线 性 模 型 中 固 有 的 较 多 参 数 的 估 计 之 前 ( 在 这 种 情 况 下 是 ANN), 简 单 的 线 性 模 型 优 于 一 个 灵 活 的 非 线 性 模 型 然 而, 在 目 前 这 些 脑 成 像 的 文 献 中, 讨 论 或 比 较 不 同 的 分 析 技 术 时, 这 些 问 题 常 常 被 忽 略 我 们 已 经 讨 论 了 使 用 文 献 [39] 中 的 仿 真 方 法, 基 于 图 11 中 所 给 出 的 简 单 仿 真 模 型 选 择 最 优 的 分 析 过 程, 假 设 实 验 设 计 类 似 于 前 面 所 述 的 药 物 ü 安 慰 剂 研 究 我 们 修 改 了 仿 真 实 验 中 的 多 个 参 数, 包 括 每 一 个 环 境 中 的 实 例 数 码 ( 从 20 到 100), 以 及 仿 真 模 型 中 激 活 斑 点 的 振 幅 ( 基 准 线 的 3 % 或 5% 以 上 ) 我 们 添 加 了 空 间 上 有 色, 时 间 上 为 白 色, 标 准 差 为 平 均 基 准 值 5% 的 高 斯 噪 声 我 们 创 建 了 斑 点 的 三 个 空 间 分 布 网 络, 并 改 变 它 们 之 间 的 相 关 系 数 t (rho)(t= 0.0 0.5 或 0.9)) 以 及 他 们 的 幅 度 方 差 和 噪 声 方 差 的 比 率 V 该 比 率 可 以 认 为 与 音 频 的 动 态 范 围 相 类 似, 因 为 在 本 应 用 中, 斑 点 方 差 也 是 信 号 的 来 源 之 一, 这 与 该 领 域 最 近 聚 焦 于 脑 成 像 中 的 网 络 监 测 特 别 相 关 在 文 献 [39] 中, 我 们 发 现 SVD 本 身 或 再 加 一 个 LD 更 适 合 于 子 空 间, 在 其 上 对 于 网 络 互 动 的 估 计 敏 感 度 要 高 于 逐 对 相 关 系 数 [40] 我 们 使 用 相 同 的 仿 真 模 型 重 复 并 延 伸 Lukic 等 人 先 前 的 工 作 ( 结 果 如 图 12 所 示 果 ) 仿 真 包 括 3% 的 高 斯 振 幅, 有 30 个 基 准 线 和 30 激 活 扫 描 所 测 试 的 模 型 包 括 :1) 使 用 局 部 (GLM-S) 和 空 间 (GLM-P) 方 差 估 计 的 单 体 素 测 试, 分 类 计 数 包 括 2 ) 两 类 F i s h e r L D, 3 ) 归 一 化 LD(NLD), 以 及 4) 二 次 判 别 函 数 (QD) 所 有 的 多 元 技 术 都 是 在 SVD 空 间 上 进 行 估 计, 并 利 用 贝 叶 斯 证 据 优 化 确 定 维 数 [41], 就 如 在 软 件 包 MELODIC 所 估 计 的 那 样 [42] 对 于 LD 和 QD 而 言,SVD 基 本 分 量 的 长 度 与 其 特 征 值 相 等, 对 于 NLD 来 说, 则 将 其 归 一 化 到 单 位 长 度 使 用 ROC 曲 线 下 方 的 区 域, 其 误 报 率 在 [0.0,0.1] 之 间, 信 号 检 测 通 过 横 跨 高 斯 斑 点 峰 值 处 的 16 个 体 素 进 行 测 量 即 便 使 用 局 部 方 差 估 计 (GLM-S) 的 t 检 验 是 正 确 的 模 型 ( 即 V 01. = ), 将 t 检 验 和 合 并 方 差 估 计 或 自 适 应 多 元 协 方 差 检 测 器 一 起 使 用 可 获 得 更 好 的 检 测 性 能 此 外,GLM-S 的 性 能 明 显 下 降, 因 为 随 着 V 的 增 加 等 方 差 假 设 不 再 成 立 通 过 空 间 合 并 (GLM-P) 的 方 差 估 计 则 显 着 改 善 了 信 号 检 测, 并 大 大 地 清 除 了 违 规 模 型 的 来 源 通 过 LD 的 结 果 给 出 了 GLM-S 违 规 模 型 的 多 元 等 价 式, 随 着 V 的 增 加 违 反 了 类 内 协 方 差 相 等 ( 例 如, 基 线 和 激 活 扫 描 使 用 同 一 个 网 络 结 构 ) 的 假 设 ; 只 有 激 活 扫 描 有 一 个 非 对 角 线 的 类 内 协 方 差 结 构, 会 随 着 V 的 增 加 而 增 加 但 是, 除 了 在 rho 和 V 很 大, 严 重 违 反 相 等 协 方 差 假 设 时,LD 仍 优 于 GLM-S, 如 图 12(c) 所 示 在 NLD 方 法 中, 归 一 化 输 入 特 征 方 差 ( 即 单 位 化 SVD 偏 差 向 量 ) 的 标 准 机 器 学 习 方 法 可 以 显 著 改 善 信 号 检 测 性 能, 通 常 都 优 于 GLM-P, 且 随 着 V 的 增 加, 大 大 地 消 除 了 LD 性 能 的 下 降 最 后, 在 假 设 有 不 同 类 内 协 方 差 的 情 况 下, 使 用 正 确 的 多 元 模 型,QD 可 以 进 一 步 改 善 性 能, 直 至 接 近 于 完 美 ( 部 分 ROC 曲 线 接 近 于 0.1) 这 里 用 到 了 QD, 可 作 为 针 对 非 等 类 分 布 的 问 题,SVM 的 替 代 解 决 方 案, 如 图 2 所 示 在 脑 成 像 中,LD 类 方 法 和 SVM 的 相 对 性 能 仍 未 达 到 共 识, 某 些 文 章 声 称 SVM 很 优 越 [43], 其 他 的 则 基 本 都 相 差 无 几 [44], 但 它 们 对 于 不 同 输 入 SNR 结 构 的 相 应 有 所 不 同, 如 图 2 中 的 分 析 此 外, 我 们 最 近 的 仿 真 结 果 表 明, 信 号 检 测 性 能 是 基 集 合 大 小 的 强 函 数, 性 能 可 能 会 进 一 步 改 善, 甚 至 比 图 11 中 所 示 的 基 于 如 下 所 述 的 重 复 性 度 量 的 最 优 SVD 子 空 间 的 重 采 样 估 计 更 好 [14] IEEE 信 号 处 理 杂 志
我 们 最 后 的 仿 真 结 果 比 对 了 利 用 贝 叶 斯 核 方 法 与 广 义 似 然 比 检 测 对 功 能 神 经 成 像 中 的 局 部 激 活 进 行 估 计 的 结 果 在 文 献 [45] 中, 我 们 比 较 了 使 用 空 间 高 斯 核 叠 加 的 信 号 检 测 ( 其 参 数 通 过 基 于 可 逆 跳 马 尔 可 夫 链 蒙 特 卡 罗 (RJMCMC) 算 法 的 最 大 后 验 (MAP) 技 术 从 数 据 中 估 计 而 得 ) 和 RVM 方 法 RVM 和 RJMCMC 是 比 文 献 [39] 中 所 尝 试 的 其 它 所 有 方 法 都 更 优 的 信 号 探 测 器, 在 ROC 曲 线 一 下 的 部 分 区 域, 可 以 达 到 0.80 和 0.82 这 些 性 能 值 不 能 直 接 与 图 11 相 比 较, 因 为 其 仿 真 参 数 完 全 不 同 然 而, 即 使 是 在 我 们 简 单 的 体 模 中,RJMCMC 需 要 数 十 小 时 进 行 计 算, 而 RVM 仅 需 计 算 数 分 钟 而 已 脑 成 像 中 的 SVM RVM 和 其 他 核 技 术 ( 例 如 核 PCA[28] 核 典 型 相 关 分 析 [46]) 仍 有 待 创 立 数 据 驱 动 的 性 能 指 标 在 脑 成 像 中, 作 为 一 般 机 器 学 习 的 应 用, 优 化 和 评 估 预 测 模 型, 并 选 择 其 最 显 著 的 特 征 是 非 常 重 要 的 这 些 任 务 必 须 遵 循 一 个 定 量 的 性 能 指 标 预 测 精 度 经 常 扮 演 这 一 角 色, 例 如 指 导 贪 婪 搜 索 过 程 来 选 择 最 突 出 的 体 素 集 [26] 在 文 献 [4] 和 [27] 中 对 这 类 纯 粹 的 预 测 驱 动 分 析 方 法 中 的 一 些 需 要 权 衡 的 问 题 进 行 了 讨 论 尽 管 预 测 精 度 可 以 单 独 作 为 一 般 机 器 学 习 问 题 的 有 效 度 量, 神 经 影 像 学 也 要 求 空 间 模 式 ( 通 过 预 测 模 型 编 码 ) 可 以 在 不 同 的 受 试 者 群 体 或 同 一 受 试 者 的 不 同 扫 描 间 可 重 复 和 预 测 精 度 一 起, 重 复 性 一 项 重 要 的 度 量, 这 是 一 个 非 常 有 效 的 数 据 驱 动 的 ROC 分 析 的 替 代 品 Strother 等 提 出 了 一 种 被 称 为 NPAIRS 的 新 颖 的 折 半 重 采 样 的 框 架 [9], 同 时 可 以 评 估 其 预 测 精 度 和 重 复 性 可 达 到 的 预 测 精 度 和 模 型 重 复 性 间 的 权 衡 涉 及 到 估 计 论 论 中 经 典 的 偏 差 折 中 法 在 此 应 用 中, 预 测 精 度 的 获 取 一 般 都 以 降 低 重 复 性 为 代 价, 反 之 亦 然 通 过 绘 制 预 测 精 度 与 重 复 性 曲 线, 作 为 某 些 参 数 的 函 数 ( 如 SVD 基 向 量 的 个 数 ), 我 们 可 以 评 估 整 个 范 围 内 的 折 中 效 果, 与 ROC 曲 线, 信 息 检 索 领 域 的 查 准 率 ü 查 全 率 曲 线 曲 线 场, 或 来 自 统 计 的 偏 差 - 方 差 曲 线 极 为 相 似 我 们 将 NPAIRS 分 析 所 生 成 的 曲 线 称 为 ( pr,) 曲 线 为 了 使 用 NPAIRS 计 算 (,) pr 曲 线, 将 该 数 据 集 的 独 立 观 测 量 ( 如 跨 越 受 试 者 ) 进 行 等 分 为 : 训 练 和 测 试 集 合 在 其 中 一 个 半 分 集 合 内 应 用 空 间 模 式 获 取 预 测 精 度 ( 即 训 练 ) 以 便 在 另 外 一 个 半 分 集 合 ( 即 测 试 ) 中 估 计 扫 描 类 标 号 然 后 将 两 个 半 分 集 的 角 色 互 换, 也 就 是 说 每 个 集 合 都 有 一 次 用 作 训 练 集 合 ( 为 了 生 成 空 间 激 活 模 式 ), 有 一 次 用 作 测 试 集 合 从 这 些 结 果 来 看, 计 算 的 两 种 预 测 精 度 的 估 计 值 估 算 () p 并 平 均, 以 便 获 得 整 体 的 预 测 精 度 接 下 来, 计 算 两 个 独 立 空 间 激 活 模 式 的 重 复 度, 用 作 两 种 模 式 中 空 间 所 有 的 定 位 体 素 对 的 关 联 度 (r ) 此 关 联 度 r 直 接 关 系 到 每 个 半 分 模 式 的 提 取 对 中 的 可 用 SNR 如 果 其 中 一 个 来 自 一 个 空 间 模 式 的 体 素 值 所 形 成 的 散 点 图, 另 一 个 则 相 应 地 来 自 另 一 个 空 间 模 式, 其 中 一 个 就 会 得 到 这 样 的 分 布, 相 关 性 很 较 强, 或 者 说 信 号, 轴 的 相 关 特 征 值 为 (1+r ), 非 相 关 性 较 小, 或 者 是 噪 声, 轴 的 特 征 值 为 (1-r ) 因 此, 可 以 定 义 一 个 全 局 数 据 信 噪 比 度 量 gsnr 为 : gsnr = (( 1+ r) -( 1-r))/( 1- r) = 2r/( 1 -r). Area Under ROC Curve (AUC) 1 0.95 0.9 0.85 0.8 AUC Predicted by CSVM AUC Predicted by CHO 0.75 Actual Human-Observer Performance 0.7 0 1 2 3 4 FWHM of Smoothing Filter (Pixels) [ 图 8] 通 过 机 器 学 习 方 法 (CSVM) 预 测 人 类 观 察 者 的 性 能 (AUC) 与 传 统 的 数 字 观 察 者 (CHO) 相 比 较 CHO 并 不 没 有 认 识 到 在 较 低 和 较 高 水 平 平 滑 会 降 低 诊 断 性 能 的 程 度, 沿 着 图 7 的 顶 部 和 底 部 的 数 值 就 可 以 看 到 分 数 图 7 看 到 影 响 在 NPAIRS 中, 多 次 执 行 半 分 重 采 样, 然 后 对 结 果 平 均 或 取 中 位 数, 并 记 录 其 分 布 特 征 这 种 重 采 样 的 方 法 对 于 通 过 0.632+ bootstrap 方 法 获 得 平 稳 鲁 棒 度 量 非 常 有 好 处 最 后, 使 用 得 到 大 家 一 致 共 识 的 技 术 将 多 个 半 分 空 间 模 式 组 合 成 单 一 的 以 Z-score( 标 准 正 态 分 布 ) 量 表 描 述 的 模 式, 对 于 可 产 生 基 于 体 素 的 参 数 估 计 值 的 所 有 预 测 模 型 提 供 稳 健 的 Z-score 机 制 在 文 献 [29] 中,NPAIRS 被 应 用 于 PET, 同 样 也 被 应 用 于 fmri [47] [49] 尽 管 NPAIRS 可 应 用 于 任 何 分 析 模 型, 但 我 们 还 是 特 别 聚 焦 于 LD 方 法, 以 及 新 近 出 现 的 QD 法, 这 两 者 都 是 建 立 于 SVD 的 基 之 上 这 使 我 们 能 够 1) 在 SVD 的 基 础 上, 通 过 选 择 的 软 阈 值 ( 如 脊 形 ) 或 硬 阈 值 或 其 他 基 集 合 对 模 型 正 则 化 [50],2) 维 持 协 方 差 分 解 链 路, 已 证 明 在 PET 中 对 于 阐 明 网 络 结 构 非 常 有 用, 以 及 3) 生 成 全 脑 激 活 图, 可 提 高 发 现 脑 功 能 和 疾 病 的 新 特 征 的 可 能 性 图 13 给 出 了 一 个 实 例, 说 明 如 何 将 NPAIRS 用 于 研 究 图 像 分 析 过 程 中 关 键 参 数 的 影 响, 从 而 实 现 对 这 些 参 数 的 最 佳 选 择 在 这 个 例 子 中, 分 析 了 fmri 图 像 分 析 过 程 中 的 两 个 参 数 :SVD 基 向 量 的 个 数 ( 定 义 模 型 复 杂 度 ) 和 用 于 趋 势 剔 除 的 半 余 弦 的 数 目 [36] 我 们 不 会 在 这 里 详 述 SVD 和 趋 势 剔 除 工 具 的 技 术 细 节 ; 我 们 给 出 这 个 例 子 仅 仅 是 要 说 明 一 般 情 况 下, 如 何 使 用 使 用 NPAIRS 选 择 最 佳 的 模 型 参 数 ) 在 一 幅 (,) pr 图 中, 通 过 到 达 空 间 的 右 上 角, 在 那 里 预 测 准 确 度 ( 如 图 13 中 所 描 述 的 后 验 概 率 ) 达 到 1.0, 重 复 性 也 达 到 1.0, 即 可 获 得 理 想 的 性 能 因 此, 确 定 参 数 的 最 佳 的 方 法 就 是 确 定 这 样 一 个 点, 在 该 点 (,) pr 曲 线 与 点 (1,1) 间 的 欧 氏 距 离 ( M ) 最 小 在 这 个 例 子 中, 我 们 可 以 看 到, 随 着 SVD 分 量 的 增 加, 性 能 [ 到 (1,1) 的 距 离 ] 有 改 善, 然 后 再 恶 化 余 弦 去 趋 势 参 数 的 影 响 较 弱, 但 指 出 一 个 半 周 期 相 对 两 个 周 期 而 言 是 更 好 的 选 择 在 这 个 图 中, 五 至 十 个 SVD 分 量 之 间 的 钩 状 部 分 代 表 了 fmri 中 普 遍 的 重 复 性 伪 影 在 有 关 脑 成 像 的 挑 战 性 问 题 中,NPAIRS 分 析 框 架 为 理 解 和 优 化 模 型 性 能 提 供 了 非 常 有 用 的 方 法, 或 许 也 可 以 用 于 5 IEEE 信 号 处 理 杂 志 [15]
其 他 应 用, 其 中 不 仅 对 精 确 预 测 感 兴 趣, 还 对 生 成 驱 动 这 些 预 测 的 有 关 因 素 的 可 靠 信 息 颇 有 兴 趣 44 42 40 [ 图 9] 大 脑 中 的 空 间 激 活 模 式, 显 示 了 抗 焦 虑 / 抗 抑 郁 药 物 丁 螺 环 酮 (Buspar) 的 影 响, 通 过 在 12 位 受 试 者 的 FDG-PET 影 像 上 应 用 Fisher LD 和 NPAIRS 半 分 重 采 样 而 获 得 ( 数 据 由 Abiant, Inc. 提 供 ; 由 Predictek, Inc. 分 析 ). 结 果 表 明 纹 状 体 活 化 ( 上 部 橙 色 区 域 ) 可 能 是 因 为 该 药 物 作 为 多 巴 胺 D2 受 体 拮 抗 剂 的 行 为 之 一 Mean % Misclassification 45 40 35 30 25 20 15 10 5 Multisubject PET Linear Classifier Nonlinear Classifier 0 0 50 100 150 Number of Examples in Training Set [ 图 10] 这 些 交 叉 的 学 习 曲 线 ( 分 类 器 的 性 能 与 训 练 集 的 大 小 ) 表 明, 当 训 练 样 本 数 量 比 较 少 时, 也 可 以 通 过 一 个 简 单 的 多 元 线 性 分 类 器 ( 这 里 为 Fisher 判 定 ) 构 成 非 线 性 分 类 器 ( 本 例 中 为 神 经 网 络 ) 这 并 不 是 不 可 预 见, 因 为 小 数 据 集 一 般 不 支 持 复 杂 的 模 型, 但 这 一 结 果 强 调 了 研 究 人 员 要 抵 制 在 各 种 情 况 下 使 用 高 复 杂 性 模 型 的 诱 惑 的 重 要 性 Baseline [ 图 11] 用 于 测 试 信 号 检 测 性 能 的 仿 真 体 模 Activation 致 谢 作 者 们 希 望 对 本 文 中 所 总 结 的 研 究 工 作 作 出 贡 献 的 众 多 合 作 者 表 达 真 诚 的 谢 意, 其 中 有 Nikolas P. Galatsanos,Lars Kai Hansen,Issam El-Naqa, Ana S. Lukic,Robert M. Nishikawa,Stephen LaConte,David Rottenberg,Liyang Wei 和 Jane Zhang 本 文 中 所 回 顾 的 研 究 工 作 由 NIH/NCI (CA89668) NIH/NIBIB(R01EB009905) NIH/NIBIB (HL091017) NIH/NINDS(NS34069) NIH/NIMH(MH073204) James S. McDonnell 基 金 会 为 Grigori Yourganov 所 提 供 的 博 士 奖 学 金 Ph.D. scholarship to, NIH/NIBIB P20EB02013, NIH/ NIMH P20MH072580, and CIHR/MOP84483 资 助 Stephen C. Strother 要 特 别 感 谢 安 大 略 省 心 脏 与 中 风 基 金 会 通 过 中 风 康 复 中 心 所 给 予 的 支 持 作 者 简 介 Miles N. Wernick(wernick@iit.edu) 于 1983 年 在 西 北 大 学 获 得 物 理 学 学 士 学 位,1990 年 在 罗 切 斯 特 大 学 获 得 光 学 博 士 学 位 1990 年, 作 为 美 国 国 立 卫 生 研 究 院 博 士 后 研 究 员 在 芝 加 哥 大 学 研 究 放 射 学, 在 那 里 他 成 为 一 个 副 研 究 员 助 理 教 授 1994 年, 他 加 入 了 伊 利 诺 伊 理 工 大 学, 目 前 他 是 医 学 影 像 研 究 中 心 的 主 管, 电 气 和 计 算 机 工 程 以 及 生 物 医 学 工 程 系 的 Motorola 基 金 会 的 讲 座 教 授 他 还 是 Predictek 公 司 的 总 裁, 他 的 研 究 兴 趣 包 括 医 疗 成 像, 机 器 学 习, 图 像 处 理, 光 学 他 是 IEEE Signal Processing Magazine 特 刊 的 客 座 编 辑,IEEE Transactions on Image Processing 和 SPIE/IS&T Journal of Electronic Imaging 的 副 主 编,IEEE Bioimaging and Signal Processing Technical Council 的 会 员 Yongyi Yang (yy@ece.iit.edu) 分 别 于 1985 年 和 1988 在 中 国 北 京 的 北 方 交 通 大 学 获 得 电 子 工 程 学 生 学 位 和 硕 士 学 位 并 分 别 于 1992 年 与 1994 年 芝 加 哥 的 伊 利 诺 伊 州 科 技 大 学 (IIT) 获 得 应 用 数 学 硕 士 学 位 和 电 气 工 程 博 士 学 位 他 目 前 是 IIT 在 电 气 与 计 算 机 工 程 系 任 教 授, 他 在 医 学 影 像 研 究 中 心 工 作, 而 且 是 生 物 医 学 工 程 学 系 的 合 聘 教 授 他 的 研 究 兴 趣 包 括 信 号 和 图 像 处 理 医 学 成 像 机 械 学 习 模 式 识 别 和 生 物 医 学 应 用 他 同 时 还 是 IEEE Transactions on Image Processing 的 副 主 编 Jovan G. Brankov( brankov@iit.edu) 于 1996 年 在 南 斯 拉 夫 贝 尔 格 莱 德 大 学 获 得 电 气 工 程 高 级 文 凭 并 分 别 于 1999 年 和 2002 年 从 伊 利 诺 伊 州 科 技 大 学 (IIT) 获 得 电 子 工 程 的 硕 士 和 博 士 学 位 他 目 前 在 IIT 的 电 气 与 计 算 机 工 程 系 担 任 助 理 教 授, 他 在 医 学 影 像 研 究 中 心 工 作 他 的 研 究 兴 趣 包 括 医 学 成 像 图 像 序 列 处 理, 模 式 识 别 和 数 据 挖 掘 他 目 前 的 研 究 课 题 包 括 医 学 图 像 序 列 的 四 维 和 五 维 断 层 图 像 重 建, 多 图 统 计 法 ( 一 种 相 位 敏 感 的 成 像 方 法 ), 以 及 基 于 人 类 观 察 者 模 型 的 图 像 质 量 评 估 他 已 编 写, 或 与 他 人 合 著 超 过 八 十 的 著 作, 并 担 任 Medical Physics 的 专 案 副 主 编 Grigori Yourganov (gyourganov@rotman-baycrest.on.ca) 分 别 于 2000 年 和 2005 年 获 得 位 于 加 拿 大 多 伦 多 的 约 克 大 学 的 计 算 机 科 学 的 学 士 学 位 和 硕 士 学 位 他 目 前 正 在 在 Rotman 研 究 所 ( 多 伦 多 大 学 ) 医 学 科 学 研 究 所 攻 读 博 士 学 位, 师 从 于 Stephen C. Strother 博 士 和 Randy McIntosh 博 士 他 的 研 究 [16] IEEE 信 号 处 理 杂 志
主 要 集 中 在 将 多 变 量 分 析 技 术 用 于 fmri 数 据 的 应 用 Stephen C. Strother(sstrother@rotman-baycrest.on.ca) 分 别 于 1976 年 和 1979 年 在 位 于 新 西 兰 的 奥 克 兰 大 学 获 得 学 士 学 位 和 硕 士 学 位,1986 年 在 蒙 特 利 尔 的 McGill 大 学 获 得 电 器 工 程 的 博 士 学 位 Since 1985, he has been a postdoctoral fellow at Memorial Sloan-Kettering Cancer Center, New York. 在 1989 年, 他 作 为 高 级 PET 物 理 学 家 加 入 了 位 于 Minneapolis 的 弗 吉 尼 亚 州 医 学 中 心, 并 在 2002 年 成 为 明 尼 苏 达 大 学 的 放 射 学 教 授 2004 年 他 移 居 到 多 伦 多, 作 为 Rotman Research Institute 的 资 深 科 学 家 和 多 伦 多 大 学 的 医 用 生 物 物 理 学 教 授, 在 那 里 他 还 是 中 风 康 复 中 心 的 是 multiinstitutional 中 风 康 复 中 心 的 核 心 成 员 目 前 的 研 究 兴 趣 包 括 神 经 信 息 学, 主 要 致 力 于 将 机 器 和 统 计 学 习 技 术 用 于 PET 和 fmri/mri 神 经 影 像 在 大 脑 老 化 的 研 究 与 临 床 应 用 中 的 应 用 2001 年 他 与 他 人 一 起 在 芝 加 哥 创 办 了 Predictek 公 司 他 还 是 Human Brain Mapping 的 副 主 编 Partial ROC Area 0.1 0.09 0.08 0.07 0.06 0.05 0.04 Rho = 0.00 Rho = 0.50 Rho = 0.99 0.1 0.1 0.09 0.08 0.07 0.06 0.09 0.08 0.07 0.06 0.05 GLM-S GLM-P 0.05 0.04 NLD LD 0.04 QD 0.5 1 1.5 0.5 1 1.5 0.5 1 1.5 (a) (b) (c) Signal Variation, 2 AMP Signal-to-Noise Variance V = Noise, 2 NOISE [ 图 12] 在 (a) (c) 中 给 出 了 作 为 被 激 活 大 脑 区 域 的 网 络 间 的 信 噪 方 差 比 (V) 和 相 关 性 (rho) 的 函 数, 五 种 模 式 下 检 测 大 脑 激 活 的 性 能 QD 和 NLD 的 表 现 最 佳, 随 着 网 络 强 度 的 增 加 而 有 所 改 善 ( 增 大 了 V 和 Rho 值 ), 而 单 变 量 方 法 的 性 能 已 经 落 后, 实 际 上 随 着 信 号 强 度 的 增 加 而 恶 化 参 考 文 献 [1] T. Hastie, R. Tibshirani, and J. H. Friedman, The Elements of Statistical Learning.New York:Springer-Verlag, 2003. [2] B. Scholkopf and A. J. Smola, Learning with Kernels:Support Vector Machines, Regularization, Optimization, and Beyond.Cambridge, MA:MIT Press, 2001, p. 626. [3] M. N. Wernick, Pattern classification by convex analysis, J. Opt.Soc. Amer.A, Opt.Image Sci., vol. 8, pp. 1874 1880, 1991. [4] V. N. Vapnik, Statistical Learning Theory.New York:Wiley, 1998. [5] M. E. Tipping, Sparse Bayesian learning and the relevance vector machine, J. Mach.Learn.Res., vol. 1, pp. 211 244, Sept. 2001. [6] R. G. Baraniuk, E. J. Candès, R. Nowak, and M. Vitterli, Compressive sampling, IEEE Signal Processing Mag., vol. 21, no. 2, pp. 12 13, Mar. 2008. [7] B. Efron and R. J. Tibshirani, An Introduction to the Bootstrap.Boca Raton, FL:CRC, 1994. [8] B. Efron and R. Tibshirani, Improvements on cross-validation:the.632+ bootstrap method, J. Amer.Statist.Assoc., vol. 92, no. 438, pp. 548 560, June 1997. [9] S. C. Strother, J. Anderson, L. K. Hansen, U. Kjems, R. Kustra, J. Sidtis, S. Frutiger, S. Muley, S. LaConte, and D. Rottenberg, The quantitative evaluation of functional neuroimaging experiments:the NPAIRS data analysis framework, Neuroimage, vol. 15, no. 4, pp. 747 771, Apr. 2002. [10] Image-Processing Techniques for Tumor Detection.New York:Marcel Dekker, 2002. [11] Recent Advances in Breast Imaging, Mammography, and Computer-Aided Diagnosis of Breast Cancer.Bellingham, WA:SPIE, 2006. [12] J. Tang, R. M. Rangayyan, J. Xu, I. El Naqa, and Y. Yang, Computer-aided detection and diagnosis of breast cancer with mammography: recent advances, IEEE Trans.Inform.Technol.Biomed., vol. 13, no. 2, pp. 236 251, Mar. 2009. [13] I. El-Naqa, Y. Yang, M. N. Wernick, N. P. Galatsanos, and R. M. Nishikawa, A support vector machine approach for detection of microcalcifications, IEEE Trans.Med.Imaging, vol. 21, no. 12, pp. 1552 1563, Dec. 2002. [14] L. Wei, Y. Yang, R. M. Nishikawa, M. N. Wernick, and A. Edwards, Relevance vector machine for automatic detection of clustered microcalcifications, IEEE Trans.Med.Imaging, vol. 24, no. 10, pp. 1278 1285, Oct. 2005. [15] Y. Jiang, R. M. Nishikawa, D. E. Wolverton, C. E. Metz, M. L. Giger, R. A. Schmidt, C. J. Vyborny, and K. Doi, Malignant and benign clustered microcalcifications: automated feature analysis and classification, Radiology, vol. 198, no. 3, pp. 671 678, Mar. 1996. [16] L. Wei, Y. Yang, R. M. Nishikawa and Y. Jiang, A study on several machinelearning methods for classification of malignant and benign clustered microcalcifications, IEEE Trans.Med.Imaging, vol. 24, no. 3, pp. 371 380, Mar. 2005. [17] I. El-Naqa, Y. Yang, N. P. Galatsanos, R. M. Nishikawa, and M. N. Wernick, A similarity learning approach to content-based image retrieval: application to digital mammography, IEEE Trans.Med.Imaging, vol. 23, no. 10, pp. 1233 1244, Oct. 2004. [18] L. Y. Wei, Y. Y. Yang, M. N. Wernick, and R. M. Nishikawa, Learning of perceptual similarity from expert readers for mammogram retrieval, IEEE J. Select.Topics Signal Processing, vol. 3, no. 1, pp. 53 61, Feb. 2009. [19] N. Damera-Venkata, T. D. Kite, W. S. Geisler, B. L. Evans, and A. C. Bovik, Image quality assessment based on a degradation model, IEEE Trans.Image Processing, vol. 9, no. 4, pp. 636 650, Apr. 2000. [20] L. B. Lusted, Signal detectability and medical decision making, Science, vol. 171, pp. 1217 1219, 1971. [21] C. E. Metz, B. A. Herman, and J. H. Shen, Maximum-likelihood estimation of ROC curves from continuously-distributed data, Stat.Med., vol. 17, no. 9, pp. 1033 1053, 1998. [22] K. J. Myers and H. H. Barrett, Addition of a channel mechanism to the ideal-observer model, J. Opt.Soc.Amer.A, Opt.Image Sci., vol. 4, no. 12, pp. 2447 2457, Dec. 1987. [23] J. G. Brankov, Y. Yang, L. Wei, I. El Naqa, and M. N. Wernick, Learning a channelized observer for image quality assessment, IEEE Trans.Med.Imaging, vol. 28, no. 7, pp. 991 999, July 2009. [24] J. Kippenhan, W. Barker, S. Pascal, J. Nagel, amd R. Duara, Evaluation of a neural network classifier for PET scans of normal and Alzheimers disease subjects, J. Nucl.Med., vol. 33, pp. 1459 1467, 1992. [25] P. Bandettini, Functional MRI today, Int. J. Psychophysiol., vol. 63, no. 2, pp. 138 145, Feb. 2007. [26] K. J. Friston, J. T. Ashburner, S. J. Kiebel, and T. E. Nichols, Statistical Parametric Mapping:The Analysis of Functional Brain Images.New York:Academic, 2006. [27] F. Pereira, T. Mitchell, and M. Botvinick, Machine learning classifiers and fmri:a tutorial overview, Neuroimage, vol. 45, no. 1 (Suppl.), pp. S199 S209, Mar. 2009. [28] L. K. Hansen, Multivariate strategies in functional magnetic resonance imaging, Brain Lang., vol. 102, no. 2, pp. 186 191, Aug. 2007. IEEE 信 号 处 理 杂 志 [17]
Posterior Probability Test-Scan Class (p) 0.30 0.25 0.20 Curves Equidistant from Prediction = 1.0 and Reproducibility = 1.0 500 200 100 50 0.15 10 Cosine Detrending 5 = # SVD 2.0 Cycles Components 1.5 Cycles 0.10 0.20 0.40 0.60 0.80 Reproducibility (r) M M > 0 [ 图 13] 在 NPAIRS 框 架 中, 预 测 重 复 性 (,) pr 曲 线 给 出 了 预 测 准 确 度 ( 纵 轴 ) 和 由 此 产 生 的 脑 图 ( 横 轴 ) 重 复 性 的 折 中 当 曲 线 最 接 近 理 想 点 (1,1), 实 现 了 最 小 距 离 M 时 就 可 实 现 最 佳 性 能 这 为 优 化 图 像 分 析 过 程 提 供 了 基 础, 本 例 是 在 特 定 fmri 数 据 分 析 问 题 中 指 定 了 最 佳 参 数 (SVD 分 量 的 数 目, 以 及 在 特 定 余 弦 去 趋 势 步 骤 中 的 周 期 数 目 ) [42] C. F. Beckmann and S. M. Smith, Probabilistic independent component analysis for functional magnetic resonance imaging, IEEE Trans.Med Imaging, vol. 23, no. 2, pp. 137 152, Feb. 2004. [43] J. Mourao-Miranda, A. L. Bokde, C. Born, H. Hampel, and M. Stetter, Classifying brain states and determining the discriminating activation patterns:support vector machine on functional MRI data, Neuroimage, vol. 28, no. 4, pp. 980 995, Dec. 2005. [44] S. LaConte, S. Strother, V. Cherkassky, J. Anderson, and X. Hu, Support vector machines for temporal classification of block design fmri data, Neuroimage, vol. 26, no. 2, pp. 317 329, June 2005. [45] A. S. Lukic, M. N. Wernick, D. G. Tzikas, X. Chen, A. Likas, N. P. Galatsanos, Y. Yang, F. Zhao, and S. C. Strother, Bayesian kernel methods for analysis of functional neuroimages, IEEE Trans.Med Imaging, vol. 26, no. 12, pp. 1613 1624, Dec. 2007. [46] D. R. Hardoon, J. Mourao-Miranda, M. Brammer, and J. Shawe-Taylor, Unsupervised analysis of fmri data using kernel canonical correlation, Neuroimage, vol. 37, no. 4, pp. 1250 1259, Oct. 2007. [47] S. C. Strother, S. La Conte, L. Kai Hansen, J. Anderson, J. Zhang, S. Pulapura, and D. Rottenberg, Optimizing the fmri data-processing pipeline using prediction and reproducibility performance metrics:i. A preliminary group analysis, Neuroimage, vol. 23 (Suppl. 1), pp. S196 S207, 2004. [48] J. Zhang, J. R. Anderson, L. Liang, S. K. Pulapura, L. Gatewood, D. A. Rottenberg, and S. C. Strother, Evaluation and optimization of fmri single-subject processing pipelines with NPAIRS and second-level CVA, Magn.Reson.Imaging, vol. 27, no. 2, pp. 264 278, Feb. 2009. [49] J. Zhang, L. Liang, J. R. Anderson, L. Gatewood, D. A. Rottenberg, and S. C. Strother, Evaluation and comparison of GLM- and CVA-based fmri processing pipelines with Java-based fmri processing pipeline evaluation system, Neuroimage, vol. 41, pp. 1242 1252, July 2008. [50] R. Kustra and S. C. Strother, Penalized discriminant analysis of [15O]-water PET brain images with prediction error selection of smoothness and regularization hyperparameters, IEEE Trans.Med.Imaging, vol. 20, no. 5, pp. 376 387, May 2001. [SP] [29] D. Eidelberg, Metabolic brain networks in neurodegenerative disorders:a functional imaging approach, Trends Neurosci., vol. 32, no. 10, pp. 548 557, Oct. 2009. [30] M. D. Fox and M. E. Raichle, Spontaneous fluctuations in brain activity observed with functional magnetic resonance imaging, Nat. Rev. Neurosci., vol. 8, no. 9, pp. 700 711, Sept. 2007. [31] A. R. McIntosh, W. K. Chau, and A. B. Protzner, Spatiotemporal analysis of event-related fmri data using partial least squares, Neuroimage, vol. 23, no. 2, pp. 764 775, Oct. 2004. [32] C. F. Beckmann, M. DeLuca, J. T. Devlin, and S. M. Smith, Investigations into resting-state connectivity using independent component analysis, Philos. Trans.R. Soc.Lond.B Biol.Sci., vol. 360, no. 1457, pp. 1001 1013, May 2005. [33] N. M. Correa, T. Adalı, Y.-O. Li, and V. D. Calhoun, Canonical correlation analysis for data fusion and group inferences, IEEE Signal Processing Mag., vol. 27, no. 4, pp. 39 50, 2010. [34] K. E. Stephan, L. M. Harrison, S. J. Kiebel, O. David, W. D. Penny, and K. J. Friston, Dynamic causal models of neural system dynamics:current state and future extensions, J. Biosci., vol. 32, no. 1, pp. 129 144, Jan. 2007. [35] C. J. Honey, O. Sporns, L. Cammoun, X. Gigandet, J. P. Thiran, R. Meuli, and P. Hagmann, Predicting human resting-state functional connectivity from structural connectivity, Proc.Nat. Acad.Sci.USA, vol. 106, no. 6, pp. 2035 2040, Feb. 2009. [36] S. C. Strother, Evaluating fmri preprocessing pipelines, IEEE Eng. Med. Biol.Mag., vol. 25, no. 2, pp. 27 41, Mar. Apr. 2006. [37] N. Lange, S. C. Strother, J. R. Anderson, F. A. Nielsen, A. P. Holmes, T. Kolenda, R. Savoy, and L. K. Hansen, Plurality and resemblance in fmri data analysis, Neuroimage, vol. 10, no. 3, part 1, pp. 282 303, Sept. 1999. [38] N. Morch, L. K. Hansen, S. C. Strother, C. Svarer, D. A. Rottenberg, B. Lautrup, R. Savoy, and O. B. Paulson, Nonlinear versus linear models in functional neuroimaging:learning curves and generalization crossover, in Information Processing in Medical Imaging (Lecture Notes in Computer Science), J. Duncan and I. Gindi, Eds.1997, pp. 259 270. [39] A. S. Lukic, M. N. Wernick, and S. C. Strother, An evaluation of methods for detecting brain activations from functional neuroimages, Artif.Intell.Med., vol. 25, no. 1, pp. 69 88, May 2002. [40] K. J. Worsley, J. Cao, T. Paus, M. Petrides, and A. C. Evans, Applications of random field theory to functional connectivity, Hum.Brain Mapp., vol. 6, no. 5 6, pp. 364 367, 1998. [41] T. P. Minka, Automatic choice of dimensionality for PCA, Cambridge, MA:MIT, Rep.514, 2004. [18] IEEE 信 号 处 理 杂 志
[ 专 题 报 告 ] Ron Schneiderman DSP 在 消 费 电 子 应 用 的 演 化 您 将 很 难 找 到 一 个 不 需 要 数 字 信 号 处 理 消 费 类 电 子 产 品 消 费 电 子 是 一 个 很 大 的 市 场 ü 今 年 市 场 总 值 大 概 有 1650 亿 美 元 ( 参 见 消 费 电 子 市 场 增 长 和 创 新 的 形 势 如 何? ), 随 着 新 的 创 新 产 品 的 推 出,DSP 的 需 求 也 持 续 增 长 随 着 纠 错 码 这 一 发 明 的 出 现, 数 字 信 号 的 价 值 在 1948 年 日 益 显 现, 纠 错 码 不 仅 能 传 输 信 号, 而 且 在 传 输 过 程 中 检 测 并 纠 正 错 误 就 在 同 一 年, 贝 尔 实 验 室 宣 布 发 明 了 晶 体 管 也 就 是 在 这 一 年, 哥 伦 比 亚 广 播 公 司 实 验 室 的 负 责 人 Peter Goldmark 博 士, 因 为 不 得 不 在 他 最 喜 欢 的 古 典 音 乐 作 品 片 段 中 间 翻 转 这 种 78 转 的 唱 片 而 恼 火, 就 发 明 了 密 纹 (LP) 慢 转 唱 片 A m p e x 也 开 始 在 1984 年 售 卖 磁 带 录 音 机 ( 当 然 是 盘 式 的 ) 但 是,DSP 真 正 开 始 成 为 消 费 电 子 产 品 的 重 要 组 件 是 在 20 世 纪 70 年 代 第 一 台 个 人 电 脑 Altair 8800, 于 1975 年 开 始 以 工 具 包 的 形 式 出 售, 之 后 在 1997 年 出 现 了 组 装 电 脑, 苹 果 II Sony 和 JVC 也 在 1975 年 开 始 销 售 录 像 机 (JVC 采 用 VHS 格 式, 而 Sony 采 用 Betamax 格 式 ) 随 着 德 州 仪 器 (TI) 在 1978 年 推 出 的 一 款 玩 具,DSP 进 一 步 地 渗 透 进 消 费 市 场 的 这 款 玩 具 名 为 Speak & Spell, 玩 具 的 特 点 是 采 用 了 一 个 数 字 对 象 标 识 符 10.1109/MSP.2010.936031 DSP 特 定 语 音 合 成 芯 片, 通 过 单 词 的 发 音 教 孩 子 拼 写, 并 指 出 他 们 的 拼 写 是 否 正 确 还 有 其 他 的 公 司 也 在 设 计 和 生 产 单 片 的 DSP (Intel 在 1979 年 推 出 了 一 款 单 片 DSP ) Philips Electronics 因 其 在 光 盘 随 着 新 的 创 新 产 品 的 推 出,DSP 的 需 求 也 持 续 增 长 (CD) 发 展 方 面 所 做 的 贡 献, 获 得 了 IEEE 里 程 碑 奖 首 先 是 在 1 9 7 9 年 出 现 的 一 个 代 号 为 Pinkeltje 的 原 型 装 置, 这 是 在 首 个 进 入 千 万 个 消 费 者 家 庭 的 大 规 模 数 字 化 消 费 产 品, 也 是 受 益 于 数 字 信 号 技 术 的 首 个 消 费 产 品 DSP SoC/FASICs 51% 2008: US$27.2 Billion (WW) Cell Phone DSP ASSPs 29% 到 了 1985 年, 根 据 Fifty Years of Signal Processing:The IEEE Signal Processing Society and Its Tech nologies 1948 1998 的 说 法, 对 于 DSP 芯 片 而 言, 只 有 三 个 大 的 商 业 市 场 ü 语 音 编 码 视 频 压 缩 和 调 制 解 调 器 总 共 会 有 价 值 5000 万 美 元 的 市 场 自 那 时 起,DSP 进 入 了 电 子 行 业 的 角 角 落 落, 新 的 和 创 新 的 消 费 电 子 产 品 和 应 用 的 发 展 带 来 了 极 大 的 增 长 ( 图 1) 根 据 专 门 跟 踪 和 分 析 数 字 信 号 处 理 市 场 的 Forward Concepts 的 说 法,2008 年 消 费 品 部 分 占 了 数 字 信 号 处 理 市 场 65 亿 美 元 中 的 8.37 亿 美 元 Forward Concepts 预 测 全 球 数 字 信 号 处 理 芯 片 市 场 在 2008 年 到 2013 年 这 五 年 间, 将 以 9.4% 的 速 度 增 长, 达 到 4 3 0 亿 美 元 的 水 平 ; 但 是, 从 2009 年 开 始, 四 年 的 增 长 率 预 测 为 12.1%( 年 复 合 平 均 增 长 率 ) Non-Cell Phone DSP ASICs 3% Discrete DSP Chips 11% FPGA and Parallel DSPs 2% MPUs and Other 2% [ 图 1] 随 着 目 前 许 多 DSP 芯 片 被 称 为 或 标 识 为 SoC 类, 例 如 ASIC 和 ASSP, 有 关 DSP 的 消 费 电 子 产 品 市 场 正 在 发 生 改 变 现 成 的 或 分 立 DSP 芯 片 只 占 DSP 芯 片 世 界 的 一 小 部 分 事 实 上, 分 立 DSP 现 在 大 约 只 占 270 亿 美 元 市 场 的 11% ( 引 用 得 到 了 Forward Concepts 公 司 的 许 可 ) IEEE 信 号 处 理 杂 志 [19]
[ 专 题 报 告 ] 但 是 Forward Concepts 的 创 始 人 和 总 裁 Will Strauss 说, 无 线 和 消 费 电 子 产 品 将 以 更 快 的 速 度 增 长 ( 图 2) 市 场 技 术 的 挑 战 但 是, 市 场 和 技 术 都 是 在 不 断 变 化 中 起 初, 许 多 组 件 都 曾 被 称 为 DSP 芯 片, 现 在 更 多 地 是 被 贴 上 了 片 上 系 统 ( S o C s ) 的 标 签, 就 像 专 用 集 成 电 路 (ASIC) 或 专 用 标 准 产 品 (ASICs) 一 样 ü 即 使 是 传 统 的 数 字 信 号 处 理 芯 片 供 应 商 也 这 么 做 因 此, 今 天 所 谓 的 离 散 数 字 信 号 处 理 芯 片 是 数 字 信 号 处 理 芯 片 市 场 的 一 小 部 分, 几 乎 没 有 被 算 作 DSP 芯 算 不 过,Strauss 说, 数 字 信 号 处 理 作 为 推 动 整 个 半 导 体 市 场 的 一 项 技 术, 正 在 为 应 用 设 计 和 开 发 工 具 创 造 一 个 成 长 中 的 市 场 随 着 今 天 高 度 集 成 的 芯 片 设 计 和 对 这 些 先 进 处 理 器 的 编 程 越 来 越 复 杂, 开 发 工 具 的 选 择 是 目 前 DSP 选 择 的 关 键 Strauss 说 硅 知 识 产 权 DSP 内 核 和 消 费 电 子 平 台 解 决 方 案 的 领 先 授 权 厂 商 CEVA 随 后 采 纳 了 Strauss 的 评 析, 整 合 优 化 工 具 链, 启 用 了 终 端 到 终 端, 完 全 基 于 C 的 可 授 权 D S P 内 核 开 发 流 程 CEVA 声 称 开 发 将 大 大 提 高 产 品 的 整 体 性 能, 并 为 缩 短 SoC 设 计 的 周 期 据 报 道, 许 多 公 司 使 用 专 有 DSP 内 核 都 转 而 使 用 CEVA 内 核, 特 别 是 手 机 应 用 程 序 这 种 趋 势 的 原 因 是 芯 片 价 格 的 压 力, 已 促 使 芯 片 设 计 公 司 减 少 或 卖 掉 其 手 机 芯 片 生 产 线, 同 时 加 大 来 自 基 带 芯 片 供 应 商 的 竞 争 DSP 在 消 费 类 电 子 产 品 中 的 蓬 勃 发 展 尽 管 移 动 电 话 代 表 了 数 字 信 号 处 理 器 芯 片 ( 如 基 带 和 应 用 处 理 器 ) 最 大 的 单 一 市 场, 这 也 是 音 频 设 备 的 重 要 组 成 部 分 消 费 电 子 市 场 的 发 展 和 创 新 是 什 么 样 的? 就 各 方 面 而 言, 消 费 电 子 都 是 电 子 工 业 的 不 可 小 觑 的 一 部 分 根 据 由 美 国 消 费 电 子 协 会 (CEA) 每 半 年 一 次 的 行 业 预 测, 消 费 电 子 产 品 今 年 在 美 国 产 生 了 超 过 1650 亿 美 元 的 年 销 售 收 入, 比 2009 年 ( 该 年 份 的 行 业 收 入 在 20 年 来 首 次 下 降 ) 略 有 增 加 移 动 手 机 有 望 成 为 该 行 业 的 主 要 驱 动 力 智 能 手 机 占 手 机 总 出 货 量 超 过 30%, 在 2010 年 创 造 了 近 170 亿 美 元 的 销 售 收 入, 销 量 超 过 5200 万 台, 预 计 这 一 数 字 在 今 后 几 年 还 会 增 加 ( 诺 基 亚 表 示,2010 年 1 月 份 预 计 销 量 超 过 500 万 台, 远 高 于 市 场 预 期, 预 计 占 有 对 全 球 40% 的 市 场 份 额 ) 在 2010 年, 电 脑 的 销 售 预 计 也 会 不 错 上 网 本 的 销 量 比 2009 年 翻 了 一 番, 这 个 相 对 较 新 的 电 脑 类 别 与 以 前 的 预 测 相 比, 销 售 更 加 强 劲 CEA 的 预 测 2010 年 将 会 售 出 超 过 3000 万 台 上 网 本, 产 生 超 过 140 亿 美 元 的 收 入 CEA 的 行 业 分 析 总 监,Steven Koenig 说 : 智 能 手 机 和 上 网 本 具 有 强 劲 的 增 长 潜 力, 原 因 是 消 费 者 在 孜 孜 不 倦 寻 求 高 效 便 携 的 设 备 过 去 数 年 来, 随 着 消 费 者 向 高 清 平 板 电 视 过 渡, 电 视 机 市 场 也 一 直 都 是 收 入 的 主 要 驱 动 力 之 一,CEA 认 为 今 年 的 销 量 将 超 过 3700 万 台 创 新 的 电 视 显 示 器, 例 如 三 维 (3D) 互 联 网 连 通 以 及 有 机 发 光 二 极 管 技 术, 有 望 继 续 保 持 增 长, 而 且 有 助 于 维 持 显 示 器 类 的 收 入 CEA 预 计 在 2010 年 3D 电 视 的 销 量 超 过 400 万 台 对 于 消 费 电 子 厂 商 而 言, 汽 车 行 业 也 将 继 续 发 挥 更 大 的 作 用, 汽 车 制 造 商 使 用 电 子 设 备, 让 他 们 的 产 品 与 众 不 同 创 新 在 消 费 电 子 产 品 的 成 长 历 程 中 举 足 轻 重 一 月 初, 在 拉 斯 维 加 斯 举 行 的 国 际 消 费 电 子 展 (CES) 上, 有 超 过 2500 家 科 技 公 司 引 进 了 超 过 20,000 个 新 产 品, 其 中 CEA 公 布 了 一 项 Zogby 调 查 结 果, 调 差 显 示,96% 的 美 国 人 认 为 创 新 是 美 国 努 力 在 全 球 经 济 舞 台 上 保 持 领 舞 的 关 键 CEA 的 总 裁 和 CEO,Gary Shapiro 先 生 说 我 不 知 道 还 有 其 他 别 的 事 情 能 得 到 96% 的 美 国 人 的 赞 同 作 为 Qualcomm 的 主 席 和 CEO,Paul Jacobs 博 士 在 CES 期 间 所 做 的 主 题 演 讲 中 提 到, 无 线 与 消 费 电 子 的 契 合 将 会 以 出 人 意 料 的 方 式 进 行, 因 为 越 来 越 多 的 消 费 电 子 设 备 很 快 就 具 备 了 手 机 的 功 能 期 待 新 的 无 线 产 品 和 应 用 出 现, 可 能 会 有 助 于 在 大 范 围 对 无 线 运 营 商 的 业 务 进 行 预 期 的 重 新 分 配 虽 然 无 线 设 备 的 增 长 是 全 球 性 的, 但 大 多 数 分 析 家 预 计 北 美 市 场 的 增 长 会 格 外 强 劲, 北 美 的 消 费 者 已 经 习 惯 了 拥 有 多 个 无 线 设 备 有 几 家 公 司 活 跃 在 这 个 市 场 C i r r u s L o g i c 推 出 了 一 款 SoC,CS47048, 主 要 针 对 音 频 放 大 器 应 用 将 一 个 32 位 的 音 频 DSP, 高 性 能 多 声 道 音 频 编 解 码 器 和 一 个 数 字 音 频 接 收 / 发 射 器 集 成 到 一 个 芯 片 (IC) 上, 大 幅 降 低 了 整 体 电 路 板 空 间 要 求 和 系 统 成 本 Cirrus 目 前 正 在 开 发 一 个 新 的 音 频 SoCs 产 品 线, 结 合 了 音 频 DSP 和 不 同 级 别 的 混 合 信 号 内 容, 并 使 用 的 S/PDIF 接 收 器 和 [20] IEEE 信 号 处 理 杂 志
[ 专 题 报 告 ] Shipments (US$ Millions) 45,000 40,000 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0 Military Industrial Computer Wireless 2008 Instrumentation Consumer Wireline 2009 2010 2011 2012 2013 [ 图 2] 无 线 和 消 费 电 子 产 品 是 全 球 范 围 内 DSP 出 货 量 增 长 最 快 的 两 大 块 市 场 ( 引 用 得 到 了 Forward Concepts 公 司 的 许 可 ) 本 Nichols 的 评 论 似 乎 在 呼 应 去 年 德 州 仪 器 说 法 ü 对 于 许 多 设 计 师 而 言, 评 估 一 个 新 的 DSP 平 台 时, 成 本 和 时 间, 设 置 开 发 工 具 成 为 了 一 个 主 要 障 碍 TI 的 回 应 是 推 出 其 ezdsp USB 记 忆 棒 开 发 工 具, 将 全 功 能 仿 真 器 和 集 成 开 发 平 台 的 成 本 降 至 49 美 元 TI 表 示, 这 会 加 速 DSP 应 用 的 创 建, 包 括 便 携 式 音 频 播 放 器 录 音 机 IP 电 话 便 携 式 医 疗 设 备 生 物 识 别 USB 密 钥 软 件 定 义 的 无 线 电 设 备 免 提 耳 机 及 计 量 应 用 ezdsp 无 需 其 他 组 件 或 电 缆, 整 个 开 发 工 具 由 USB 端 口 驱 动 设 计 人 员 只 需 将 其 插 入 任 何 笔 记 本 电 脑 或 工 作 站 的 USB 端 口 即 可 S/PDIF 发 射 器 Cirrus 音 频 DSP 产 品 大 多 针 对 消 费 应 用, 重 点 在 于 音 频, 而 不 是 通 用 数 字 信 号 处 理 器 虽 然 National Semiconductor 不 生 产 DSP 芯 片, 但 将 数 字 信 号 处 理 器 集 成 到 其 移 动 电 话 的 混 合 信 号 音 频 系 统 National 最 近 扩 展 了 两 个 新 器 件 的 低 功 耗 Boomer D 类 音 频 子 系 统 产 品 系 列, 旨 在 简 化 便 携 式 产 品 的 设 计 LM49352 内 置 音 频 编 码 解 码 器 接 地 参 考 的 头 戴 式 耳 机 放 大 器 小 型 听 筒 驱 动 器 D 类 扬 声 器 及 音 频 数 字 信 号 处 理 器 National 还 提 供 结 合 远 场 噪 声 抑 制 技 术, 降 低 背 景 噪 音, 改 善 移 动 电 话 和 供 电 耳 机 中 语 音 通 讯 清 晰 度 的 音 频 产 品 线 National 声 称 PowerWise 产 品 线 只 消 耗 具 有 可 比 性 的 数 字 信 号 处 理 器 软 件 系 统 的 功 率 (1 ma) 的 十 分 之 一, 无 需 增 加 数 字 信 号 处 理 器 或 微 处 理 器 的 语 音 处 理 程 序 代 码 的 编 写 和 测 试 开 发 时 间 Tensilica, Inc 正 致 力 于 MIPS 技 术, 以 推 动 Google 的 Android 平 台 的 SoC 设 计 Tensilica 和 MIPS 在 一 月 份 的 国 际 消 费 电 子 展 商 共 同 展 示 了 一 个 集 成 了 Tensilica 的 HiFi 2 音 频 DSP 的 处 理 器 内 核 Samsung 最 近 获 得 Tensilica, Inc. 的 HiFi 2 音 频 DSP 的 授 权, 将 其 用 于 Samsung 下 一 代 多 媒 体 系 统 产 品 Tensilica 支 持 数 据 层 面 处 理 器 产 品, 包 括 蓝 光 光 盘 播 放 机, 蓝 牙 功 能 设 备, 液 晶 显 示 电 视 机, 手 机,WiFi 和 无 线 通 用 串 行 总 线 功 能 的 笔 记 本 电 脑, 无 线 高 清 晰 度 多 媒 体 界 面, 手 持 式 游 戏 机, 与 喷 墨 和 激 光 打 印 机 设 在 日 内 瓦 的 意 法 半 导 体 公 司 (STMicroelectronics) 也 在 高 清 SoC 芯 片 中 使 用 专 用 的 双 重 可 编 程 音 频 DSP, 投 放 全 球 平 板 电 视 市 场 但 在 今 年 一 月,STMicroelectronics 推 出 一 款 单 核 的 多 触 点 电 阻 式 触 摸 屏 控 制 器 ( 作 为 其 多 触 点 产 品 新 STMTouch 系 列 的 第 一 个 成 员 ) 和 接 近 和 触 摸 键 感 应 器,STM 微 控 制 器 部 的 总 经 理 Jim Nichols 称 其 为 一 个 具 有 附 加 价 值 的 解 决 方 案, 与 其 他 需 要 专 门 的 编 程 知 识 的 昂 贵 的 多 核 处 理 器 或 数 字 信 号 处 理 器 相 比 的 话 Nichols 说, 新 的 微 控 制 器 的 开 发 是 为 了 支 持 日 益 复 杂 的 应 用 和 智 能 手 机 游 戏 移 动 互 联 网 设 备 和 上 网 今 年 1 月,TI 还 增 添 了 两 个 新 的 器 件, 最 低 功 耗 的 16 位 DSP 平 台, 声 称 高 度 集 成, 可 提 升 便 携 式 设 备 性 能 的 20% 该 战 略 旨 在 使 客 户 能 够 维 持 非 常 低 的 功 率 水 平, 同 时 还 增 加 了 诸 如 额 外 的 语 音, 音 频 的 编 解 码 算 法, 以 及 便 携 式 通 信 和 应 用 的 功 能 典 型 的 转 变 已 不 仅 仅 考 虑 独 立 的 数 字 信 号 处 理 器, 该 器 件 还 集 成 了 电 源 管 理 功 能, 如 一 个 片 上 低 压 降 稳 压 器, 以 及 动 态 电 压 和 频 率 缩 放, 以 使 设 计 人 员 能 够 最 大 限 度 地 发 挥 和 有 效 管 理 电 池 寿 命 便 携 设 备 (TI 还 继 续 大 力 推 广 其 高 端 三 核 数 字 信 号 处 理 器, 主 要 用 于 无 线 长 期 进 化 的 原 始 设 备 制 造 商 (OEM) 网 络 中 使 用 的 蜂 窝 通 信 基 础 设 施 ) 同 样,Marvell 半 导 体 最 近 推 出 了 针 对 使 用 ARM 指 令 集 的 消 费 电 子 产 品 的 应 用 的 四 倍 核 处 理 器 Weili Dai,Marvell 的 创 始 人 之 一, 副 总 裁 以 及 该 公 司 的 消 费 品 和 计 算 业 务 部 总 经 理 说, 四 核 实 现 的 话, 每 核 可 以 提 供 超 过 千 兆 赫 的 处 理 能 力, 是 专 门 针 对 诸 如 大 众 消 费 市 场 和 高 容 量 游 戏 应 用 的 客 户 专 用 产 品 另 一 个 在 音 频 领 域, 以 数 字 信 号 处 理 为 基 础 的 项 目 就 是 G N Netcom 公 司 的 Jabra Cruiser, 用 IEEE 信 号 处 理 杂 志 [21]
[ 专 题 报 告 ] 于 手 机 的 蓝 牙 无 线 扬 声 器, 具 有 噪 音 阻 断 技 术, 以 及 消 除 交 通 噪 音 的 双 麦 克 风 系 统 Jabra 技 术 使 用 双 麦 克 风 捕 捉 声 音, 然 后 只 过 滤 掉 环 境 噪 音 和 DSP 一 起 使 用, 用 于 降 低 回 音, 该 技 术 允 许 通 话 双 方 都 能 以 接 近 自 然 的 语 音 质 量 听 到 声 音 十 大 消 费 移 动 应 用 随 着 移 动 手 机 引 领 DSP 市 场 增 长 方 式, 哪 些 应 用 ( 应 用 程 序 ) 将 在 移 动 市 场 增 长 最 快? 作 为 领 先 的 信 息 技 术 研 究 和 咨 询 机 构,Gartner 公 司 制 作 了 它 认 为 是 2012 年 十 大 消 费 移 动 应 用 的 名 单 这 份 名 单 是 根 据 其 对 消 费 者 和 业 界 的 影 响, 考 虑 收 益 消 费 忠 诚 度, 商 业 模 式 消 费 者 价 值 估 算 的 市 场 占 有 率 而 得 根 据 Gartner 的 说 法,2012 年 十 大 消 费 移 动 应 用 包 括 : 1) 移 动 转 账 业 务 : 这 项 业 务 使 得 人 们 能 够 汇 款 给 使 用 短 消 息 服 务 (SMS) 的 其 他 人 其 低 成 本, 更 快 捷 和 便 利 的 特 点 对 发 展 中 市 场 的 用 户 很 有 号 召 力 但 这 一 业 务 也 面 临 挑 战, 包 括 监 管 的 风 险 2) 定 位 服 务 (LBS):LBS 是 上 下 文 感 知 服 务 的 一 部 分,Gartner 公 司 预 期 其 在 接 下 来 的 数 年 内 会 成 为 最 具 颠 覆 性 的 技 术 之 一 根 据 G a r t n e r 的 估 计,2009 年 全 球 LBS 用 户 将 超 过 9600 万,2012 年 将 达 到 5.26 亿 3) 移 动 搜 索 :G a r t n e r 公 司 表 示, 移 动 搜 索 列 在 十 大 业 务 的 第 三 位, 是 因 其 对 技 术 创 新 和 行 业 收 入 有 很 大 的 影 响 力 Gartner 预 计 移 动 搜 索 的 忠 诚 度 将 在 若 干 移 动 搜 索 运 营 商 间 分 摊, 这 些 移 动 搜 索 提 供 商 在 技 术 上 会 有 其 独 特 之 处 4) 移 动 浏 览 : 移 动 浏 览 位 列 第 四 原 因 是 它 在 商 业 领 域 的 广 泛 应 用 2009 年, 在 全 球 出 货 的 手 机 中,60% 具 有 移 动 浏 览 功 能 根 据 Gartner 的 预 测, 到 2 0 1 3 年, 这 个 比 例 会 上 升 到 80% 5) 移 动 健 康 监 控 : 今 天, 移 动 健 康 监 控 还 处 于 初 级 阶 段, 发 展 也 很 缓 慢, 但 可 以 看 到 有 非 常 大 的 潜 力, 因 为 移 动 性 的 移 动 网 络 覆 盖 比 固 定 网 更 重 要, 尤 其 是 在 发 展 中 国 家, 6) 移 动 支 付 : 在 可 用 的 支 付 方 式 很 少 时, 移 动 支 付 可 以 作 为 一 种 付 款 方 式 这 是 在 线 支 付 的 一 种 扩 展, 也 是 加 强 安 全 认 证 的 附 加 要 素 主 要 源 于 对 多 方 面 业 务 的 影 响, 包 括 银 行 零 售 商 消 费 者 以 及 移 动 运 营 商 缺 点 是 不 同 的 技 术 和 商 业 创 新 在 消 费 电 子 产 品 的 成 长 历 程 中 举 足 轻 重 模 式 的 实 现 可 能 会 创 建 一 个 非 常 分 散 的 市 场 7) 近 场 通 信 (NFC) 服 务 : 近 场 通 信 可 实 现 相 互 兼 容 装 置 间 的 无 线 数 据 转 输, 只 需 将 它 们 放 在 靠 近 的 地 方 (10CM) 这 一 技 术 可 用 于 零 售 购 买 交 通 个 人 识 别 和 信 用 卡 NFC 最 大 挑 战 是 达 成 移 动 运 营 商 和 服 务 供 应 商 的 商 业 协 议 Gartner 预 计 从 2010 年 下 半 年 开 始 NFC 会 有 大 规 模 的 部 署 8) 移 动 广 告 : 被 看 做 移 动 互 联 网 上 内 容 货 币 化 的 重 要 途 径, 尽 管 经 济 衰 退, 手 机 广 告 业 务 还 是 继 续 增 长 2008 年, 移 动 广 告 总 支 出 是 5.302 亿 美 元,2012 年, 这 个 数 字 可 以 达 到 75 亿 美 元 9) 移 动 即 时 信 息 (IM): 价 格 和 可 用 性 问 题 已 经 阻 碍 了 移 动 即 时 通 讯 的 广 泛 应 用, 但 Gartner 认 为 用 户 需 求 和 市 场 条 件, 将 引 导 未 来 移 动 即 时 信 息 的 发 展 移 动 IM 被 认 为 是 移 动 广 告 和 社 交 网 络 发 展 的 一 个 机 遇, 已 经 内 置 于 某 些 较 先 进 的 移 动 IM 客 户 端 中 10) 移 动 音 乐 :: 虽 然 至 今 市 场 部 分 还 是 有 些 令 人 失 望 ( 除 了 手 机 铃 声 和 回 铃 外, 这 是 个 可 产 生 数 以 百 万 计 收 入 的 业 务 ), 消 费 者 表 示 他 们 希 望 他 们 的 移 动 电 话 有 音 乐 相 伴 新 的 创 新 模 式 和 服 务 计 划 有 望 在 2012 年 成 为 一 个 增 长 点 消 费 者 的 移 动 应 用 和 服 务 不 再 是 移 动 运 营 商 的 特 权,Gartner 的 研 究 主 管,Sandy Shen 如 是 说 越 来 越 多 消 费 者 青 睐 智 能 手 机, 互 联 网 企 业 都 参 与 到 移 动 业 务 中 来, 应 用 程 序 商 店 存 储 和 跨 产 业 服 务 的 出 现 降 低 了 移 动 运 营 商 的 主 导 地 位 每 个 企 业 都 会 对 消 费 者 如 何 交 付 和 体 验 应 用 程 序 产 生 影 响, 那 就 看 谁 能 最 终 获 得 他 们 的 注 意 力 和 消 费 力 这 些 应 用 中 的 某 些 或 全 部 都 可 能 对 DSP 市 场 产 生 影 响, 如 何 发 挥 技 术 的 影 响, 以 及 如 何 将 其 整 合 到 移 动 产 品 的 新 的, 不 断 增 长 的 范 围 内 [SP] [22] IEEE 信 号 处 理 杂 志
[ Steve Young ] 认 知 型 用 户 界 面 [ 智 能 人 机 交 互 - 有 应 用 程 序 可 行 吗?] 本 文 提 出 的 观 点 是 : 未 来 一 代 计 算 机 系 统 将 需 要 使 用 认 知 型 用 户 界 面 来 实 现 足 够 鲁 棒 和 智 能 的 人 机 交 互 这 种 认 知 型 用 户 界 面 的 特 点 是, 具 备 推 理 能 力 能 在 具 有 不 确 定 性 的 情 况 下 进 行 策 略 规 划, 在 短 期 可 以 进 行 自 适 应 调 节, 在 长 期 可 以 根 据 经 验 进 行 学 习 局 部 可 观 测 马 尔 科 夫 决 策 过 程 ( P a r t i a l O b s e r v a b l e M a r k o v D e c i s i o n P r o c e s s e s : P O M D P ) 是 实 现 这 种 界 面 的 一 种 合 适 的 工 程 框 架 这 种 框 架 结 合 了 贝 叶 斯 置 信 跟 踪 技 术 和 基 于 收 益 值 的 强 化 学 习 技 术 它 的 好 处 可 以 通 过 后 文 一 个 简 单 的 采 用 触 摸 手 势 驱 动 的 i P h o n e 应 用 程 序 界 面 的 例 子 来 说 明 而 且, 证 据 表 明, 人 类 似 乎 对 于 不 确 定 条 件 下 的 规 划 也 使 用 相 似 的 机 制 P O M D P 框 架 的 一 个 局 限 性 是 难 以 处 理 精 确 计 算, 因 此, P O M D P 往 往 被 认 为 对 实 际 问 题 是 不 切 实 际 的 本 文 的 第 二 部 分 将 说 明 P O M D P 方 法 最 核 心 的 优 势 可 以 通 过 使 用 合 理 的 近 似 算 法 而 在 解 决 实 际 问 题 的 过 程 中 得 以 保 留 为 了 说 明 这 一 点, 我 会 详 细 讨 论 两 个 用 于 实 际 情 况 的 口 语 对 话 系 统 ( S D S ) 每 个 系 统 都 有 很 不 同 的 近 似 算 法, 但 是 都 能 实 现 显 著 的 性 能 提 高 第 一 个 称 为 隐 信 息 状 态 ( H i d d e n I n f o r m a t i o n S t a t e : H I S ) 系 统, 它 是 传 统 口 语 对 话 系 统 的 一 种 自 然 扩 展 第 二 个 是 : 对 话 状 态 的 贝 叶 斯 更 新 ( B a y e s i a n U p d a t e D i a l o g u e S t a t e : B U D S ) 系 统, 它 采 用 了 贝 叶 斯 网 络 理 论 研 究 中 的 一 些 最 新 成 果, 虽 然 在 系 统 规 模 的 扩 展 性 方 面 仍 然 面 临 问 题, 但 它 却 为 短 期 和 长 期 的 系 统 自 适 应 提 供 了 更 多 的 可 能 性 文 章 最 后 指 出, 尽 管 认 知 型 用 户 界 面 的 未 来 发 展 所 面 临 的 挑 战 是 巨 大 的, 但 使 用 这 样 的 界 面 是 必 然 的 趋 势 引 言 随 着 计 算 机 系 统 的 复 杂 性 不 断 增 加, 对 更 加 鲁 棒 PHOTO BY MATTHIEU BARRAGUÉ 数 字 对 象 标 识 符 10.1109/MSP.2010.935874 IEEE 信 号 处 理 杂 志 [23]
和 智 能 的 人 机 交 互 的 需 求 将 日 益 增 长, 并 将 最 终 超 出 目 前 通 用 的 传 统 人 机 界 面 技 术 可 以 支 持 的 范 围 而 且, 这 种 推 动 技 术 发 展 的 需 求 事 实 上 已 经 出 现 高 性 能 触 摸 屏 智 能 手 机 的 引 入 催 生 了 非 常 先 进 的 新 一 代 手 机 应 用 模 式, 即 用 户 必 须 通 过 使 用 触 摸 手 势 和 语 音 的 组 合 完 成 复 杂 的 交 互 然 而, 手 机 屏 幕 通 常 较 小, 且 环 境 噪 音 通 常 较 高 因 此, 保 持 一 个 可 接 受 的 鲁 棒 性 水 平 将 是 一 个 重 User Input 大 的 挑 战 为 大 众 市 场 开 发 智 能 机 器 人, 例 如 为 老 年 人 提 供 帮 助 等, 将 进 一 步 提 出 新 的 挑 战 在 这 里, 语 音 控 制 将 是 至 关 重 要 的 但 一 系 列 的 技 术 问 题 会 不 可 避 免 的 出 现, 如 信 号 源 分 离 的 不 充 分 不 可 靠 的 语 音 端 点 检 测 语 义 理 解 错 误 用 户 自 身 意 图 的 不 确 定 性 和 对 计 算 机 系 统 的 理 解 混 淆 等 这 些 因 素 的 存 在 都 为 对 用 户 意 图 的 准 确 可 靠 的 解 读 增 添 了 困 难 另 一 个 例 子 是 迅 速 扩 展 的 电 脑 游 戏 业 ( 在 美 国 电 脑 游 戏 业 的 营 业 额 现 在 已 经 超 过 了 电 影 业 ) 有 关 人 类 玩 家 与 计 算 机 生 成 的 人 物 进 行 真 实 对 话 的 全 新 一 代 身 临 其 境 游 戏, 将 促 使 我 们 发 挥 最 大 的 能 力 去 创 建 鲁 棒 和 自 然 的 用 户 界 面 虽 然 与 游 戏 相 比 虽 然 不 是 那 么 重 要, 但 在 医 疗 保 健 支 持 和 教 育 领 域, 对 话 系 统 方 面 也 会 出 现 同 样 具 有 挑 战 性 的 应 用 实 例 这 篇 文 章 是 在 2 0 0 9 年 I E E E 声 学 语 音 学 和 信 号 处 理 国 际 会 议 上 的 完 整 讲 稿 它 的 基 本 前 提 是 : 未 来 的 人 机 界 面 必 须 满 足 以 下 四 个 关 键 特 征 才 能 应 对 上 述 挑 战 : 1 ) 支 持 推 理 和 推 论 的 能 力 自 然 的 人 际 交 往 通 常 依 赖 于 不 精 确 的 模 拟 信 号, 诸 如 手 势 面 部 表 情 和 语 音 人 机 界 面 必 须 有 能 力 根 据 上 下 文 解 释 这 些 输 入, 稳 健 地 解 决 这 些 含 糊 之 处, 尽 量 减 少 失 误 2 ) 在 不 确 定 性 条 件 下 进 行 规 划 的 能 力 有 效 的 沟 通 往 往 可 以 利 用 不 完 整 的 知 识 实 现 特 定 的 沟 通 目 标 这 就 要 求 定 义 客 观 的 沟 通 目 标, 并 通 过 对 话 交 互 策 略 的 优 化, 尽 可 能 有 效 的 满 足 目 标 3 ) 在 线 适 应 变 化 的 能 力 对 话 环 境 是 不 断 变 化 的, 人 机 界 面 必 须 能 够 即 时 改 变 自 身 的 运 行 方 式, 以 维 持 可 接 受 的 性 能 水 平 4 ) 从 经 验 中 学 习 的 能 力 除 了 短 期 内 适 应, 从 长 期 来 看, 人 机 界 面 应 该 能 够 从 它 自 身 与 用 户 的 互 动 中 学 习 更 具 一 般 性 的 知 识 和 行 为 方 式 越 是 使 用, 它 应 该 变 得 越 聪 明 具 有 上 述 四 个 基 本 属 性 的 人 机 用 户 界 面 将 被 称 Interpretation Command System State Decision Logic Response 为 认 知 型 用 户 界 面 Presentation [ 图 1] 有 限 状 态 的 人 机 交 互 自 动 机 模 型 每 个 用 户 输 入 都 被 视 为 一 个 命 令, 根 据 一 定 的 决 策 逻 辑, 这 个 命 令 使 自 动 机 从 一 个 状 态 转 移 到 另 一 个 状 态 每 次 进 入 一 个 新 状 态 的 时 候, 自 动 机 会 对 用 户 产 生 一 个 响 应. 几 乎 目 前 所 有 的 人 机 界 面 都 采 用 图 1 所 示 的 有 限 状 态 自 动 机 模 型 所 有 相 关 信 息 都 被 编 码 在 一 个 有 限 状 态 机 内 每 个 用 户 输 入 都 被 视 为 一 个 命 令, 根 据 一 定 的 决 策 逻 辑, 这 个 命 令 使 自 动 机 从 一 个 状 态 转 移 到 另 一 个 状 态 每 次 进 入 一 个 新 状 态 的 时 候, 自 动 机 会 对 用 户 产 生 一 个 响 应 把 这 个 模 型 应 用 于 洗 衣 机 的 简 单 按 钮 界 面 或 者 基 于 语 音 的 信 息 查 询 系 统 的 复 杂 自 然 语 言 界 面 是 等 价 的 唯 一 的 区 别 是, 后 者 中 存 在 的 模 糊 性 要 高 得 多, 因 为 语 音 输 入 信 号 往 往 无 法 正 确 识 别 然 而, 两 者 的 操 作 都 基 于 状 态 完 全 已 知 的 假 设 事 实 上, 这 个 假 设 永 远 不 会 被 满 足 即 使 在 一 台 洗 衣 机 上 按 下 一 个 按 钮 可 以 是 完 全 明 确 的, 但 却 可 能 无 法 代 表 用 户 的 真 正 意 图 人 类 经 常 在 不 确 切 的 意 图 下, 基 于 不 完 全 的 信 息 来 进 行 交 流 因 此, 用 户 意 图 中 总 存 在 着 某 种 不 确 定 性, 而 不 确 定 性 的 问 题 会 由 于 与 人 类 互 动 的 I T 系 统 过 于 复 杂 而 变 得 更 为 严 重 对 于 这 样 的 交 互 系 统, 越 来 越 多 的 引 入 不 精 确 的 多 模 式 输 入 ( 例 如 手 势 情 感 特 征 目 视 特 征 和 语 音 ), 以 及 鲁 棒 的 处 理 不 确 定 性 的 机 制 就 变 成 了 一 种 不 可 阻 挡 的 趋 势 这 篇 文 章 中 提 出 的 主 张 是 明 确 而 直 接 的 : 不 确 定 性 无 法 避 免, 未 来 的 交 互 界 面 如 果 要 用 于 某 个 具 体 的 目 的, 则 必 须 具 有 认 知 能 力 接 下 来 的 部 分 将 论 证 基 于 贝 叶 斯 推 理 和 贝 尔 曼 最 优 性 准 则 的 P O M D P 框 架 是 建 立 下 一 代 认 知 型 用 户 界 面 的 一 种 适 当 的 工 程 方 法 应 该 指 出 的 是, 这 是 一 篇 表 明 立 场 的 文 章, 而 非 评 论 性 文 章 因 此, 文 章 中 适 当 地 给 出 了 参 考 文 献, 但 是 没 有 全 部 给 出 一 个 例 子 : 简 单 的 触 摸 手 势 驱 动 界 面 System Output i P h o n e 是 一 个 很 好 的 例 子, 可 以 显 示 直 观 的 触 摸 手 势 驱 动 界 面 是 如 何 提 高 我 们 与 设 备 间 沟 通 能 力 的 不 过, 有 些 操 作 并 不 如 我 们 希 望 的 那 样 灵 活 假 设 一 种 情 况 : 您 已 经 拍 摄 了 大 量 的 照 片, 想 快 速 浏 览 它 们 并 删 除 其 中 一 些 照 片 默 认 的 界 面 要 求 您 [24] IEEE 信 号 处 理 杂 志
选 择 每 张 照 片, 按 下 删 除 按 钮, 然 后 明 确 地 确 认 每 个 操 作 如 图 2 所 示, 做 这 件 事 情 的 一 个 快 捷 方 式 可 能 只 使 用 3 个 手 势, 即 前 滚 后 滚 和 删 除 这 种 界 面 的 唯 一 问 题 是, 当 您 尝 试 快 速 进 行 时, 您 的 手 势 变 得 不 可 靠, 从 而 产 生 错 误 当 然, 在 实 际 系 统 中, 将 需 要 某 种 形 式 的 恢 复 机 制 以 防 止 意 外 删 除, 但 是, 这 里 所 关 注 的 是 从 一 开 始 就 要 尽 量 减 少 出 现 这 样 的 错 误 首 先 考 虑 用 经 典 的 方 法 来 实 现 图 1 的 交 互 界 面 假 设 每 个 手 势 可 以 通 过 屏 幕 上 手 划 曲 线 的 角 度 来 识 别 ( 如 图 3 所 示 ) 最 经 典 的 方 法 需 要 两 个 阶 段 : 首 先 是 将 每 个 手 势 的 角 度 识 别 为 上 述 三 个 可 能 的 命 令 之 一 ; 其 次 是 将 识 别 结 果 输 入 到 决 定 系 统 响 应 的 某 种 决 策 逻 辑 中 去 切 合 实 际 的 近 似, 可 以 保 留 POMDP 方 法 的 根 本 优 势. 这 些 步 骤 的 首 要 问 题 是 一 个 分 类 问 题 假 定 手 势 与 竖 直 方 向 的 夹 角 为 i, 由 于 可 能 存 在 检 测 错 误, 通 常 我 们 会 对 每 一 类 命 令 ~ = ( forward, delete, backward) ( 见 图 4 ) 估 计 一 个 概 率 分 布 P( i ~ ) 最 优 决 策 的 边 界 i ) i 可 以 根 据 类 后 验 概 率 P( i ~ ) 来 确 定 图 4 给 出 了 在 这 种 情 况 下 是 一 个 典 型 分 布, 这 里 的 平 均 误 i 2 0 % 选 择 的 一 种 典 型 方 法 是 要 求 在 决 策 边 界 上 的 后 验 概 率 相 等, 如 图 4 中 的 垂 直 虚 线 对 于 每 一 个 输 入 手 势, 识 别 出 其 角 度 之 后, 可 以 通 过 与 决 策 逻 辑 中 的 角 度 阈 值 进 行 比 较 来 选 择 适 当 的 系 统 响 应 操 作 作 为 进 一 步 的 完 善, 决 策 错 误 率 的 概 率 分 布 可 以 通 过 角 度 的 后 验 分 布 估 计 出 来, 并 同 时 估 计 一 个 置 信 边 界 d 因 此 因 此, 经 典 方 法 的 第 二 阶 段 通 常 以 一 个 简 单 的 程 序 或 流 程 图 的 形 式 概 述, 如 图 5 所 示 scrollforward scrollbackward P (Angle) forward delete backward delete [ 图 2] iphone 照 片 选 择 使 用 的 三 个 手 势 :a) 摁 左 键 向 前 翻 阅 照 片 ;b) 摁 右 键 向 后 翻 阅 照 片 ;c) 摁 向 下 键 删 除 照 片. 200 150 100 50 0 50 100 150 200 Angle [ 图 4] 每 个 命 令 的 手 势 角 度 的 经 验 分 布 给 定 一 个 手 势 的 角 度, 通 过 将 其 与 如 虚 线 所 示 的 类 边 界 比 对, 确 定 最 有 可 能 的 命 令 分 布 之 间 的 重 叠 程 度 决 定 了 错 误 率 Gesture Angle [ 图 3] 识 别 一 个 手 势 每 个 手 势 通 过 它 在 屏 幕 上 的 角 度 来 识 别 1: Let = angle of input gesture and 1 and 2 be lower and upper thresholds 2: Let be a confidence margin around each threshold 3: if < 1 then 4: scroll-forward 5: else if 1 + < < 2 then 6: delete-photo 7: else if 2 + < then 8: scroll-backward 9: else 10: do-nothing 11: end if [ 图 5] 识 别 每 一 个 手 势 的 决 策 逻 辑 通 过 引 入 一 个 以 决 策 边 界 为 中 心, 宽 度 为 2d 的 边 距 来 降 低 误 差 的 影 响 当 一 个 手 势 落 在 这 个 边 距 内, 该 命 令 将 被 忽 略 IEEE 信 号 处 理 杂 志 [25]
那 么, 当 用 这 种 方 法 去 设 计 用 户 界 面 时, 丢 失 了 什 么? 首 先, 没 有 明 确 的 描 述 不 确 定 性 的 模 型 如 上 例 所 示, 置 信 边 界 虽 然 可 以 用 来 辅 助 决 策, 但 是, 角 度 识 别 过 程 本 身 仍 然 是 输 出 一 个 确 定 性 的 结 果, 而 且 一 旦 这 个 结 果 被 后 面 的 决 策 过 程 采 用, 就 无 法 轻 易 去 除 影 响 第 二, 没 有 尝 试 跟 踪 用 户 的 意 图 因 此, 该 系 统 无 法 确 定 它 对 用 户 手 势 的 解 释 与 用 户 要 做 什 么 是 否 一 致 在 这 个 例 子 中, 系 统 可 能 会 观 察 到 用 户 很 少 在 删 除 照 片 后 还 往 回 浏 览, 但 是, 在 往 回 浏 览 时, 最 有 可 能 的 下 一 个 手 势 就 是 删 除 照 片 这 种 行 为 特 征 完 全 可 以 用 来 消 除 手 势 角 度 识 别 不 准 确 产 生 的 歧 义 第 三, 由 于 没 有 量 化 指 标, 不 可 能 对 流 程 图 中 的 决 策 规 则 进 行 优 化 这 一 切 的 后 果 是 不 能 满 足 认 知 型 用 户 界 面 所 需 的 标 准 建 立 一 个 认 知 型 用 户 界 面 的 关 键 是 认 识 到 在 解 释 手 势 输 入 时 会 出 现 不 确 定 性, 因 此, 不 将 它 们 视 作 确 定 的 命 令, 而 把 它 们 视 为 一 种 观 察 到 的 特 征, 利 用 这 些 观 察 特 征, 系 统 可 以 推 断 出 用 户 的 意 图 系 统 响 应 用 户 意 图 的 有 效 性 可 以 通 过 一 组 收 益 值 来 量 化, 必 要 的 决 策 逻 辑 可 以 通 过 最 大 化 这 些 收 益 值 而 达 到 最 优 这 种 方 法 的 工 程 实 现 依 赖 于 两 个 基 本 思 想 : 贝 叶 斯 推 理 和 贝 尔 曼 最 优 化 原 则, 这 个 框 架 就 是 通 常 所 说 的 P O M D P [ 2 ], [ 3 ] 回 到 i P h o n e 的 例 子, 在 每 一 个 时 刻, 用 户 有 三 种 可 能 的 意 图 : 前 滚 后 滚 和 删 除 照 片 这 些 意 图 由 一 个 离 散 的 状 态 来 表 示, 即 s = { 向 前 删 除 向 后 } 在 此, 应 注 意 这 些 状 态 是 指 用 户 的 实 际 意 图 状 态, 而 不 是 计 算 机 系 统 的 状 态 为 满 足 用 户 需 求, 机 器 提 供 四 个 可 能 的 操 作 : a = { 前 滚 删 除 照 片 后 滚 什 么 也 不 做 } 用 户 t 时 刻 的 意 图 s t 取 决 于 其 先 前 的 意 图 s t- 1 和 当 前 系 统 的 操 作 a t- 1 因 此, 用 户 的 意 图 变 化 可 以 通 过 转 移 概 率 Ps ( t st-1, at- 1) 获 得 t 时 刻 产 生 的 手 势 特 征 o t 将 仅 取 决 于 用 户 当 时 的 状 态 s t 因 此, 可 以 通 过 概 率 po ( t st ) 密 度 分 布 来 描 述 用 户 表 达 特 定 意 图 时 采 用 的 各 种 可 能 方 式 请 注 意, 观 察 特 征 仅 仅 是 检 测 到 的 简 单 的 手 势 角 度 特 征, 在 这 里, 我 们 并 不 像 前 面 经 典 方 法 中 那 样 要 对 手 势 特 征 S t 1 S t 进 行 分 类 识 别 当 然, 这 里 的 关 键 问 题 还 是 在 于 用 户 的 实 际 意 图 是 无 法 直 接 观 察 的, 它 是 一 个 隐 变 量, 其 取 值 只 能 从 状 态 转 移 概 率, 特 定 状 态 下 的 观 察 特 征 概 率 分 布 函 数, 以 及 实 际 观 察 到 的 角 度 特 征 来 推 断 这 些 关 系 可 以 通 过 一 个 如 图 6 所 示 的 贝 叶 斯 网 络 来 描 述 图 6 中, 圆 圈 代 表 隐 变 量, 用 阴 影 表 示 的 圆 圈 代 表 可 观 察 的 变 量, 方 框 表 示 机 器 的 操 作 [ 4 ] 令 t - 1 时 刻 的 隐 状 态 s t 1 bt 1( st 1) a t- 1 和 o t- 1 的 条 件 下 寻 找 b( s) - 的 特 征 分 布 为 - -, 则 所 谓 推 理 就 是 要 在 给 定 b t 1 t t 这 一 问 题 很 容 易 通 过 贝 叶 斯 公 式 解 决 ( 1 ) bt( st) Ps ( t ot, at 1, bt 1) po ( t st) Ps ( t at 1, bt 1)/ po ( t at 1, bt 1) po ( s) Ps (, s a, b )/ po ( a, b ) t t t t 1 t 1 t 1 t t 1 t 1 st 1 = k po ( s) Ps ( s, a ) b ps ( ), t t t t 1 t 1 t 1 t 1 st 1 其 中, k 1 p( ot at 1, bt 1) -, = - - 是 归 一 化 常 数, 而 状 态 相 关 的 特 征 分 布 函 数 往 往 是 由 一 个 称 作 置 信 状 态 的 N 维 向 量 b = [ b( s 1 ), g, b( s N )] 来 表 示 于 是, 置 信 状 态 的 更 新 就 可 以 写 成 如 下 矩 阵 形 式 : bt k$ Oo ( t) Ta ( t ) bt = -1-1 ( 2 ) 其 中, Ta () 是 对 于 系 统 操 作 a 的 N# N 转 移 矩 阵, Oo () = diag([ po ( s 1 ), g, p( o s N )]) 是 特 征 概 率 分 布 的 对 角 矩 阵 因 此, 进 行 一 轮 推 理 ( 包 括 进 行 归 一 化 ) 的 时 间 复 杂 度 是 : ON ( 2 + 3N) 以 简 单 的 i P h o n e 为 例, 其 中, N = 3 是 完 全 可 控 的 然 而 对 于 更 复 杂 的 情 况, 由 于 N 很 大, 将 难 以 做 出 准 确 的 计 算 这 一 主 题 将 稍 后 作 出 详 细 讨 论 给 定 一 组 初 始 值 b 0, 经 过 对 每 个 手 势 的 连 续 观 察, 通 过 ( 2 ) 式, 置 信 状 态 就 可 以 不 断 更 新 因 为 实 际 的 确 切 状 态 是 不 可 知 的, 在 每 一 回 合 对 话 中, 系 统 所 采 取 的 操 作 就 必 然 基 于 置 信 状 态 而 不 是 那 个 未 知 的 隐 状 态 从 置 信 状 态 到 操 作 的 映 射 取 决 于 策 略 任 何 特 定 策 略 的 好 坏 都 可 以 通 过 指 定 r = b " a 所 有 可 能 的 状 态 - 操 作 组 合 的 收 益 值 rsa (, ) 来 量 化 以 i P h o n e 为 例, 表 1 给 出 了 可 能 的 收 益 值 表 1 [ 表 1] 对 每 个 可 能 的 状 态 - 操 作 对 的 收 益 值 a t 1 [ 图 6] 以 手 势 界 面 为 例, 给 出 了 一 个 时 刻 的 贝 叶 斯 网 络 隐 藏 的 系 统 状 态 s 由 圆 圈 表 示 由 阴 影 表 示 观 察 o 和 操 作 a O t 状 态 操 作 后 滚 删 除 照 片 前 滚 什 么 也 不 做 向 后 11 220 21 0 删 除 21 15 21 0 向 前 21 220 11 0 [26] IEEE 信 号 处 理 杂 志
[ 表 2] 转 移 矩 阵 Ps ( l sa, ) 对 于 一 个 特 定 的 动 作, 每 一 个 3h 3 的 网 格 对 应 一 个 状 态 转 移 矩 阵 在 列 标 签 b d 和 分 别 代 表 了 状 态 后 退 删 除 和 前 进 STATE sl b d f b d f b d f b d f STATE s backward 1 0 0 0.3 0.4 0.3 1 0 0 1 0 0 delete 1 0 0 0 0 1 0.1 0.4 0.5 0 1 0 forward 0.1 0.4 0.5 0 0 1 0.2 0.3 0.5 0 0 1 ACTION a scrollforward scrollbackward delete-photo do-nothing 中, 对 符 合 用 户 意 图 的 操 作 给 予 了 积 极 的 回 馈, 对 不 符 合 用 户 意 图 的 操 作 给 予 了 相 应 的 惩 罚 从 用 户 的 角 度 来 看, 不 正 确 的 删 除 应 给 予 最 强 的 惩 罚, 因 为 意 外 删 除 照 片 是 系 统 犯 的 最 糟 糕 的 错 误 收 益 值 的 具 体 形 式 的 选 择 是 一 个 设 计 决 策, 不 同 的 收 益 值 会 导 致 不 同 的 策 略 和 不 同 的 用 户 体 验 收 益 值 函 数 的 选 择 可 能 也 会 在 策 略 优 化 期 间 影 响 学 习 率 但 是, 一 旦 收 益 函 数 固 定, 策 略 的 质 量 则 要 通 过 用 户 交 互 过 程 中 总 收 益 的 数 学 期 望 来 衡 量, 即 策 略 优 化 等 价 于 最 大 化 R T T // / ( 3 ) t = 1 s t = 1 R = f{ bt( srsa ) (, t)} = f{ rba ( t, t)} 如 果 整 个 过 程 具 有 马 尔 科 夫 性, 则 采 用 策 略 从 任 意 一 个 给 定 的 置 信 状 态 b 到 到 交 互 的 结 束 状 态 的 总 收 益 将 独 立 于 其 前 面 的 所 有 状 态 使 用 贝 尔 曼 的 最 优 性 原 则, 可 以 通 过 迭 代 计 算 出 这 个 价 值 函 数 的 最 优 值 ) ) V () b = max{(, rba) + p( o b, av ) ( x( bao,, ))} Reward per Turn 4 2 0 1 a 0.5 / P b = 0 P f = 0 P f P b P d = 1 P f P d = 1 P b 0 0.5 o scroll-forward 1 0 10 do-nothing delete-photo 20 ( 4 ) do-nothing scroll-backward 30 40 Error Rate (%) 其 中, x (,, bao) 表 示 式 ( 2 ) 中 定 义 的 状 态 更 新 函 数 [ 5 ] 这 种 迭 代 优 化 是 强 化 学 习 的 一 个 特 例 [ 6 ] 这 种 最 优 值 函 数 对 有 限 的 交 互 序 列 而 言 是 分 段 线 性 且 具 有 凸 性 的 它 可 以 表 示 为 n 维 超 平 面 张 成 的 置 信 空 间 中 的 一 个 有 限 集 合, 其 中, 集 合 中 的 每 个 超 平 面 对 应 一 个 相 关 的 操 作 这 种 超 平 面 的 集 合 还 定 义 了 最 优 策 略, 因 为 对 于 任 何 置 信 状 态 b, 我 们 所 需 做 的 就 是 要 找 到 具 有 最 大 期 望 值 ) 的 超 平 面, 然 后, 选 择 对 应 的 操 作 [ 3 ] V () b [ 图 7] 对 于 不 同 的 手 势 错 误 率, 在 一 个 压 缩 置 信 空 间 上 画 出 了 策 略 价 值 的 函 数 横 轴 一 分 为 二, 表 示 了 用 户 希 望 前 滚 的 概 率 (Pf) 希 望 后 滚 的 概 率 (Pb) 和 希 望 删 除 的 概 率 (Pd) 在 左 半 部 分,Pb=0, 当 Pd 从 0 增 加 到 1 时,Pf 从 1 减 小 到 0 右 半 轴 是 其 镜 像, 即 Pf=0, 当 Pd 从 1 减 小 到 0 时,Pb 从 0 增 加 到 1 其 他 横 向 维 度 指 错 误 率, 垂 直 轴 是 每 轮 平 均 的 收 益 值 表 面 的 着 色 是 指 沿 着 置 信 状 态 维 在 每 一 点 采 取 的 最 佳 操 作 可 以 从 图 4 所 示 分 布 中 估 计 观 测 概 率 矩 阵 O 注 意, O 将 取 决 于 用 户 手 势 的 识 别 错 误 率 为 了 反 应 这 个 情 况, 在 例 子 中, 观 察 矩 阵 的 7 个 离 散 错 误 率 的 范 围 是 从 0 % 到 6 0 % 在 此, 如 果 一 个 手 势 的 角 度 位 于 最 低 错 误 决 策 边 界 的 错 误 的 一 边, 即 pw ( intended i) < pw ( not- intended i), 我 们 即 认 为 该 手 势 有 误 给 定 T 值, O 值 和 收 益 值 函 数, 可 以 使 用 贝 尔 曼 最 优 性 原 则 来 优 化 策 略 如 前 所 述, 策 略 是 一 组 超 平 面 集 合, 这 些 超 平 面 的 上 表 面 定 义 了 最 优 值 函 数 随 着 手 势 的 错 误 率 的 增 加, 这 个 上 表 面 的 复 杂 度 也 会 增 高 对 于 这 里 的 例 子, 在 0 % 错 误 率 时, 策 略 仅 包 括 三 个 超 平 面, 而 在 6 0 % 错 误 率 时, 策 略 包 括 约 3 7, 0 0 0 个 超 平 面 图 7 总 结 了 在 七 种 不 同 的 错 误 率 下 学 到 的 策 略 在 这 里, 假 定 当 f = 非 常 大 时, P P( forward) Pb = P( backward) = 0, 这 样 置 信 空 间 就 被 压 缩 成 一 个 一 维 空 间 因 此, 当 在 向 前 和 删 除 状 态 中 进 行 选 择 时, 图 的 后 部 显 示 出 价 值 函 数 的 表 面 ; 而 当 在 删 除 和 向 后 状 态 中 选 择 时, 前 50 60 部 显 示 价 值 函 数 的 表 面 表 面 的 颜 色 表 示 了 在 置 信 空 间 中 的 任 何 点 采 取 的 最 优 系 统 操 作 可 以 看 出, 在 0 % 的 错 误 率 时, 除 非 删 除 的 可 能 性 非 常 接 近 1, 否 则 决 策 将 会 选 择 向 前 或 向 后 滚 动 在 高 错 误 率 时, 一 个 什 么 也 不 做 的 操 作 区 域 被 引 入, 以 避 免 无 意 中 删 除 照 片 这 也 表 明, 当 错 误 率 上 升 时, 价 值 函 数 本 身 ( 表 示 为 每 轮 的 平 均 收 益 值 ) 会 稳 定 下 降 i P h o n e 照 片 排 序 程 序 的 性 能 可 以 通 过 对 状 态 转 移 和 观 察 概 率 模 型 进 行 采 样 以 模 拟 用 户 的 意 图 和 手 势 来 进 行 研 究 这 种 研 究 方 法 能 确 定 出 不 同 用 户 错 误 率 范 围 下, 照 片 排 序 程 序 在 不 同 的 实 验 设 置 下 得 到 的 每 个 对 话 回 合 的 平 均 收 益 值 图 8 显 示 了 这 些 模 拟 的 结 果, 可 以 看 出, 基 于 图 5 所 IEEE 信 号 处 理 杂 志 [27]
描 述 的 经 典 算 法 的 手 工 策 略 在 低 错 误 率 时 性 能 很 好, 但 是 在 高 噪 声 时 会 导 致 性 能 的 显 著 下 降 图 8 中, 其 他 的 曲 线 分 别 对 应 于 由 强 化 学 习 训 练 得 到 的 各 种 策 略 标 记 为 固 定 策 略 ( 3 0 % 噪 声 ) 的 曲 线 给 出 的 是 采 用 错 误 率 为 3 0 % 的 数 据 来 训 练 的 观 察 特 征 矩 阵 模 型 参 数 和 最 优 策 略 的 系 统 性 能 可 以 看 出, 相 对 于 手 工 策 略, 该 策 略 在 高 噪 声 时, 鲁 棒 性 有 所 提 高, 但 是 在 低 噪 声 性 能 受 损 通 过 检 查 这 个 策 略, 我 们 发 现 该 策 略 在 低 错 误 率 时 过 度 谨 慎, 总 是 选 择 什 么 都 不 做 操 作, 由 此 浪 费 了 很 多 操 作 机 会 标 记 为 固 定 策 略 + 自 适 应 模 型 的 曲 线 描 述 的 系 统 采 用 了 与 前 面 相 同 的 策 略, 但 观 察 特 征 的 概 率 矩 阵 会 根 据 实 际 的 错 误 率 进 行 调 整 可 以 看 出, 低 错 误 率 时 的 性 能 现 已 恢 复, 高 错 误 率 时 的 性 能 得 到 了 进 一 步 的 提 高 这 显 示 了 精 确 的 模 型 参 数 的 重 要 性 最 后, 标 记 为 自 适 应 策 略 + 自 适 应 模 型 的 曲 线 给 出 了 当 策 略 也 根 据 错 误 率 进 行 自 适 应 调 整 时 的 性 能 在 这 种 情 况 下, 进 一 步 改 善 了 性 能 总 之, 这 些 性 能 结 果 显 示 出 了 贝 叶 斯 置 信 跟 踪 和 策 略 优 化 对 不 确 切 和 模 糊 的 手 势 具 有 鲁 棒 性 图 8 中 所 示 系 统 的 性 能 提 高 有 三 个 主 要 原 因 首 先 是 采 用 状 态 转 移 概 率 模 型 来 描 述 环 境 的 变 化 使 用 户 的 行 为 特 征 可 以 被 用 来 消 除 手 势 中 的 歧 义 第 二 个 是 采 用 显 示 的 观 测 特 征 概 率 模 型 可 以 对 噪 声 特 性 进 行 建 模, 这 样 可 以 优 化 隐 式 决 定 的 阈 值 第 三, 强 化 学 习 使 得 最 优 策 略 可 以 最 大 化 收 益 值 的 期 望, 也 即 优 化 对 话 目 标 当 然 这 只 是 一 个 用 以 说 明 基 本 的 思 想 的 小 例 子 图 8 中 所 示 的 性 能 和 测 试 结 果 应 谨 慎 对 待 例 如, 在 存 在 自 适 应 的 情 况 下, 用 户 模 拟 器 使 用 的 参 数 与 系 统 的 参 数 完 全 相 同, 两 者 是 完 全 匹 配 的 因 此, 图 8 中 上 部 的 曲 线 代 表 的 是 一 个 上 限, 该 上 限 在 实 践 中 是 难 以 实 现 的 此 外, 设 计 手 工 策 略 时 没 有 使 用 收 益 值 函 数 的 知 识, 因 此, 使 用 平 均 收 益 作 为 性 能 测 度 是 有 利 于 基 于 数 据 训 练 的 系 统 的 但 无 论 如 何, 将 贝 叶 斯 置 信 状 态 跟 踪 与 通 过 强 化 学 习 进 行 策 略 优 化 结 合 在 一 起 的 潜 在 技 术 价 值 还 是 非 常 清 楚 的 正 如 引 言 所 述, 本 节 概 述 的 系 统 是 一 个 P O M D P 的 例 子 P O M D P 满 足 了 认 知 型 用 户 界 面 所 需 的 所 有 条 件 : 它 们 支 持 基 于 贝 叶 斯 置 信 状 态 跟 踪 的 推 理 和 推 论 ; 它 们 采 用 优 化 的 策 略 在 不 确 定 性 条 件 下 进 行 规 划, 这 些 策 略 是 基 于 置 信 状 态 并 通 过 强 化 学 习 训 练 得 来 的 ; 它 们 是 参 数 化 的 模 型, 从 而 可 以 迅 速 的 进 行 在 线 自 适 应 ; 因 为 策 略 是 通 过 数 据 训 练 的, 所 以 它 们 可 以 在 更 长 的 时 间 范 围 里 从 经 验 中 进 行 学 习 和 更 新 P O M D P 绝 非 最 近 才 出 现 它 们 最 初 出 现 在 运 筹 学 的 研 究 中 [ 2 ] [ 5 ] 机 器 学 习 领 域 的 研 究 者 已 对 其 进 行 了 广 泛 的 探 讨 但 是 它 们 的 广 泛 使 用 却 遇 到 3 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 了 可 解 性 方 面 的 严 重 阻 碍 较 早 的 时 候, 当 有 人 指 出 置 信 跟 踪 和 策 略 优 化 的 复 杂 度 对 状 态 空 间 的 规 模 呈 指 数 级 变 化 时, 可 解 性 问 题 就 已 经 被 意 识 到 了 事 实 上, 它 们 的 复 杂 度 对 操 作 和 观 察 特 征 空 间 的 规 模 也 是 指 数 级 的 增 长 关 系 因 此 它 们 在 现 实 世 界 中 的 应 用 并 不 简 单, 这 点 在 后 面 还 会 被 提 及 但 在 此 之 前, 让 我 们 先 来 看 看 人 类 是 如 何 在 不 确 定 条 件 下 进 行 策 略 规 划 的 人 类 决 策 和 规 划 0% 10% 20% 30% 40% 50% Adaptive Policy + Adaptive Model Fixed Policy + Adaptive Model Fixed Policy (30% Noise) Handcrafted Policy [ 图 8] 4 种 结 构 每 轮 对 于 手 势 错 误 率 的 平 均 收 益 值 这 4 种 结 构 为 : 手 工 策 略 在 30% 噪 声 下 训 练 的 固 定 策 略 具 有 自 适 应 模 型 参 数 的 不 变 策 略 和 具 有 自 适 应 模 型 参 数 的 自 适 应 策 略 本 文 的 中 心 原 则 是 : 未 来 人 机 界 面 需 要 表 现 出 认 知 的 能 力, 这 样 才 能 满 足 下 一 代 计 算 机 系 统 要 实 现 的 目 标, 而 贝 叶 斯 推 理 和 强 化 学 习 则 必 须 用 来 支 撑 这 种 界 面 的 实 现 大 多 数 互 动 是 人 和 机 器 之 间 的 一 种 协 作 行 为 如 果 你 知 道 在 人 的 这 一 方 面 其 实 也 遵 循 和 机 器 类 似 的 机 制, 你 应 该 会 感 到 欣 慰 吧 其 实, 人 类 采 用 强 化 学 习 的 原 则 是 不 言 而 喻 的 [ 9 ], 但 人 类 是 否 具 有 贝 叶 斯 推 理 的 能 力 就 不 那 么 显 而 易 见 了 所 以 我 们 提 出 这 样 一 个 有 趣 的 问 题 人 类 的 决 策 是 否 具 有 贝 叶 斯 统 计 的 特 性? 从 进 化 角 度 说, 脑 功 能 发 展 的 主 要 动 力 之 一 是 运 动 事 实 上, 可 以 说 人 类 有 大 脑 的 唯 一 原 因 是 使 他 们 可 以 移 动 [ 1 1 ] 因 此 要 了 解 人 类 推 理 的 核 心 机 制, 就 非 常 有 必 要 了 解 人 类 是 如 何 规 划 自 己 的 运 动 的 为 回 答 这 一 问 题, 研 究 者 们 已 经 做 了 许 多 实 验, 但 是 第 一 次 以 解 决 运 动 规 划 是 否 具 有 贝 叶 斯 特 性 的 问 题 的, 是 我 剑 桥 大 学 的 同 事 D a n i e l Wo l p e r t 沃 伯 特 的 实 验 从 概 念 上 来 说 很 简 单, 主 要 原 理 如 图 9 所 示 [ 1 2 ] 要 求 一 个 测 试 者 将 他 的 手 指 穿 过 一 张 桌 子, 从 蓝 色 的 起 始 点 到 绿 色 的 目 标 点 不 过, 在 移 动 过 程 中, 测 试 者 的 视 线 被 遮 挡, 而 参 考 框 架 [28] IEEE 信 号 处 理 杂 志
Target Prior N ( x, x ) 首 先, 可 以 忽 略 先 验 信 息, 只 使 用 带 噪 声 的 观 察 值 来 预 测 目 标 在 这 种 情 况 下, 如 图 1 0 ( 1 ), 平 均 误 差 为 零, 但 会 有 一 个 如 绿 色 带 所 示 的 大 的 方 差 Start 则 会 偏 移 一 段 距 离, 这 个 距 离 x 是 从 高 斯 分 布 N( n x, v x ) 上 采 样 得 到 的 在 每 个 操 作 结 束, 测 试 者 可 以 去 看 她 错 过 的 距 离, 重 复 几 次 训 练 后, 测 试 者 学 会 将 她 的 手 指 移 动 到 高 斯 分 布 的 均 值 n x ( 图 9 中 的 路 径 A ) 然 后 这 个 实 验 被 重 复 一 遍, 但 在 这 次 实 验 中, 测 试 者 在 从 起 始 点 到 目 标 点 中 的 途 中 允 许 她 对 手 指 相 对 于 参 考 点 的 位 置 有 模 糊 的 一 瞥 此 处 的 模 糊 相 当 于 对 观 察 加 入 了 高 斯 噪 声 N( n x, v x ) ( 图 9 中 的 路 径 B ) 这 样 经 过 多 次 试 验, 测 试 者 至 少 在 原 则 上 已 经 有 了 一 个 先 验 的 目 标 点 位 置 信 息 和 一 个 有 噪 声 的 观 测 结 果 接 下 来 的 问 题 是 测 试 者 是 如 何 使 用 此 信 息 来 调 整 她 的 运 动 规 划 在 给 定 运 动 中 途 的 带 噪 声 的 观 察 结 果 的 条 件 下, 测 试 者 可 能 使 用 三 种 模 型 去 确 定 目 标 的 位 置 A B Observation N (0, n ) [ 图 9] 一 个 简 单 的 运 动 规 划 的 任 务 测 试 者 必 须 将 他 的 手 指 从 蓝 色 的 开 始 移 动 到 绿 色 的 目 标 不 过, 在 运 动 过 程 中, 这 个 测 试 者 的 视 线 被 遮 挡, 参 考 框 架 是 沿 高 斯 分 布 N x x ( n, v ) 上 的 采 样 点 x 移 动 的 然 后 重 复 这 一 试 验, 测 试 者 学 会 将 她 的 手 指 移 动 到 高 斯 分 布 的 均 值 ( 如 手 A 所 示 ) 之 后, 测 试 者 在 从 起 始 点 到 目 标 点 中 的 途 中 允 许 向 手 指 模 糊 的 看 一 眼, 则 测 试 者 将 修 改 他 们 的 轨 道, 如 手 B 所 示 接 下 来 的 问 题 是 测 试 者 使 用 何 种 模 型 以 做 出 正 确 的 选 择? Deviation from Target +1 Variance 0 +1 0 1 1 1 0 1 2 0 1 2 0 1 2 True Lateral Shift x = 1 (a) (b) (c) [ 图 10] 三 种 模 型 偏 离 目 标 的 平 均 预 测 偏 差 (a) 全 额 补 偿 ; (b) 直 接 映 射 ; (c) 贝 叶 斯. 带 厚 度 的 绿 色 带 表 明 差 异 变 化 (c) 中 曲 线 的 坡 度 随 观 察 噪 声 的 增 加 而 增 加 +1 0 第 二, 测 试 者 可 以 学 习 噪 声 观 察 和 随 之 而 来 的 目 标 错 位 之 间 的 直 接 映 射 通 过 最 大 限 度 地 减 少 大 量 实 验 中 的 误 判, 测 试 者 可 以 学 习 到 某 种 最 优 映 射 而 且 无 需 明 确 使 用 先 验 分 布 或 观 测 噪 声 由 于 观 测 噪 声 的 实 现 是 通 过 将 目 标 图 像 进 行 模 糊 化 而 产 生 的, 测 试 者 可 以 从 视 觉 上 估 计 v n 然 而, 在 实 验 中, 他 们 只 是 在 模 糊 度 为 零 的 情 况 下 ( 其 中 v n = 0 ) 看 到 过 目 标 的 偏 移 错 位 因 此, 如 果 他 们 使 用 直 接 映 射 算 法, 那 么 对 于 所 有 的 试 验, 不 管 偏 移 错 位 的 实 际 值 是 多 少, 他 们 都 不 得 不 使 用 相 同 的 v n = 0 时 的 映 射 这 导 致 了 测 试 者 的 行 为 反 应 如 图 1 0 ( b ) 所 示 最 后, 假 设 人 类 将 先 验 分 布 和 观 察 分 布 内 在 化, 则 贝 叶 斯 规 则 可 以 用 来 预 测 目 标 这 将 导 致 最 大 后 验 估 计 : 2 2 n x x = v 2 2nx + v 2 2x ( 5 ) vn + vx vn + vx 从 图 1 0 ( c ) 可 以 看 出, 平 均 标 准 差 会 随 偏 移 的 大 小 而 改 变, 而 斜 率 则 取 决 于 观 察 噪 声 的 变 化 注 意, 这 种 模 型 显 示 出 的 方 差 是 最 小 的, 而 事 实 上, 这 正 是 这 个 估 计 问 题 的 最 小 方 差 解 决 方 案 这 个 实 验 的 结 果 表 明 毫 不 含 糊 地 说 明 贝 叶 斯 模 型 是 唯 一 适 合 实 验 数 据 的 模 型 对 数 据 的 进 一 步 分 析 显 示 测 试 者 确 实 在 学 习 先 验 分 布 更 进 一 步, 当 采 用 一 个 双 峰 高 斯 分 布 用 于 先 验 概 率 的 时 候, 同 样 获 得 了 一 致 的 结 果 [ 1 3 ], [ 1 4 ], 这 说 明 人 类 可 以 预 测 和 计 算 比 简 单 的 高 斯 分 布 更 加 复 杂 的 分 布 最 近 的 研 究 表 明 人 类 也 将 贝 叶 斯 推 理 用 于 其 他 的 处 理 活 动 例 如 另 一 剑 桥 的 同 事, M á t é L e n g y e l, 已 经 证 明 人 类 将 贝 叶 斯 学 习 用 于 视 觉 分 块 [ 1 5 ] 在 他 的 实 验 中, 测 试 者 要 去 观 察 如 图 1 1 ( b ) 所 示 的 图 形 模 式 这 些 模 式 是 由 图 1 1 ( a ) 中 所 示 的 基 本 的 积 木 块 拼 接 组 合 而 成 的 这 些 基 本 积 木 块 测 试 者 是 不 知 道 的 经 过 训 练 后, 一 系 列 新 的 积 木 组 合 被 拿 给 测 试 者, 这 些 组 合 物 中 的 一 些 来 自 测 试 积 木 清 单, 而 另 一 些 则 不 是 当 测 试 者 被 询 问, 在 每 一 种 情 况 下, 基 本 的 积 木 块 是 否 与 他 看 到 的 积 木 组 合 物 相 似 的 时 候, 他 们 通 常 会 以 7 5 % 左 右 的 概 率 认 为 从 测 试 清 单 中 的 积 木 是 相 似 的, 而 这 远 高 于 随 机 的 概 率 对 于 人 类 如 何 做 到 这 一 点 以 及 相 关 的 复 杂 学 习 算 法, 研 究 者 们 已 经 IEEE 信 号 处 理 杂 志 [29]
提 出 了 若 干 模 型 与 它 们 相 比, L e n g y e l 提 出, 人 类 会 自 然 使 用 贝 叶 斯 分 块 学 习 过 程, 包 括 利 用 奥 卡 姆 剃 刀 原 理 来 确 定 最 优 模 型 复 杂 度 及 积 木 块 大 小 通 过 改 变 组 合 物 出 现 的 频 率 和 组 合 的 复 杂 度 ( 如 使 用 3 个 ), 这 些 假 设 的 机 制 可 以 通 过 数 据 进 行 仿 真 测 试 进 而 和 人 类 性 能 进 行 比 较 在 所 有 情 况 下, 贝 叶 斯 方 法 和 数 据 最 匹 配 Inventory Training Example 总 体 而 言, 实 验 数 据 表 明, 人 类 可 以 隐 含 的 计 算 贝 叶 斯 统 计 量, 并 使 用 贝 叶 斯 推 理 来 解 决 不 确 定 条 件 下 的 规 划 问 题 这 里 介 绍 的 经 验 证 据 后 来 被 许 多 进 一 步 的 实 验 证 实 [ 1 6 ] [ 1 8 ] 还 有 一 些 生 理 架 构 上 的 论 据 也 支 持 这 种 猜 想, 即 人 类 的 神 经 系 统 非 常 适 合 贝 叶 斯 推 理 [ 1 9 ] 因 此, 似 乎 很 清 楚 的 是, 人 类 已 经 进 化 出 一 种 能 力 : 既 能 通 过 观 察 量 来 学 习 先 验 的 统 计 分 布, 又 能 利 用 贝 叶 斯 公 式 去 从 这 些 分 布 中 推 理 出 后 验 分 布 由 此 看 来, 人 类 确 实 在 解 决 问 题 和 在 不 确 定 条 件 下 的 规 划 时 使 用 了 贝 叶 斯 推 理 到 现 实 世 界 系 统 的 扩 展 在 例 子 : 一 个 简 单 的 触 摸 手 势 驱 动 界 面 这 一 节 中, 给 出 了 P O M D P 的 基 本 思 想, 并 通 过 一 个 简 单 的 例 子 说 明 了 它 们 有 潜 力 实 现 鲁 棒 和 智 能 的 用 户 界 面 P O M D P 框 架 的 主 要 特 征 是 : 存 在 一 个 可 以 持 续 运 行 的 由 置 信 状 态 组 成 的 系 统, 置 信 状 态 的 更 新 通 过 贝 叶 斯 推 理 实 现, 系 统 策 略 的 性 能 可 以 用 收 益 值 量 化 衡 量, 策 略 的 优 化 通 过 强 化 学 习 来 实 现 如 前 一 节 所 述, 有 充 分 的 证 据 显 示 人 类 也 在 利 用 类 似 的 机 制 总 而 言 之, P O M D P 似 乎 满 足 前 面 所 述 的 认 知 型 界 面 的 所 有 要 求 那 么, 为 什 么 P O M D P 框 架 并 未 用 于 目 前 使 用 的 用 户 界 面 呢? (a) [ 图 11] 视 觉 组 块 任 务 : 测 试 者 表 现 为 表 格 的 训 练 模 式 如 (b) 所 示, 积 木 目 录 如 (a) 所 示, 目 录 保 持 隐 藏 让 测 试 者 观 看 目 录 中 的 个 别 积 木, 并 问 他 对 积 木 是 否 熟 悉 和 交 通 领 域 的 语 音 信 息 服 务 最 近, 它 们 也 越 来 越 多 的 被 用 于 自 动 呼 叫 中 心 用 于 旅 游 信 息 查 询 领 域 的 一 个 典 型 的 口 语 对 话 系 统 结 构 如 图 1 2 所 示 用 户 的 声 音 先 通 过 一 个 语 音 识 别 系 统 转 换 成 文 字, 然 后 通 过 语 义 识 别 器 将 这 些 文 字 转 换 成 对 话 行 为 对 话 行 为 是 对 用 户 意 图 的 一 个 抽 象 化 的 描 述, 例 如 i n f o r m ( f o o d = c h i n e s e ), c o n f i r m ( n e a r = t o w e r ) 一 般 情 况 下, 对 话 行 为 的 类 型 与 对 话 系 统 的 实 际 应 用 领 域 是 无 关 的, 而 属 性 - 取 值 则 与 具 体 应 用 有 关 用 户 的 对 话 行 为 传 递 给 对 话 管 理 器 该 对 话 管 理 器 可 以 解 读 输 入 的 用 户 对 话 行 为, 更 新 其 内 部 状 态, 并 且 以 对 话 行 为 的 形 式 产 生 输 出 反 馈 这 个 系 统 输 出 的 对 话 行 为 会 被 转 化 为 自 然 语 言, 并 由 语 音 合 成 器 合 成 语 音 (b) 对 这 个 问 题 的 答 案 在 例 子 : 一 个 简 单 的 手 势 驱 动 界 面 这 一 节 结 束 时 已 经 提 到 一 个 现 实 世 界 中 的 人 机 界 面 的 状 态 空 间 的 规 模 是 巨 大 的 因 此, 通 过 ( 1 ) 的 置 信 跟 踪 算 法 实 现 的 话, 对 于 实 时 系 统 来 说 成 本 太 高 了 此 外, P O M D P 策 略 的 精 确 实 施 和 优 化 往 往 都 是 难 以 处 理 的 ( 玩 具 级 的 问 题 除 外 ) 不 管 怎 样, 这 些 问 题 都 不 必 然 是 取 得 进 展 的 障 碍 Is that near the tower? confirm (near = tower) User Semantic Recognizer Input Decoder Speech Understanding Dialog Manager P O M D P 框 架 的 基 本 要 素 是 : 使 用 多 个 可 能 值 来 描 述 不 确 定 性, 以 及 采 用 可 优 化 可 量 化 的 决 策 过 程 有 几 种 P O M D P 的 近 似 算 法 可 以 保 持 这 些 基 本 要 素, 并 在 实 践 中 取 得 了 比 传 统 方 法 好 得 多 的 性 能 本 节 的 剩 余 部 分 将 通 过 一 个 统 计 对 话 系 统 ( S p o k e n D i a l o g u e S y s t e m : S D S ) 的 设 计 来 对 这 些 加 以 说 明 S D S 被 广 泛 用 于 银 行 金 融 System Output S D S 包 括 了 设 计 现 实 世 界 中 的 认 知 型 用 户 界 面 过 程 中 会 遇 到 的 所 有 问 题 系 统 内 部 状 态 s 通 常 可 分 解 为 三 个 要 素 : s = { guh,, }, 其 中 g 代 表 用 户 的 意 图, u 代 表 用 户 输 入 的 对 话 行 为, h 代 表 对 话 历 史 [ 2 0 ] 所 有 这 些 都 是 极 为 复 杂 的 此 外, 由 于 语 Speech Generation Message Synthesiszer Generator No, it is near the castle. negate (near = castle) Database [ 图 12] 用 于 旅 游 信 息 域 的 一 个 口 语 对 话 系 统 的 体 系 结 构 该 语 音 识 别 系 统 产 生 一 个 词 串, 语 义 识 别 器 将 其 转 换 为 一 个 称 为 对 话 行 为 的 用 户 意 图 一 个 抽 象 表 示 用 户 的 对 话 行 为 传 递 给 一 个 对 话 管 理 器, 管 理 器 解 释 对 话 行 为, 更 新 它 的 内 部 状 态, 并 以 输 出 对 话 行 为 的 形 式 产 生 一 个 适 当 的 反 应 然 后 将 对 话 行 为 转 换 为 自 然 语 言 进 而 由 语 音 合 成 器 转 换 成 语 音 [30] IEEE 信 号 处 理 杂 志
音 识 别 错 误 率 通 常 很 高, 通 过 识 别 得 来 的 用 户 输 入 u 存 在 很 大 的 不 确 定 性, 这 些 不 确 定 性 也 会 传 播 到 g 和 h 中 去 再 有, 由 系 统 的 各 种 操 作 组 成 的 空 间 必 须 涵 盖 所 有 可 能 的 系 统 响 应 操 作, 对 话 管 理 器 的 策 略 必 须 能 将 复 杂 和 不 确 定 的 对 话 状 态 映 射 到 巨 大 的 操 作 空 间 中 所 有 这 些 因 素 结 合 起 来, 使 P O M D P 框 架 内 S D S 的 实 现 成 了 一 项 重 大 的 挑 战 尽 管 如 此, 通 过 利 用 一 些 简 单 的 想 法, P O M D P 框 架 还 是 可 以 扩 展 到 现 实 世 界 中 首 先, 通 过 简 化 对 话 状 态 概 率 分 布 的 表 示 形 式 可 将 置 信 跟 踪 变 得 易 于 处 理 例 如, 在 旅 游 信 息 查 询 的 应 用 中, 用 户 意 图 包 括 四 个 离 散 值 : 类 型, 位 置, 价 格 和 食 物 精 确 的 置 信 跟 踪 需 要 知 道 这 些 变 量 的 完 整 的 联 合 概 率 分 布, P ( 类 型, 位 置, 价 格, 食 物 ) ; 但 即 使 是 很 有 限 个 数 的 类 型, 地 点, 价 格 点 和 食 物 种 类 也 会 使 整 个 联 合 概 率 分 布 的 规 模 大 到 不 可 想 象 处 理 这 一 问 题 的 最 简 单 方 法 是 使 用 M - best 近 似, 即 对 所 有 意 图 状 态 值 的 概 率 进 行 排 名, 只 保 留 了 M 个 最 可 能 的 状 态, 其 余 删 除 例 如, 旅 游 信 息 查 询 的 应 用 中 可 能 出 现 如 下 例 子 : P ( 旅 馆, 东 方, 便 宜, 无 ) = 0. 6 5 P ( 旅 馆, 西 方, 便 宜, 无 ) = 0. 2 1 应 用 的 特 点 出 发, 我 们 有 理 由 认 为 食 物 和 场 所 ( 例 如 餐 馆 ) 的 价 格 仅 仅 依 赖 于 其 类 型, 而 类 型 和 位 置 则 是 相 互 独 立 的, 即 : P ( 类 型, 位 置, 价 格, 食 物 ) P ( 价 格 类 型 ) P ( 食 物 类 型 ) P ( 类 型 ) P ( 食 物 ) ( 6 ) 这 就 给 出 了 意 图 状 态 的 一 个 贝 叶 斯 网 络 表 示 上 述 两 种 近 似 方 法 都 可 以 使 置 信 跟 踪 易 于 处 理, 但 它 们 没 有 改 变 状 态 空 间 过 大 以 至 于 无 法 进 行 有 效 决 策 优 化 的 问 题 处 理 这 类 问 题 的 通 常 办 法 是 通 过 映 射 函 数 将 所 谓 主 置 信 空 间 b 映 射 到 更 紧 凑 的 摘 要 置 信 空 间 b t 以 同 样 的 方 式, 可 以 在 摘 要 空 间 中 定 义 一 个 紧 凑 的 操 作 集, 而 这 个 紧 凑 操 作 集 可 以 通 过 逆 映 射 再 映 射 回 主 操 作 空 间 [ 2 1 ] 下 面 的 两 节 将 概 述 两 个 在 剑 桥 大 学 实 现 的 统 计 对 话 系 统, 它 们 分 别 代 表 了 以 上 两 种 不 同 的 P O M D P 框 架 下 的 近 似 方 法 第 一 个 是 采 用 M - best 近 似 算 法 的 H I S 系 统 第 二 个 是 采 用 贝 叶 斯 网 络 方 法 的 B U D S 系 统 二 者 都 使 用 了 从 主 空 间 到 摘 要 空 间 的 映 射, 但 是 方 式 有 所 不 同 [ 2 2 ] 给 出 了 统 计 对 话 系 统 的 更 多 详 细 总 结 P ( 饭 店, 东 方, 便 宜, 意 大 利 的 ) = 0. 0 8 P ( 酒 吧, 东 方, 便 宜, 无 ) = 0. 0 4 P ( 旅 馆, 东 方, 贵, 无 ) = 0. 0 1 除 了 以 上 状 态 组 合 之 外, 其 余 的 各 种 组 合 的 概 率 都 太 低, 不 需 要 保 留 对 于 置 信 状 态 的 第 二 种 近 似 方 法 是 : 通 过 设 定 一 些 独 立 假 设 来 分 解 整 个 联 合 分 布 例 如, 从 旅 游 POMDP u Speech o Belief b Understanding Update g User h Summary Space b^ 隐 信 息 状 态 系 统 H I S 系 统 的 框 图 如 图 1 3 所 示 [ 2 3 ] [ 2 4 ] 它 对 置 信 跟 踪 过 程 采 用 M - best 近 似, 同 时 在 策 略 优 化 中 采 用 了 摘 要 空 间 映 射 技 术 图 1 2 给 出 了 一 个 典 型 对 话 回 合 的 基 本 流 程 用 户 输 入 通 过 语 音 理 解 模 块 处 理, 该 模 块 输 出 一 个 列 表, 包 括 N 个 最 好 候 选 值 以 及 相 关 的 置 信 度 [ < u 1, c 1 >,, < u N, c N > ] 我 们 将 整 个 列 表 视 为 P O M D P 对 话 管 理 器 得 到 的 观 测 值 q, 据 此 更 新 置 信 状 态 b, 然 后 将 更 新 后 的 置 信 状 态 映 射 成 为 摘 要 置 信 状 态 b t 而 对 话 策 略 则 通 过 at = }() bt 将 摘 要 操 作 与 每 一 个 可 能 的 摘 要 置 信 状 态 b t 联 系 在 一 起 Σ 然 后 摘 要 操 作 可 以 被 映 射 回 主 操 作 空 间, 形 成 系 统 的 操 作 响 应 a r(b, a) Speech Generation a Action Mapping Dialog Policy Optimize [ 图 13] HIS 系 统. HIS 的 对 话 管 理 器 保 持 着 对 所 有 可 能 的 对 话 状 态 置 信 分 布 为 了 使 策 略 具 代 表 性 和 易 于 优 化, 将 置 信 分 布 映 射 到 一 个 简 单 的 摘 要 空 间 通 过 使 用 一 个 启 发 式 操 作 映 射 将 摘 要 操 作 扩 展 到 整 个 系 统 操 作 向 用 户 产 生 反 应 a^ H I S 系 统 由 前 面 所 述 的 三 个 要 素 构 成, 即 其 中 g 代 表 用 户 意 图, u 代 表 用 户 输 入 的 对 话 行 为, h 代 表 对 话 历 史 如 果 将 其 按 ( 1 ) 式 分 解, 给 定 合 理 的 独 立 假 设, 易 见 : IEEE 信 号 处 理 杂 志 [31]
b ( g, u, h ) = k P( o u ) P( u g, a) gh, oberservation mod el user action mod el Pg ( gaph, ) ( g, u, habgh, ) (, ) observation dialog ue distory mod el mod el ( 7 ) 其 中, ÿ 符 号 表 示 下 一 个 时 间 点 [ 2 5 ] 如 底 部 括 号 所 示, 对 话 系 统 的 置 信 状 态 更 新 方 程 涉 及 四 个 不 同 的 概 率 模 型 用 户 意 图 模 型 ( u s e r g o a l m o d e l ) 和 对 话 历 史 模 型 ( d i a l o g u e h i s t o r y m o d e l ) 表 示 了 马 尔 可 夫 决 策 过 程 的 运 行 方 式 在 H I S 系 统 中, 假 设 用 户 意 图 不 会 改 变, 对 话 历 史 模 型 由 一 个 确 定 的 具 有 有 限 状 态 的 完 毕 模 型 代 替 更 有 趣 的 是 观 测 模 型 ( o b s e r v a t i o n m o d e l ) 和 用 户 操 作 ( u s e r a c t i o n m o d e l ) 模 型 观 测 模 型 包 含 了 语 音 理 解 系 统 的 误 差 信 息, 它 是 前 面 i P h o n e 例 子 中 观 察 特 征 概 率 矩 阵 的 一 个 推 广 而 用 户 操 作 模 型 实 现 了 对 观 测 模 型 的 概 率 进 行 缩 放 由 于 观 测 值 是 包 含 N 个 最 好 候 选 值 的 列 表, 用 户 操 作 模 型 实 际 的 效 果 是 根 据 上 下 文 对 这 个 列 表 进 行 了 重 新 排 序 因 此, 用 户 操 作 模 型 提 供 了 上 下 文 敏 感 的 过 滤 器, 它 能 非 常 有 效 的 减 少 失 误, 特 别 是 在 高 噪 声 条 件 下 [ 2 6 ] 变 化 的 完 毕 状 态 因 此 总 体 来 说, H I S 的 状 态 空 间 由 所 有 可 能 的 分 区 加 上 所 有 可 能 的 用 户 对 话 行 为 和 所 有 可 能 的 完 毕 状 态 组 合 而 成 这 个 集 合 中 每 个 状 态 分 区 的 概 率 会 被 计 算 排 序 或 者 剪 枝 系 统 通 常 会 维 持 3 0 0-3, 0 0 0 个 活 跃 分 区, 所 有 这 些 活 跃 状 态 组 成 了 系 统 的 置 信 状 态 b 主 空 间 到 摘 要 空 间 映 射 和 H I S 系 统 的 策 略 表 示 见 图 1 5 摘 要 置 信 状 态 b t 由 固 定 维 度 的 特 征 矢 量 组 成, 例 如 主 空 间 中 最 优 状 态 的 概 率 和 次 优 状 态 的 概 率, 加 上 一 个 布 尔 变 量, 表 示 这 两 个 状 态 是 否 可 以 用 来 代 表 同 一 个 实 体 项 摘 要 矢 量 被 映 射 到 经 过 矢 量 量 化 的 摘 要 空 间 中 的 一 个 固 定 网 格 格 点 上 [ 2 7 ], [ 2 8 ] 每 个 格 点 都 有 一 个 对 应 的 摘 要 系 统 操 作, 这 个 操 作 通 过 逆 映 射 函 数 可 以 映 射 回 主 操 作 空 间, 在 大 多 数 情 况 下, 我 们 都 假 定 该 系 统 操 作 的 主 题 是 由 主 置 信 状 态 空 间 中 的 最 优 状 态 决 定 的 这 个 过 程 如 图 1 5 所 示, 确 认 这 个 操 作 类 型 是 从 摘 要 空 间 中 选 择 的, 而 需 要 确 认 的 主 题 内 容 ( 即 属 性 值 ) 则 来 自 于 置 信 状 态 b 中 具 有 最 高 概 率 的 那 个 状 态 find(venue(type=hotel,area=east)) find(venue(type=bar,area=east)) find(venue(type=hotel,area=west)).... find(venue) u 1 u 2... u N 为 了 进 一 步 简 化 置 信 跟 踪, H I S 系 统 将 用 户 意 图 状 态 分 为 一 系 列 等 价 类, 称 为 分 区 在 对 话 开 始 时, 所 有 意 图 状 态 都 在 一 个 分 区 通 过 观 测 到 的 用 户 对 话 行 为, 新 的 证 据 不 断 被 累 积, 分 区 也 据 此 被 不 断 细 分 以 描 述 不 同 的 用 户 意 图 这 种 细 分 过 程 会 遵 循 一 套 从 数 据 库 中 导 出 的 本 体 规 则, 这 些 规 则 具 有 树 状 过 程 树 状 结 构, 以 确 保 所 有 分 区 的 并 集 始 终 等 于 完 整 的 状 态 空 间 由 于 一 个 分 区 中 所 有 的 意 图 状 态 在 当 前 证 据 下 无 法 进 一 步 被 区 分, 因 此 置 信 状 态 的 更 新 就 可 以 在 分 区 层 次 进 行, 而 无 须 对 每 个 单 独 的 意 图 状 态 进 行, 这 就 大 大 减 少 了 计 算 量 H I S 的 状 态 空 间 生 成 的 示 意 图 如 图 1 4 所 示 每 一 个 H I S 分 区 包 括 : 一 个 用 户 意 图 分 区, 前 一 次 观 测 到 的 用 户 对 话 行 为 列 表 中 的 一 项, 以 及 完 毕 信 息 完 毕 信 息 构 成 了 对 话 历 史, 以 使 得 这 些 分 区 中 的 每 个 树 节 点 都 有 一 个 根 据 确 定 的 有 限 状 态 机 规 则 User Goal Partition Last User Act History [ 图 14] HIS 置 信 空 间. 每 一 个 用 户 意 图 分 区, 前 一 个 用 户 对 话 行 为, 和 历 史 状 态 的 集 合 构 成 HIS 分 区 空 间 历 史 状 态 记 录 了 完 毕 信 息, 其 详 情 请 见 [24] b a find(venue(hotel,area=east,near=museum)) find(venue(bar,area=east,near=museum)) find(venue(hotel,area=east)) find(venue(hotel,area=west)) find(venue(hotel)).... etc confirm(area=east) Inverse Mapping a^ confirm() Greet Request Confirm Offer Inform...etc ^ b P(top) P(Nxt) T12Same TPStatus TUserAct LastSA VQ Policy [ 图 15] HIS 摘 要 空 间 映 射 摘 要 空 间 b t 由 一 个 固 定 维 数 的 特 征 矢 量 组 成, 通 过 矢 量 量 化 器 映 射 到 摘 要 空 间 中 的 一 个 固 定 网 格 点 每 个 格 点 都 有 一 个 对 应 的 摘 要 系 统 操 作, 该 操 作 被 选 择 并 且 通 过 逆 映 射 函 数 将 其 映 射 回 主 空 间 [32] IEEE 信 号 处 理 杂 志
性 Success Rate (%) 95 90 85 80 75 70 65 60 55 Human User Trial 90 80 70 60 50 HDC MDP HIS 连 续 摘 要 空 间 的 矢 量 量 化 将 HIS POMDP 转 换 成 一 个 简 单 的 离 散 马 尔 可 夫 决 策 过 程 ( M D P ), 对 此, 存 在 许 多 优 化 算 法 H I S 系 统 就 是 采 用 了 蒙 特 卡 罗 控 制 算 法, 在 与 用 户 模 拟 器 的 交 互 过 程 中, 通 过 在 线 的 强 化 学 习 来 估 计 最 优 的 系 统 操 作 集 合 [ 2 9 ] 图 1 6 显 示 了 H I S 系 统 的 性 能, 与 只 保 持 一 个 最 优 对 话 状 态 的 基 于 传 统 马 尔 科 夫 决 策 过 程 ( M D P ) 的 对 话 管 理 器 相 比, 它 保 持 多 个 候 选 状 态, 但 是 只 有 一 个 手 工 定 制 的 策 略 上 图 中 的 曲 线 给 出 了 平 均 成 功 率 随 着 用 户 模 拟 器 输 入 语 义 错 误 率 的 函 数 变 化 成 功 的 定 义 是 : 系 统 给 出 了 满 足 用 户 需 求 的 场 所, 并 提 供 了 用 户 要 求 的 任 何 信 息, 如 地 址 或 电 话 号 码 可 以 看 出, H I S 系 统 对 于 高 错 误 率 更 具 鲁 棒 性 柱 状 图 则 给 出 了 在 噪 声 环 境 下 与 3 6 个 真 人 测 试 者 进 行 对 话 的 性 能 H I S 系 统 明 显 更 具 鲁 棒 性 对 话 状 态 系 统 的 贝 叶 斯 更 新 Simulated User Handcrafted (HDC) MDP 0 5 10 15 20 25 30 35 40 45 Error Rate (%) HIS [ 图 16] 作 为 输 入 错 误 率 函 数 的 HIS 的 性 能 主 要 的 图 形 显 示 成 功 率 的 比 例 随 使 用 一 个 模 拟 用 户 的 语 义 错 误 率 函 数 的 变 化 该 插 图 显 示 了 类 似 结 果, 为 人 类 用 户 在 噪 声 条 件 下 进 行 了 该 试 验, 其 平 均 误 差 率 为 25% 前 一 节 所 述 的 H I S 系 统 显 示 了 利 用 置 信 空 间 的 M - best 近 似 算 法, 再 加 上 摘 要 状 态 映 射 可 以 实 现 复 杂 的 现 实 世 界 对 话 系 统 虽 然 相 对 于 传 统 系 统, H I S 系 统 能 够 提 供 更 高 的 性 能, 但 它 却 有 两 个 主 要 问 题 : 首 先, M - best 近 似 方 法 使 其 很 难 使 用 状 态 转 移 矩 阵, 因 此, H I S 系 统 假 定 在 对 话 过 程 中 用 户 意 图 不 会 改 变 第 二, H I S 系 统 中 的 概 率 模 型 是 确 定 性 规 则 与 统 计 模 型 的 混 合, 很 难 完 全 通 过 数 据 自 动 训 练 正 如 前 面 介 绍 的, 我 们 可 以 采 用 另 一 种 近 似 : 用 贝 叶 斯 网 络 表 示 对 话 状 态 这 种 近 似 保 留 了 正 确 反 映 系 统 动 态 变 化 的 能 力, 并 可 以 充 分 利 用 参 数 化 的 模 型 ; 但 忽 略 了 现 实 世 界 中 固 有 的 很 多 条 件 相 关 这 种 方 法 的 一 个 例 子 是 在 剑 桥 建 立 的 称 作 B U D S 的 系 统 该 系 统 使 用 了 与 H I S 系 统 同 样 的 对 话 状 态 分 解 s( guh,, ), 但 它 却 将 每 个 组 分 进 一 步 分 解 成 概 念 例 如, 在 旅 游 信 息 领 域, 用 户 可 能 会 对 位 置, 价 格, 食 物, 星 级 和 音 乐 等 概 念 感 兴 趣 这 些 概 念 大 部 分 将 依 赖 于 所 涉 及 的 场 地 类 型 ( 餐 厅, 酒 吧, 宾 馆 等 ), 但 除 此 之 外, 它 们 可 以 被 视 为 是 独 立 的 图 1 7 给 出 了 一 个 动 态 贝 叶 斯 网 络 结 构, 它 给 出 了 场 地 类 型 和 一 个 相 关 的 概 念 : 食 物 请 注 意, 在 实 际 系 统 中, 根 据 不 同 的 应 用, 有 1 0 到 2 0 个 概 念 每 个 概 念 C 有 三 个 节 点 : 一 个 意 图 节 点 g c, 其 值 随 用 户 可 能 的 选 择 变 化 ; 一 个 用 户 操 作 节 点 u c, 表 示 的 是 前 一 个 用 户 对 话 行 为 的 类 型, 如 果 上 一 个 用 户 操 作 并 没 有 提 及 这 个 概 念, 则 该 行 为 为 空 ; 一 个 历 史 节 点 h c, 取 值 为 一 个 简 单 的 完 毕 模 型 值, 如 ( 初 始 化, 涉 及 到, 完 毕 ) 所 有 的 u c 节 点 都 依 赖 于 一 个 描 述 完 整 的 用 户 对 话 行 为 的 节 点, 于 是 它 们 也 必 然 取 决 于 观 测 值, 这 里 的 观 测 值 与 H I S 系 统 一 样, 是 一 组 用 户 对 话 行 为 的 M best - 候 选 列 表 系 统 的 动 态 变 化 可 以 通 过 使 当 前 节 点 与 前 一 时 间 点 中 的 等 效 节 点 相 关 联 来 实 现 在 B U D S 系 统 中, 意 图 节 点 和 历 史 节 点 都 与 于 它 们 以 前 的 值 相 关 B U D S 系 统 将 所 有 相 关 的 对 话 状 态 信 息 都 表 示 在 一 个 贝 叶 斯 网 络 结 构 中 于 是 置 信 跟 踪 就 可 以 利 用 任 何 现 有 的 贝 叶 斯 网 络 近 似 推 理 算 法 来 实 现 在 B U D S 系 统 中, 我 们 使 用 的 是 循 环 置 信 传 播 ( L B P ) 然 而, 为 使 其 能 实 时 运 行, 各 种 优 化 还 是 必 要 的 例 如, 意 图 节 点 的 值 域 可 能 是 一 个 很 大 的 集 合, 而 在 单 次 对 话 中, 一 般 只 会 涉 及 极 少 的 一 部 分 因 此, 与 在 H I S 系 统 中 的 做 法 相 似, 我 们 对 这 些 值 进 行 分 区, 这 样, L B P 会 运 行 得 更 快 这 通 常 能 将 有 效 基 数 下 降 到 二 或 三, 这 对 降 低 计 算 时 间 有 很 好 的 效 果 另 一 种 非 常 有 效 的 优 化 是 假 设 用 户 意 图 不 断 变 化 的 概 率 是 恒 定 的 通 过 降 维, 对 于 一 个 用 户 意 图 转 移 矩 阵 规 模 为 n 的 问 题, 时 间 复 杂 度 从 可 以 降 低 到 On () On ( 2 ) 将 置 信 空 间 分 解 为 在 大 量 的 因 素 之 后, 系 统 策 略 就 要 采 取 同 的 表 示 方 式, 因 为 将 每 个 主 状 态 映 射 到 摘 要 空 间 已 不 再 可 能 在 B U D S 系 统 中, 我 们 采 用 一 种 S o f t M a x 形 式 的 随 机 策 略, 其 参 数 为 i, 表 示 如 下 : iz. a( b) r( a b, i ) = e izal e. ( b) / a l ( 8 ) 其 中, z a() b 是 操 作 a 的 基 函 数 这 些 基 函 数 可 进 一 步 分 解 成 分 量, 使 贝 叶 斯 网 络 中 的 每 个 概 念 意 图 节 点 都 会 对 整 体 策 略 发 生 影 响 IEEE 信 号 处 理 杂 志 [33]
T T T T za() b = [ za, 1( b),..., zag, (), b z a,* ( b)] ( 9 ) 其 中, 下 标 1...G 在 意 图 节 点 范 围 内 变 化, 最 后 T 的 一 项 z a,* () b 包 括 全 局 信 息, 例 如 有 多 少 数 据 项 满 足 用 户 最 可 能 的 目 标 意 图 这 个 参 数 化 的 策 略 可 以 通 过 最 大 化 期 望 收 益 值 来 优 化 我 们 发 现, B U D S 系 统 中, n a t u r a l a c t o r c r i t i c 算 法 是 非 常 有 效 的 [ 3 2 ] 与 H I S 系 统 一 样, B U D S 系 统 已 经 在 用 户 模 拟 器 和 真 人 测 试 环 境 中 都 进 行 了 实 验 性 能 结 果 相 同 或 略 好 于 H I S 系 统 结 果, 在 此 不 再 赘 述 但 是 B U D S 系 统 的 主 要 优 点 是, 可 以 采 用 D i r i c h l e t 先 验 模 型 来 把 系 统 模 型 参 数 本 身 也 引 入 到 贝 叶 斯 网 络 中 去 如 果 用 期 望 置 信 传 播 代 替 循 环 置 信 传 播 [ 3 3 ], 该 系 统 就 可 以 从 数 据 中 在 线 学 习 模 型 参 数 并 进 行 自 适 应 因 此 与 B U D S 相 似 的 架 构 可 以 满 足 前 面 所 述 的 认 知 型 用 户 界 面 的 所 有 要 求 结 论 与 展 望 本 文 主 要 讲 述 以 未 来 的 计 算 机 系 统 所 需 要 的 用 户 界 面, 它 将 支 持 比 当 前 方 法 更 具 鲁 棒 和 智 能 的 交 互 本 文 认 为, 未 来 的 界 面 必 须 提 供 认 知 功 能, 即 具 有 支 持 推 论 和 推 理 的 能 力 在 不 确 定 性 条 件 下 进 行 规 划 的 能 力 短 期 适 应 的 能 力 和 长 期 从 经 验 中 学 习 的 能 力 满 足 认 知 型 用 户 界 面 要 求 的 工 程 框 架 应 基 于 P O M D P, P O M D P 结 合 了 贝 叶 斯 置 信 跟 踪 和 基 于 收 益 值 的 强 化 学 习 实 验 证 明, 这 个 框 架 可 以 对 不 精 确 的 人 类 交 互 信 息 进 行 鲁 棒 的 理 解, 同 时 有 能 力 通 过 最 大 化 目 标 函 数 来 搜 寻 最 优 的 交 互 策 略 更 进 一 步, 人 类 本 身 其 实 也 是 利 用 了 类 似 的 机 制 成 彻 底 的 概 率 模 型, 才 能 保 证 系 统 能 够 随 时 间 进 化 且 能 适 应 经 验 对 于 此 类 系 统, 毋 庸 置 疑 可 以 采 用 贝 叶 斯 网 络 ( 如 B U D S 系 统 ) 然 而, 基 于 大 规 模 贝 叶 斯 网 络 的 P O M D P 系 统 的 实 现 面 临 很 多 的 挑 战 最 直 接 的 问 题 就 是 当 网 络 复 杂 性 增 加 时 如 何 保 持 实 时 性 操 作, 这 是 由 于 近 似 推 理 需 要 大 量 的 计 算 正 如 B U D S 系 统 所 展 示 的, 应 用 传 统 的 置 信 传 播 算 法, 以 及 人 类 交 互 通 常 把 重 点 放 在 少 量 具 体 实 体 上 这 个 基 本 事 实, 显 著 的 速 度 提 高 是 可 以 达 到 的 但 是, 最 终 我 们 仍 需 要 能 处 理 大 规 模 的 动 态 变 化 系 统, 而 这 也 许 需 要 底 层 硬 件 的 支 持, 也 许 需 要 某 种 特 殊 的 分 布 式 处 理 器 用 来 优 化 置 信 传 播 算 法 所 需 的 消 息 传 递 操 还 作 也 有 其 他 的 挑 战, 例 如 集 成 多 通 道 输 入 和 输 出, 以 及 处 理 人 和 人 自 然 交 流 之 间 的 微 妙 对 话 现 象 还 存 在 一 些 社 会 问 题, 与 现 存 的 其 他 系 统 不 同, 我 们 可 能 无 法 精 确 保 证 一 个 认 知 型 用 户 界 面 在 一 些 特 定 情 况 下 将 如 何 反 应 除 了 少 数 明 显 的 例 外, I T 系 统 的 传 统 设 计 思 路 是 将 所 有 的 信 息 列 成 表, 再 采 用 确 定 性 算 法 来 操 作 输 入 也 被 看 成 确 定 性 的, 这 在 语 音 识 别 技 术 的 应 用 上 带 来 了 明 显 的 困 难 : 语 音 识 别 被 作 为 键 盘 输 入 的 替 代 品, 要 使 它 有 用 就 必 须 要 降 低 错 误 率 本 文 认 为, 这 种 看 法 是 错 误 的 本 文 认 为 真 正 的 认 知 型 人 机 界 面 会 需 要 一 种 全 新 的, 以 对 不 确 定 性 进 行 明 确 建 模 为 核 心 的 方 法 P O M D P 为 合 理 设 计 此 类 系 统 提 供 了 一 个 良 好 的 基 础 框 架, 它 是 未 来 认 知 型 用 户 界 面 的 关 键 致 谢 笔 者 感 谢 剑 桥 对 话 系 统 小 组 的 现 任 和 前 任 成 员 : M i l i c a G a š i c F i l i p J u r c ˇ í c ˇ e k S i m o n K e i z e r F a b r i c e L e f e v r e F r a n ç o i s 如 果 这 个 观 点 被 接 受, 则 其 影 响 是 : 我 们 必 须 要 以 一 种 不 同 的 方 式 来 设 计 以 人 为 中 心 的 I T 系 统 关 键 是 要 确 定 哪 些 是 不 确 定 性 的 主 要 来 源, 及 他 们 如 何 能 有 效 地 在 系 统 内 表 示 用 户 输 入 必 须 被 当 作 证 据, 据 此, 通 过 贝 叶 斯 推 理, 不 确 定 性 可 以 得 到 解 决 虽 然 P O M D P 往 往 被 认 为 在 现 实 世 界 应 用 中 存 在 可 解 性 的 问 题, 但 是, 在 实 践 中 合 理 使 用 近 似 算 法 就 仍 然 可 以 实 现 实 际 系 统, 并 且 同 时 保 留 P O M D P 框 架 的 基 本 优 势 a Time t Time t + 1 g type g type g food g food a u type u food u type u food u u 文 章 中 详 细 描 述 了 H I S 口 语 对 话 系 统 的 实 现 H I S 系 统 同 时 代 表 了 从 现 有 传 统 系 统 到 上 述 新 系 统 的 一 个 演 化 路 径 实 际 从 效 果 上 看, H I S 系 统 等 价 于 若 干 个 对 话 管 理 器 在 并 行 运 行, 其 中 每 个 对 话 管 理 器 对 用 户 意 图 有 各 自 不 同 的 假 设 H I S 系 统 包 含 很 多 符 号 化 的 组 件, 这 与 传 统 对 话 系 统 很 相 似 而 事 实 上, 将 传 统 的 对 话 系 统 模 块 集 成 到 一 个 概 率 框 架 中 去 正 是 它 的 优 点 然 而, 从 长 远 来 看, 认 知 型 用 户 界 面 只 有 设 计 h type h food o h type h food [ 图 17] BUDS 使 用 动 态 贝 叶 斯 网 络, 其 中, 将 对 话 状 态 分 解 为 代 表 的 诸 如 食 物 价 格 和 位 置 等 手 势 插 槽 每 个 槽 有 目 标 g, 一 个 相 关 的 用 户 对 话 行 为 u 和 历 史 信 息 h 除 了 依 赖 于 槽 场 地 类 型 的 插 槽 外, 该 槽 大 多 是 独 立 的 o [34] IEEE 信 号 处 理 杂 志
M a i r e s s e J o s t S c h a t z m a n n M a t t S t u t t l e B l a i s e T h o m s o n K a r l We i l h a m m e r J a s o n Wi l l i a m s 和 K a i Yu 本 文 中 提 到 的 一 些 研 究 是 由 英 国 E P S R C ( 资 助 协 议 E P / F 0 1 3 9 3 0 / 1 ) 和 欧 盟 F P 7 计 划 ( 资 助 协 议 2 1 6 5 9 4 ) 资 助 ( C L A S S I C 项 目 : w w w. c l a s s i c - p r o j e c t. o r g ). 他 们 也 给 出 了 匿 名 的 评 论 和 建 议, 对 改 善 本 文 的 最 后 版 本 颇 有 帮 助 作 者 简 介 S t e v e Yo u n g ( s j y @ e n g. c a m. a c. u k ) 现 为 剑 桥 大 学 副 校 长, 剑 桥 大 学 工 程 系 信 息 工 程 分 部 教 授 他 主 要 的 研 究 兴 趣 在 于 口 语 系 统, 包 括 语 音 识 别, 语 音 合 成, 语 义 理 解, 统 计 对 话 管 理 他 是 H T K To o l k i t 的 原 创 者, 和 P h i l Wo o d l a n d 一 起, 开 发 了 H T K 词 汇 语 音 识 别 系 统 参 考 文 献 1 9 9 3 年 到 2 0 0 4 年 间, 他 担 任 C o m p u t e r S p e e c h a n d L a n g u a g e 的 编 辑, 目 前 是 I E E E 语 音 和 语 言 处 理 技 术 委 员 会 的 主 席 他 是 英 国 皇 家 科 学 院 院 士, 英 国 工 程 技 术 学 会 I E E E 和 R S A 的 会 士 ( f e l l o w ) 2 0 0 4 年, 他 获 得 了 I E E E 信 号 处 理 学 会 技 术 成 就 奖 2 0 0 8 年, 他 当 选 为 国 际 语 音 通 信 协 会 ( I S C A ) 的 会 士, 2 0 1 0 年 他 获 得 了 I S C A 的 科 学 成 就 荣 誉 奖 章 [ S P ] 参 考 文 献 [1] Apple Inc. (2009). iphone human interface guidelines [Online]. Available: http://developer.apple.com/iphone/library/documentation [2] E. Sondik, The optimal control of partially observable Markov decision processes, Ph.D. dissertation, Stanford Univ., Palo Alto, CA, 1971. [3] L. Kaelbling, M. Littman, and A. Cassandra, Planning and acting in partially observable stochastic domains, Artif. Intell., vol. 101, pp. 99 134, 1998. [4] C. Bishop, Pattern Recognition and Machine Learning. New York: Springer, 2006. [5] R. Smallwood and E. Sondik, The optimal control of partially observable Markov processes over a finite horizon, Oper. Res., vol. 21, no. 5, pp. 1071 1088, 1973. [6] R. Sutton and A. Barto, Reinforcement Learning: An Introduction (ser. Adaptive Computation and Machine Learning). Cambridge, MA: MIT Press, 1998. [7] M. Littman, A. Cassandra, and L. Kaelbling, Learning policies for partially observable environments: Scaling up, in Proc. 12th Int. Conf. Machine Learning, A. Prieditis and S. Russell, Eds. San Francisco, CA: Morgan Kaufmann, 1995, pp. 362 370. [8] Y. Virin, G. Shani, S. E. Shimony, and R. Brafman, Scaling up: Solving POMDPs through value based clustering, in Proc. 22nd Nat. Conf. Artificial Intelligence, AAAI 2007, Vancouver, 2007. [9] W.-T. Fu and J. Anderson, From recurrent choice to skill learning: A reinforcement-learning model, J. Exp. Psychol. Gen., vol. 135, no. 2, pp. 184 206, 2006. [10] G. Cziko, Universal Selection Theory and the Second Darwinian Revolution. Cambridge, MA: MIT Press, 1995. [11] D. Wolpert, Z. Ghahramani, and J. Flanagan, Perspectives and problems in motor learning, Trends Cogn. Sci., vol. 5, no. 11, pp. 487 494, 2001. [12] K. Kording and D. Wolpert, Bayesian integration in sensorimotor learning, Nature, vol. 427, pp. 224 227, 2004. [13] R. Jacobs, Optimal integration of texture and motion cues to depth, Vision Res., vol. 39, pp. 3621 3629, 1999. [14] M. Ernst and H. Bulthoff, Merging the senses into a robust percept, Trends Cogn. Sci., vol. 8, pp. 162 169, 2004. [15] G. Orban, J. Fiser, R. Aslin, and M. Lengyel, Bayesian learning of visual chunks by human observers, Proc. Nat. Acad. Sci., vol. 105, no. 7, pp. 2745 2750, 2008. [16] K. Kording and D. Wolpert, Bayesian decision theory in sensorimotor control, Trends Cogn. Sci., vol. 10, no. 7, pp. 319 326, 2006. [17] H. Tassinari, T. Hudson, and M. Landy, Combining priors and noisy visual cues in a rapid pointing task, J. Neurosci., vol. 26, no. 40, pp. 10154 10163, 2006. [18] D. Wolpert, Probabilistic models in human sensorimotor control, Hum. Mov. Sci., vol. 26, pp. 511 524, 2007. [19] M. Sahani and P. Dayan, Doubly distributional population codes: Simultaneous representation of uncertainty and multiplicity, Neural Comput., vol. 15, pp. 2255 2279, 2003. [20] J. Williams, P. Poupart, and S. Young, Factored partially observable Markov decision processes for dialogue management, in Proc. 4th Workshop Knowledge and Reasoning in Practical Dialogue Systems, Edinburgh, 2005. [21] J. Williams and S. Young, Scaling POMDPs for spoken dialog management, IEEE Trans. Audio, Speech and Lang. Processing, vol. 15, no. 7, pp. 2116 2129, 2007. [22] O. Lemon and O. Pietquin, Machine learning for spoken dialogue systems, in Proc. Interspeech, Antwerp, Belgium, 2007, pp. 2685 2688. [23] S. Young, J. Schatzmann, K. Weilhammer, and H. Ye, The hidden information state approach to dialog management, in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, ICASSP 2007, Honolulu, HI, 2007. [24] S. Young, M. Gasic, S. Keizer, F. Mairesse, J. Schatzmann, B. Thomson, and K. Yu, The hidden information state model: A practical framework for POMDPbased spoken dialogue management, Comput. Speech Lang., vol. 24, no. 2, pp. 150 174, 2009. [25] J. Williams and S. Young, Partially observable Markov decision processes for spoken dialog systems, Comput. Speech Lang., vol. 21, no. 2, pp. 393 422, 2007. [26] S. Keizer, M. Gasic, F. Mairesse, B. Thomson, K. Yu, and S. Young, Modelling user behaviour in the HIS-POMDP dialogue manager, in Proc. IEEE Workshop Spoken Language Technology (SLT 08), Goa, India, 2008. [27] W. Lovejoy, Computationally feasible bounds for partially observed Markov decision processes, Oper. Res., vol. 39, pp. 162 175, 1991. [28] R. Brafman, A heuristic variable grid solution method for POMDPs, in Proc. 14th Nat. Conf. Artificial Intelligence, AAAI, Cambridge, MA, 1997. [29] M. Gasic, S. Keizer, F. Mairesse, J. Schatzmann, B. Thomson, and S. Young, Training and evaluation of the HIS POMDP dialogue system in noise, in Proc. 9th SIGdial Workshop Discourse and Dialogue 2008, Columbus, OH, 2008. [30] B. Thomson, J. Schatzmann, and S. Young, Bayesian update of dialogue state for robust dialogue systems, in Proc. Int. Conf. Acoustics Speech and Signal Processing, ICASSP, Las Vegas, 2008. [31] B. Thomson and S. Young, Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems, Comput. Speech Lang., to be published. [32] J. Peters and S. Schaal, Natural actor-critic, Neurocomputing, vol. 71, no. 7 9, pp. 1180 1190, 2008. [33] T. Minka, Expectation propagation for approximate Bayesian inference, in Proc. 17th Conf. Uncertainty in Artificial Intelligence, Seattle, WA, 2001, pp. 362 369. [34] J. Henderson and O. Lemon, Mixture model POMDPs for efficient handling of uncertainty in dialogue management, in Proc. 46th Annu. Meeting Association for Computational Linguistics (ACL 08), Columbus, OH, 2008. [35] K. Kim, C. Lee, S. Jung, and G. Lee, A frame-based probabilistic framework for spoken dialog management using dialog examples, in Proc. 9th SIGdial Workshop Discourse and Dialogue, Columbus, OH, 2008. [36] T. Paek and R. Pieraccini, Automating spoken dialogue management design using machine learning: An industry perspective, Speech Commun., vol. 50, no. 8 9, pp. 716 729, 2008. [SP] IEEE 信 号 处 理 杂 志 [35]
Can semantic technologies make the Web truly worldwide? Find the latest telecommunications research in IEEE Xplore Wherever you fi nd people developing the most advanced telecommunications technology, chances are you ll fi nd them using the IEEE Xplore digital library. That s because IEEE Xplore is fi lled with the latest research on everything from wireless technology and optical networks to a semantic Web that can connect people around the world. When it comes to telecom, the research that matters is in IEEE Xplore. See for yourself. Read Toward a New Generation of Semantic Web Applications, only in IEEE Xplore. Try IEEE Xplore free visit www.ieee.org/betterinternet IEEE Xplore Digital Library Information driving innovation 09-CRS-0223d-Telecom-7x10-Final-2010.indd [36] 1 IEEE 信 号 处 理 杂 志 11/23/09 2:24:04 PM
[ Xiaodong He, Li Deng and Wu Chou ] [ 语 音 识 别 中 模 型 优 化 技 术 的 一 个 综 述 ] PHOTODISC & DIGITAL VISION 判 别 学 习 在 序 列 模 式 识 别 中 的 应 用 判 别 学 习 已 经 成 为 包 含 语 音 识 别 和 语 言 处 理 在 内 的 统 计 信 号 处 理 及 模 式 识 别 研 究 领 域 的 一 个 主 题 [9,10,13,21,29,35,43,44,47,49] 特 别 是 近 年 来 在 大 规 模 的 语 音 识 别 中 因 为 引 入 判 别 学 习 而 取 得 了 很 多 成 就 [35,38,47,48] 理 解 语 音 过 程 的 重 点 是 语 音 序 列 的 可 变 长 度 的 特 性 的 动 态 描 述 对 于 序 列 模 式 识 别 的 判 别 学 习 有 两 个 重 要 问 题, 一 是 建 立 优 化 目 标 函 数, 二 是 实 际 的 优 化 技 术 文 献 [9,18,21,29,35, 38,41,45,52,54,58] 为 解 决 这 两 个 问 题 提 出 了 很 多 的 方 法 然 而, 它 们 并 没 有 充 分 理 解 这 两 个 关 键 问 题 之 间 的 关 系 由 于 该 问 题 在 理 论 和 实 际 中 均 起 到 重 要 作 IEEE 信 号 处 理 杂 志 [37]
用, 因 此 迫 切 需 要 去 归 类 和 统 一 文 献 中 的 判 别 学 习 方 法 这 篇 文 章 旨 在 满 足 上 述 要 求, 同 时 对 判 别 学 习 框 架 下 的 序 列 模 式 分 类 和 识 别 提 出 一 些 见 解 本 文 旨 在 说 明 这 些 判 别 学 习 方 法 之 间 的 关 联 和 区 别, 并 利 用 深 层 次 的 方 案 去 统 一 表 面 上 不 相 同 的 各 种 技 术 尽 管 本 文 综 述 了 一 般 类 型 的 关 于 序 列 特 征 的 模 式 识 别 问 题, 但 大 部 分 重 点 还 是 放 在 讨 论 这 类 问 题 和 语 音 识 别 及 隐 马 尔 科 夫 模 型 [11,50,56] 之 间 的 关 系 上 隐 马 尔 科 夫 模 型 和 其 他 多 种 形 式 的 判 别 学 习 一 样 已 经 被 应 用 到 很 多 的 信 号 处 理 领 域, 除 了 语 音 领 域, 还 有 生 物 信 息 学 [6,16], 计 算 遗 传 学 [55], 文 本 和 图 像 分 类 和 识 别 [33,62,65], 视 频 目 标 分 类 [63], 自 然 语 言 处 理 [8,10], 遥 控 机 器 人 [64] 我 们 希 望 通 过 本 文 的 综 述 和 见 解 可 以 使 判 别 学 习 在 应 用 更 广 的 信 号 处 理 学 科 方 面 取 得 原 理 上 的 进 步 或 者 成 功 的 应 用 除 了 给 出 大 量 基 本 的 判 别 学 习 的 思 路 和 方 法, 也 希 望 我 们 的 相 应 算 法 从 更 一 般 的 机 器 学 习 方 法 的 角 度 出 发, 定 位 在 更 广 泛 的 建 立 统 计 分 类 器 的 问 题 上 生 成 的 方 法 (generative methods) 和 判 别 的 方 法 (discriminative methods) 是 设 计 和 训 练 统 计 分 类 器 及 识 别 器 的 两 类 范 例 模 式 生 成 识 别 器 依 靠 一 个 观 测 特 征 和 相 应 的 类 别 的 联 合 概 率 密 度 的 学 习 模 型 使 用 这 个 联 合 概 率 模 型, 根 据 贝 叶 斯 规 则 [12,50,66] 计 算 最 大 后 验 概 率 完 成 决 策 任 务 相 反, 判 别 分 类 器 及 识 别 器 是 直 接 使 用 类 别 后 验 概 率 ( 或 者 相 关 的 判 别 方 程 ), 概 括 描 述 为 直 接 解 决 分 类 或 识 别 的 问 题 而 不 解 决 中 间 步 骤 的 广 义 性 问 题 [57] 识 别 器 的 设 计 理 念 基 础 是 广 泛 流 行 的 机 器 学 习 方 法, 包 括 支 撑 矢 量 机 [57], 条 件 随 机 场 [32,44] 和 最 大 熵 马 尔 科 夫 模 型 [19,34], 这 里 估 计 联 合 分 布 的 中 间 步 骤 被 省 略 另 一 方 面, 尽 管 联 合 分 布 估 计 具 有 复 杂 性, 其 唯 一 目 的 就 是 判 别, 生 成 方 法 在 对 识 别 器 的 各 个 成 分 和 交 互 方 面 的 知 识 融 合 概 念 直 接 分 析 有 很 重 要 的 作 用 上 述 对 这 两 种 一 般 化 的 学 习 方 法 相 应 的 优 点 和 局 限 性 的 分 析 致 使 在 这 里 需 要 一 种 实 用 的 模 式 识 别 框 架 也 就 是 试 图 估 计 一 种 简 单 的 联 合 分 布 或 生 成 模 型, 它 有 比 计 算 真 实 分 布 的 生 成 模 型 更 低 的 复 杂 度 为 了 使 得 低 复 杂 性 的 生 成 模 型 判 别 足 够 好, 这 需 要 参 数 学 习 方 法 在 实 际 的 判 别 任 务 中 克 服 简 单 模 型 结 构 的 局 限 性 这 与 使 用 最 大 似 然 估 计 拟 合 内 部 数 据 的 传 统 方 法 相 反 这 种 框 架 已 经 在 语 音 识 别 研 究 领 域 有 了 很 重 要 的 应 用 和 指 导 意 义, 这 里 隐 马 尔 科 夫 模 型 作 为 一 种 低 复 杂 度 的 联 合 分 布 模 型, 常 用 于 描 述 语 音 的 局 部 声 学 特 征 序 列 和 相 应 的 底 层 语 言 标 记 序 列 ( 句 子, 单 词 或 者 音 ) 的 联 合 分 布 模 型 典 型 隐 马 尔 科 夫 模 型 的 判 别 参 数 学 习 方 法 为 :1) 最 大 互 信 息 (MMI)[7,18,20,39,40,41,58,61];2) 最 小 分 类 误 差 (MCE)[1,9,23,28,29,35,36,38,49,52,54];3) 最 小 音 误 差 (MPE) 和 相 近 的 最 小 词 误 差 (MWE)[13,45-48] 除 了 对 上 述 分 类 方 法 做 总 回 顾 外, 本 文 还 在 判 别 学 习 的 三 个 关 键 领 域 给 予 特 别 关 注 首 先 给 出 了 三 种 用 于 分 类 器 参 数 优 化 的 主 要 判 别 学 习 目 标 函 数 (MMI,MCE,MPE/MWE) 的 统 一 概 述, 从 他 们 的 起 源 探 究 他 们 的 关 系 通 过 统 一 的 目 标 函 数, 本 文 分 析 了 对 模 式 识 别 任 务 具 有 不 同 优 化 性 能 的 各 种 条 件, 包 括 超 字 符 串 单 元, 字 符 串 单 元 和 子 字 符 串 单 元 的 优 化 性 能 水 平 其 次, 本 文 描 述 了 一 种 在 设 计 分 类 器 时 参 数 估 计 的 有 效 方 法 在 判 别 学 习 中, 这 种 参 数 估 计 方 法 基 于 增 长 转 型 (Growth Transform, GT) 的 优 化 框 架,( 在 有 理 方 程 的 最 优 化 (Optimizing Rational Functions) 中 有 很 详 细 的 介 绍 ) 我 们 分 析 表 明, 该 方 法 统 一 了 参 数 估 计 公 式, 同 时 也 可 升 级 适 用 于 大 型 的 模 式 识 别 任 务 本 文 第 三 部 分 说 明 了 对 于 采 用 隐 马 尔 科 夫 模 型 的 序 列 模 式 识 别 问 题, 基 于 MCE 和 MPE/MWE 的 学 习 方 法 在 增 长 转 型 的 参 数 估 计 框 架 下 的 算 法 性 质 [38] IEEE 信 号 处 理 杂 志
II. MMI,MCE,MPE/MWE 的 判 别 学 习 准 则 MMI,MCE,MPE/MWE 是 在 语 音 和 语 言 处 理 领 域 三 个 最 重 要 的 判 别 学 习 准 则 尽 管 本 文 主 要 讨 论 语 音 和 语 言 处 理 方 面 的 判 别 分 类 器 设 计, 但 它 们 同 样 可 以 应 用 到 其 它 相 似 的 序 列 识 别 领 域, 如 手 写 体 识 别 本 文 的 参 考 文 献 涉 及 词 语 音 字 符 串 等 的 识 别, 就 是 为 了 说 明 序 列 动 态 识 别 问 题 可 以 基 于 不 同 层 次 的 识 别 单 元 此 外, 序 列 模 式 识 别 的 分 类 器 可 以 是 基 于 每 一 个 独 立 的 模 式 或 识 别 单 元 如 果 可 以 利 用 序 列 的 相 关 性, 分 类 器 的 构 造 就 可 以 基 于 字 符 串 的 模 式 或 识 别 单 元 的 识 别, 如 短 语, 字 符 串, 句 子 该 灵 活 性 为 序 列 模 式 识 别 的 分 类 器 设 计 提 供 了 很 大 的 研 究 空 间, 已 经 发 展 出 很 多 的 方 法 [22,29,47] 首 先 记 为 分 类 器 参 数 的 集 合, 在 设 计 分 类 器 时 需 要 对 其 进 行 估 计 在 语 音 和 语 言 处 理 中, 对 一 个 观 察 序 列 X, 相 应 的 标 记 词 序 列 为 S, 其 基 于 分 类 器 的 联 合 分 布 即 为 : (1) 上 式 中, 假 设 语 言 模 型 P(S) 中 的 参 数 不 需 优 化 给 定 一 个 训 练 数 据 集 合, 记 R 作 为 训 练 样 本 总 数 本 文 主 要 讨 论 有 监 督 的 学 习, 这 里 每 一 次 训 练 标 记 由 一 组 观 察 数 据 序 列 组 成, 其 正 确 的 模 式 序 列 标 记 为 :, 其 中 是 序 列 的 第 i 个 字 使 用 小 写 的 变 量 去 记 录 所 有 可 能 的 模 式 序 列, 这 些 序 列 可 以 用 来 标 记 第 r 个 标 记, 包 括 正 确 的 被 标 号 序 列 和 其 它 序 列 A. 最 大 互 信 息 (MMI) 在 基 于 MMI 的 分 类 器 设 计 方 面, 全 局 分 类 器 参 数 估 计 是 以 数 据 X 和 相 应 的 标 号 或 者 符 号 S 之 间 的 互 信 息 I(X,S) 最 大 化 为 目 标 的 从 信 息 论 角 度 看 S 和 X 的 关 系, 信 息 量 提 供 了 信 息 获 取 量 的 一 个 度 量, 或 者 不 确 定 性 降 低 的 数 量 MMI 准 则 在 信 息 论 中 能 够 较 好 的 估 计 它 具 有 很 好 的 理 论 特 性, 同 时 又 不 同 于 用 在 基 于 生 成 模 型 的 学 习 中 的 最 大 似 然 准 则 互 信 息 量 I(X,S) 的 定 义 为 : (2) 其 中 是 S 的 熵, 是 给 定 数 据 X 的 条 件 熵 : 这 里 是 基 于 模 型 的, 可 以 得 到 公 式 : (3) 假 设 语 言 模 型 (P(S) 及 H(S)) 的 参 数 不 用 优 化, 因 此 对 于 训 练 数 据,(2) 式 中 的 互 信 息 最 大 化 就 等 价 于 (3) 式 的 H(S X) 最 小 化 当 训 练 数 据 中 的 样 本 及 标 记 从 独 立 同 分 布 的 分 布 提 取,H(S X) 即 为 : 因 此, 基 于 MMI 判 别 学 习 的 参 数 最 优 化 可 以 通 过 最 大 化 下 面 方 程 得 到 : (4) 其 中, 是 模 式 序 列 的 语 言 模 型 概 率 式 (4) 中 的 目 标 函 数 是 一 个 对 数 和 形 式, 和 接 下 来 几 个 章 节 的 判 别 训 练 准 则 相 比, 我 们 为 式 (4) 构 造 了 一 个 单 调 递 增 的 幂 函 数 如 下 : (5) 这 里 需 要 说 明, 和 有 相 同 的 最 大 值 点 的 集 合, 因 为 最 大 值 点 对 于 单 调 递 增 函 数 是 恒 定 不 变 的 为 了 和 其 它 的 判 别 训 练 准 则 相 区 别, 记 式 (5) 中 的 因 子 为 : (6) IEEE 信 号 处 理 杂 志 [39]
定 义 式 (6) 为 标 记 基 于 模 型 的 期 望 效 用 (utility), 等 于 1 减 去 基 于 模 型 的 期 望 损 失 B. 最 小 分 类 误 差 (MCE) 基 于 MCE 的 分 类 器 设 计 是 模 式 识 别 中 的 一 种 基 于 判 别 函 数 (discriminant function) 的 方 法 [1,28,29] 分 类 器 的 判 定 准 则 被 看 做 是 判 别 函 数 集 合 的 比 较, 当 判 定 准 则 应 用 于 分 类 器 中 时, 参 数 估 计 包 括 使 期 望 损 失 最 小 化 基 于 MCE 判 别 学 习 的 损 失 函 数 的 构 造, 是 以 嵌 在 平 滑 函 数 形 式 中 的 分 类 器 的 识 别 误 差 率 形 式 构 造 的, 分 类 器 的 期 望 损 失 最 小 化 直 接 关 系 到 错 分 率 的 降 低 在 基 于 MCE 的 判 别 学 习 中, 目 标 ( 损 失 ) 函 数 可 以 利 用 基 于 似 然 度 的 生 成 模 型 通 过 以 下 步 骤 构 建 对 于 每 个 训 练 标 记, 判 别 函 数 的 集 合 为 : 这 里 包 含 数 据 和 给 定 模 型 下 的 模 式 序 列 ( 字 符 串 ) 的 对 数 联 合 概 率 分 类 或 识 别 的 判 定 规 则 定 义 为 : 对 于 只 有 一 个 最 佳 竞 争 字 符 串 (one-best string) 的 MCE 方 法 (N=1), 只 有 最 易 被 混 淆 的 错 字 符 串 才 被 认 为 是 竞 争 对 象, 这 里 变 为 : (9) 然 而 对 于 N>1 的 一 般 情 况, 可 以 使 用 多 种 定 义 一 个 比 较 典 型 的 定 义 形 式 为 [29]: (10) 另 外 一 种 和 典 型 的 形 式 如 下 ( 这 和 式 10 很 相 似, 见 文 献 [54]): (11) 其 中, 为 联 合 概 率 的 尺 度 因 子 在 本 文 中, 我 们 采 用 式 (11) 中 的 形 式, 同 时 为 了 计 算 方 便 设 ( 的 情 况 在 [24] 中 进 行 讨 论 ) 给 出 错 分 率 度 量, 对 于 每 个 训 练 样 本 r, 损 失 函 数 可 以 通 过 Sigmoid 函 数 来 定 义 ( 见 文 献 [28,29]): (12) 实 际 上,MCE 的 判 别 学 习 中 可 考 虑 N 个 最 容 易 混 淆 的 竞 争 字 符 串,, 与 正 确 字 符 间 的 竞 争 这 里 最 佳 的 N 个 字 符 串 可 以 归 纳 定 义 为 : 其 中 表 示 sigmoid 函 数 的 斜 率, 通 常 靠 经 验 决 定 本 文 中 为 简 单 起 见 设 定 为 1 在 文 献 [25, p.156] 有 类 似 设 定 这 里 需 要 说 明 式 (12) 的 损 失 函 数 逼 近 记 为 平 滑 函 数 形 式 的 0-1 分 类 误 差 其 中 是 分 类 器 的 当 前 参 数 模 型 集 合 (7) 给 定 所 有 的 模 式 序 列 集 合 和 相 应 的 观 测 数 据, 其 中,, 把 (11) 式 代 入 (12) 式, 得 到 训 练 标 记 数 据 的 损 失 函 数 : 错 分 率 度 量 用 来 逼 近 对 每 个 训 练 样 本 判 定 准 则 的 性 能, 当 表 明 有 错 分, 表 明 没 有 错 分 实 际 上 这 样 的 错 分 类 度 量 可 以 定 义 为 : (8) 其 中 是 一 个 表 示 错 误 竞 争 字 符 串 的 分 数 的 函 数, 是 对 正 确 字 符 串 的 判 别 函 数 (13) 相 应 的, 可 定 义 效 用 函 数 为 一 减 损 失 函 数 的 形 式, 也 就 是 : (14) [40] IEEE 信 号 处 理 杂 志
基 于 MCE 的 判 别 学 习 的 目 标 就 变 为 对 所 有 的 训 练 数 据 而 言, 使 训 练 期 望 损 失 最 小 化 (15) 很 明 显, 使 式 (15) 中 的 最 小 化 等 价 于 使 下 列 MCE 目 标 函 数 最 大 化 式 (17) 中 原 始 音 精 度 可 以 广 义 的 定 义 为 原 始 子 串 精 度 特 别 地, 原 始 音 精 度 亦 能 够 以 相 同 的 方 式 定 义 为 在 参 考 字 符 串 的 总 字 数 减 去 的 插 入 删 除 和 置 换 误 差 相 似 的, 基 于 原 始 词 精 度, 可 以 得 到 MWE 准 则 的 等 价 定 义 : (18) (16) 这 里 值 得 注 意 的 是,MCE 的 求 和 形 式 (16) 与 MMI 的 求 积 形 式 (5) 形 成 了 强 烈 对 比 C. 最 小 音 / 词 误 差 (MPE/MWE) MPE/MWE 是 另 一 种 判 别 学 习 方 法, 最 早 被 文 献 [45,47] 提 出, 并 且 在 语 音 识 别 领 域 证 明 了 其 有 效 性 与 MMI 以 及 MCE 不 同,MMI/MCE 是 为 适 合 大 规 模 的 模 式 序 列 ( 例 如, 字 符 串 或 者 超 字 符 串 ),MPE 旨 在 提 高 子 串 模 式 水 平 的 优 化 性 能 在 语 音 识 别 中, 一 组 模 式 字 符 串 通 常 和 由 一 系 列 词 组 成 的 句 子 相 对 应, 其 中 子 字 符 串 作 为 序 列 的 组 成 部 分 可 以 是 字 或 者 音 MPE 需 要 最 大 化 的 目 标 函 数 定 义 为 : (17) 其 中 表 示 在 句 串 中 的 原 始 音 ( 子 串 ) 精 度 ( 在 文 献 [45,47] 中 提 到 ) 原 始 音 精 度 定 义 为 参 考 字 符 串 的 全 部 音 的 数 目 减 去 的 插 入 删 除 和 置 换 误 差 式 (17) 的 MPE 准 则 等 价 于 对 整 个 训 练 集 原 始 音 精 度 数 目 的 基 于 模 型 的 期 望 这 种 关 系 可 以 将 (17) 式 改 写 为 : 其 中 是 基 于 模 型 的 后 验 概 率 因 此 本 文 将 这 两 种 方 法 均 归 为 MPE /MWE 一 类 D. 讨 论 在 单 一 训 练 样 本 级 别 时,MMI 准 则 使 用 式 (6) 中 基 于 模 型 的 实 用 期 望, 此 时 MCE 准 则 使 用 了 由 式 (8)(12) 和 (14) 定 义 的 依 赖 分 类 器 的 平 滑 经 验 效 用 函 数 MPE/ MWE 准 则 同 样 使 用 基 于 模 型 的 期 望 效 用 函 数, 但 是 该 效 用 是 由 子 字 符 串 计 算 得 到 的, 例 如, 在 音 和 字 的 层 次 中 本 文 为 了 计 算 方 便, 使 用 式 (11) 作 为 MCE 的 错 分 测 度 因 此, 式 (14) 平 滑 的 经 验 效 用 函 数 和 式 (6) 有 相 同 的 形 式 这 可 以 直 接 用 式 (14) 取 代 式 (13) 在 多 重 训 练 样 本 级 别 时, 通 过 比 较 式 (5) (16) (17) 和 (18),MMI 训 练 使 训 练 标 记 的 模 型 预 期 效 用 乘 积 最 大, 此 时 MCE 训 练 使 对 所 有 训 练 标 记 的 平 滑 经 验 效 用 之 和 最 大 化,MPE/MWE 训 练 则 是 使 模 型 期 望 经 验 效 用 之 和 最 大 化 对 效 用 函 数 (utility function) 进 行 求 和 或 乘 积 形 式 之 间 的 差 别, 才 是 MMI 和 MCE/MPE/ MWE 之 间 的 不 同 这 种 不 同 造 成 了 从 MMI 扩 展 原 始 GT/EBW 方 法 到 其 它 准 则 时 的 困 难 [47 p.92] 接 下 来 几 章, 本 文 将 说 明 我 们 统 一 的 学 习 准 则 如 何 反 映 这 种 不 同 性 III. MMI MCE MPE/MWE 目 标 函 数 的 统 一 有 理 函 数 形 式 本 章 给 出 了 基 于 MMI MCE 和 MPE/MWE 准 则 的 判 别 学 习 的 目 标 函 数, 可 以 被 映 射 到 一 个 规 范 有 理 函 数 形 式, 并 约 束 其 分 母 函 数 为 正 数 值 这 种 规 范 有 理 函 数 的 形 式 有 利 于 深 入 研 究 基 于 MMI,MCE 和 MPE/MWE 的 分 类 器 此 外, 这 一 统 一 的 目 标 函 数 对 分 类 器 参 数 优 化 的 统 一 框 架 发 展 起 到 了 促 进 作 用 IEEE 信 号 处 理 杂 志 [41]
A. MMI 目 标 函 数 的 有 理 函 数 形 式 基 于 式 (5) 的 MMI 目 标 函 数 的 有 理 函 数 形 式 可 以 写 为 : (19) 其 中, (20) 是 一 个 常 数, 该 常 数 只 与 句 序 列 相 关, 为 克 罗 内 尔 函 数, 也 就 是 : 对 式 (19), 采 用 一 般 性 假 设, 认 为 不 同 训 练 样 本 之 间 是 相 互 独 立 的 MMI 目 标 函 数 旨 在 对 整 个 训 练 数 据 而 不 是 对 每 个 单 独 的 字 符 串 进 行 条 件 似 然 函 数 的 改 进 它 可 以 被 看 做 是 所 有 训 练 数 据 在 超 字 符 串 层 的 判 别 性 能 测 度, 其 中 可 以 看 成 超 字 符 串 的 二 元 函 数, 当 超 字 符 串 为 正 确 时, 取 值 为 1, 反 之 为 0 法, 无 法 确 定 判 别 学 习 的 终 点 近 年 来 基 于 梯 度 的 批 处 理 最 优 化 方 法 的 使 用, 包 括 批 量 - 半 批 量 的 概 率 下 降 (batch and semi-batch probabilistic descent), 快 速 传 播 (QuickProp), 弹 性 反 向 传 播 (Rprop) 算 法, 都 对 MCE 算 法 进 行 了 改 进, 并 且 提 高 了 识 别 率 [37,38] 然 而, 这 些 方 法 的 单 调 收 敛 性 还 未 确 定 本 文 使 用 一 种 不 同 的 方 法 使 MCE 判 别 学 习 的 目 标 函 数 适 合 于 GT 的 参 数 优 化 基 于 GT 具 有 可 扩 展 和 单 调 收 敛 的 学 习 性 质, 其 备 快 速 和 稳 定 性 优 势 为 了 实 现 这 种 优 势, 需 要 重 新 对 MCE 函 数 进 行 规 范, 对 MCE 的 目 标 函 数 提 取 一 个 规 范 且 有 理 的 函 数 形 式 同 时,MCE 的 规 范 有 理 的 函 数 形 式 在 该 过 程 中 有 利 于 统 一 MCE 与 MMI MPE/MWE 的 目 标 函 数, 这 样 可 以 研 究 他 们 之 间 的 异 同 MCE 目 标 函 数 的 有 理 函 数 形 式 可 通 过 通 分 的 方 法 推 导 如 下 : (21) B. MCE 目 标 函 数 的 有 理 函 数 形 式 和 MMI 的 情 况 不 同, 式 (16) 给 出 了 MCE 目 标 函 数, 为 若 干 个 有 理 函 数 的 总 和 而 不 是 单 独 的 有 理 函 数 这 导 致 应 用 GT 的 参 数 最 优 化 框 架 去 优 化 MCE 的 目 标 函 数 有 困 难 因 此,MCE 的 目 标 函 数 通 常 使 用 广 义 概 率 下 降 算 法 (GPD)[9,28,29] 或 者 其 它 基 于 梯 度 的 方 法 [37,38] 进 行 优 化 尽 管 相 当 普 及 和 很 多 成 功 应 用, 但 基 于 GPD 顺 序 学 习 的 梯 度 下 降 主 要 存 在 两 个 缺 点 第 一, 它 是 一 种 单 样 本 循 序 学 习 算 法 在 计 算 时, 对 于 GPD 而 言 参 数 学 习 算 法 的 并 行 化 非 常 困 难, 而 这 对 大 规 模 任 务 很 关 键 第 二, 它 不 具 有 单 调 的 学 习 算 [42] IEEE 信 号 处 理 杂 志
(22) 其 中 可 以 理 解 为 的 字 符 串 精 度, 值 取 为 0 到 R 之 间 的 整 数 值, 表 示 中 正 确 的 字 符 串 的 数 量 MCE 目 标 函 数 的 有 理 函 数 形 式 (22), 在 基 于 MCE 的 判 别 学 习 研 究 中 将 起 到 很 关 键 的 作 用 C. MPE/MWE 目 标 函 数 的 有 理 函 数 形 式 与 MCE 类 似,MPE/MWE 的 目 标 函 数 也 是 多 个 有 理 函 数 的 总 和, 如 在 文 章 [47] 中 的 讨 论, 很 难 直 接 推 导 出 GT 公 式 为 了 避 开 这 个 问 题, 文 献 [45,47] 中 提 出 了 一 种 弱 性 辅 助 函 数 (WSAF) 的 优 化 MPE/MWE 目 标 函 数 的 方 法 而 本 文 中, 我 们 将 MPE/MWE 目 标 函 数 改 为 它 的 等 价 形 式, 即 规 范 的 有 理 函 数 形 式, 使 得 基 于 MPE/MWE 的 判 别 学 习 中 的 参 数 优 化 直 接 修 正 为 基 于 GT 的 参 数 估 计 框 架 这 为 统 一 的 参 数 估 计 框 架 提 供 了 可 靠 的 单 调 收 敛 性 质, 而 这 种 单 调 收 敛 性 恰 是 如 基 于 梯 度 和 基 于 WSAF 的 逼 近 方 法 所 缺 少 的 我 们 发 现, 用 在 MCE 目 标 函 数 的 有 理 函 数 形 式 (22) 中 的 推 导 方 法, 同 样 可 以 直 接 用 来 推 导 定 义 在 式 (17) 和 (18) 中 MPE/MWE 目 标 函 数 的 有 理 函 数 式 要 注 意 的 是, 式 (17) 和 (18) 与 式 (21) 的 形 式 相 同, 除 了 是 由 或 取 代 相 同 的 M C E 目 标 函 数 的 推 导 步 骤 在 这 里 同 样 可 用,MPE/MWE 的 有 理 函 数 形 式 如 下 : (23) 这 里 (24) 或 可 被 理 解 为 超 级 字 符 串 中 音 或 词 的 精 确 计 数 它 的 上 限 值 是 所 有 训 练 数 据 ( 或 者 正 确 的 超 级 字 符 串 ) 中 的 音 或 词 的 总 和 数 但 实 际 值 有 可 能 是 负 数, 比 如 有 太 多 的 干 扰 错 误 时 相 应 地, 和 分 别 表 示 所 有 训 练 数 据 集 的 基 于 模 型 平 均 原 声 或 词 的 精 度 计 数 D. 评 价 和 讨 论 这 一 部 分 主 要 讲 这 三 个 判 别 学 习 目 标 函 数,MMI,MCE, 和 MPE/MWE, 表 示 为 一 个 统 一 的 规 范 有 理 函 数 形 式 : (25) 式 (25) 中 的 总 和 表 示 所 有 R 训 练 标 记 的 不 确 定 标 记 序 列 ( 包 括 正 确 的 和 不 正 确 的 ) 因 为 还 要 进 行 进 一 步 处 理, 所 以 在 实 际 应 用 时 不 确 定 字 符 串 数 量 会 被 大 大 减 少 在 式 (25) 中, 表 示 在 所 有 训 练 标 记 R 中 的 全 部 观 测 数 据 序 列 ( 串 ) 的 集 合, 在 把 这 些 串 连 在 一 起 形 成 单 个 串 后, 我 们 将 此 单 独 的 串 称 作 超 级 字 符 串 是 超 级 数 据 串 的 联 合 概 率 分 布, 该 超 级 数 据 串 的 不 确 定 标 记 序 列 为 式 (25) 中,MMI,MCE 和 MPE/MWE 由 于 依 赖 于 准 则 的 加 权 因 子 和 不 同 而 相 互 区 别 一 个 重 要 性 质 是 : 仅 由 标 记 序 列 决 定, 与 要 进 行 最 优 化 的 参 数 集 无 关 用 有 理 函 数 公 式 (25) 做 MMI,MCE 和 MPE/MWE 的 目 标 函 数 主 要 有 两 个 目 的 首 先,MMI,MCE 和 MPE/ MWE 的 目 标 函 数 被 统 一 为 一 个 规 范 的 有 理 函 数 形 式, 因 而 能 够 研 究 不 同 的 判 别 学 习 准 则 之 间 的 关 系, 同 时 比 较 它 们 的 性 能 这 能 对 不 同 的 判 别 学 习 方 法 提 供 更 好 的 观 察 其 次, 式 (25) 表 示 的 统 一 的 目 标 函 数 克 服 了 在 判 别 学 习 中 应 用 基 于 GT 参 数 最 优 化 框 架 的 最 主 要 障 碍 这 就 为 判 别 学 习 提 供 了 一 种 可 扩 展 的 和 普 遍 的 参 数 评 估 框 架, 该 框 架 具 有 高 效 且 充 分 的 算 法 收 敛 IEEE 信 号 处 理 杂 志 [43]
特 性 所 有 这 些 性 能 均 是 以 前 将 判 别 学 习 应 用 于 连 续 模 式 识 别 时 的 主 要 关 注 点 如 本 节 所 提 出 的,MMI,MCE 和 MPE/MWE 准 则 的 有 理 函 数 形 式 之 间 的 关 键 差 别 是 式 (25) 分 子 中 的 加 权 因 数 其 中 作 为 一 个 通 用 的 加 权 因 子, 取 决 于 采 用 哪 一 种 判 别 训 练 (DT) 准 则 例 如, 对 于 MMI, 则 有 : 而 对 MPE, 则 有 : 在 MCE 具 有 N 个 最 佳 竞 争 对 手 N>1 的 情 况 下 : 而 对 于 单 个 最 优 的 MCE( 即 N =1), 仅 属 于 子 集 从 式 (25) 的 规 则 有 理 函 数 形 式, 可 对 MMI,MCE 和 MPE/MWE 的 目 标 函 数 进 行 直 接 对 比 表 1 以 表 格 形 式 给 出 了 这 些 判 别 目 标 函 数 之 间 的 关 系 文 献 [47] 指 出,MPE/MWE 与 MCE 和 MMI 有 一 个 重 要 的 区 别, 即 对 于 错 误 字 符 串 的 MPE/MWE 标 准 的 加 权 给 定 值, 取 决 于 错 误 字 符 串 中 子 字 符 串 的 数 目 根 据 整 个 句 串 是 否 正 确,MCE 和 MMI 产 生 了 一 个 二 进 制 的 区 别, 或 许 不 适 用 于 以 减 少 子 字 符 串 错 误 为 目 的 的 情 况 对 于 MCE, 该 区 别 可 以 通 过 比 较 二 值 函 数 和 明 确 得 出 : 对 于 MPE/MWE, 非 二 值 函 数 的 和 为 : 该 关 键 差 别 造 成 了 MPE/MWE 和 MCE 中 的 子 字 符 串 级 别 及 字 符 串 级 别 的 识 别 性 能 优 化 之 间 的 不 同 进 而,MMI 采 用 二 进 制 函 数 的 乘 积 形 式 代 替 了 MCE 中 的 二 进 制 函 数 的 和 形 式 : 由 上 式 可 得,MMI 在 超 字 符 串 级 别 上 得 到 了 性 能 优 化, 举 例 来 说, 如 果 任 一 句 的 标 记 是 错 误 的, 克 罗 内 克 三 角 函 数 的 联 合 乘 积 即 变 为 零 因 此, 除 了 与 一 个 正 确 标 签 / 抄 本 的 序 列 相 对 应, 式 (25) 分 子 上 的 所 有 条 件 表 一 C DT (S 1...S R ) IN THE UNIFIED RATIONAL-FUNCTION FORM FOR MMI, MCE, AND MPE/MWE OBJECTIVE FUNCTIONS. THE SET OF COMPETING TOKEN CANDIDATES DISTIN- GUISHES N-BEST AND ONE-BEST VERSIONS OF THE MCE. NOTE THAT THE OVERALL C DT (S 1...S R ) IS CONSTRUCTED FROM ITS CONSTITUENTS C DT (S R ) S IN INDIVIDUAL STRING TOKENS BY EITHER SUMMATION (FOR MCE, MPE/MWE) OR PRODUCT (FOR MMI). 目 标 函 数 C DT 1s r 2 C DT 1s 1... s R 2 DT 中 所 用 的 标 记 序 列 集 合 MCE (N-BEST) d1s r, S r 2 a R C DT 1s r 2 r51 5S r, s r,1,...,s r,n 6 MCE (ONE-BEST) d1s r, S r 2 a R C DT 1s r 2 r51 5S r, s r,1 6 MPE A 1s r, S r 2 a R C DT 1s r 2 r51 所 有 可 能 的 标 记 序 列 MWE A l 1s r, S r 2 a R C DT 1s r 2 r51 所 有 可 能 的 标 记 序 列 MMI d1s r, S r 2 q R C DT 1s r 2 r51 所 有 可 能 的 标 记 序 列 和 都 为 0 正 如 在 语 音 判 别 实 验 [35], [45]-[47] 中 被 广 泛 观 测 的 那 样,MMI 标 准 不 如 MCE 或 MPE/MWE 令 人 满 意 从 式 (25) 目 标 函 数 的 统 一 形 式 中 得 到 的 另 一 个 结 论 是, 在 训 练 数 据 只 有 一 个 样 本 标 记 (R=1) 的 特 例 中, 如 假 设 这 时 该 句 只 包 含 一 个 音, 那 么 这 三 种 标 准 ( 即 MMI,MCE 和 MPE/MWE 标 准 ) 即 为 相 同 该 结 论 十 分 明 显, 因 为 在 这 种 情 况 下, 完 全 相 同 只 有 当 训 练 集 合 包 含 多 重 语 句 标 记 的 情 况 时, 它 们 之 间 的 不 同 才 会 出 现 在 多 个 训 练 样 本 情 况 下, 当 有 理 函 数 形 式 (25) 对 于 三 种 规 则 均 保 持 不 变 时, 差 别 主 要 在 独 立 于 的 加 权 因 子 中 体 现 在 序 列 模 式 识 别 中, 尽 管 我 们 尝 试 对 MMI,MCE 和 MPE/MWE 的 三 种 目 标 函 数 形 式 推 导 出 基 于 GT 的 参 数 最 优 化 框 架, 但 应 该 注 意 的 是 该 统 一 的 目 标 函 数 (25) 能 为 推 导 出 其 它 参 数 最 优 化 方 法 提 供 一 个 关 键 性 基 础 例 如, 最 近 Jebara 在 文 献 [26][27] 提 出 了 一 种 有 理 函 数 的 参 数 最 优 化 方 法 可 作 为 GT 方 法 一 种 替 代 该 方 法 是 基 于 反 转 的 Jensen 不 等 式, 基 于 此, 一 种 对 带 有 指 数 族 密 度 HMMs 的 最 佳 解 决 方 案 能 得 以 构 建 IV. 采 用 GT 的 有 理 函 数 优 化 基 于 GT 的 参 数 最 优 化 是 指 一 种 批 处 理 方 式 的, 迭 代 的, 最 优 化 方 案 目 标 函 数 的 值 随 每 次 迭 代 而 增 加 也 就 是 说, 新 的 模 型 参 数 集 通 过 变 换 利 用 当 前 的 模 型 估 计 得 出, 其 性 质 是 目 标 函 数 值 会 不 停 增 [44] IEEE 信 号 处 理 杂 志
加, 除 非 估 计 HMM 参 数 时,EBW 算 法 是 这 种 优 化 技 术 类 型 的 一 种 典 型 GT/EBW 算 法 最 初 是 由 Baum 和 他 的 同 事 因 为 齐 次 多 项 式 提 出 的 [3],[4] 它 后 来 被 扩 展 到 用 来 优 化 非 齐 次 的 有 理 函 数, 如 文 献 [18] 中 所 载 EBW 算 法 开 始 流 行 是 因 为 在 离 散 HMMs 的 MMI 判 别 训 练 中 的 成 功 应 用 [18] 它 后 来 也 被 扩 展 及 应 用 到 连 续 密 度 HMMs 的 MMI 判 别 训 练 中 [2],[20],[41],[59],[61] GT/EBW 算 法 的 重 要 性 在 于 它 的 单 调 收 敛 性 算 法 的 高 效 性 并 行 执 行 时 的 可 扩 展 性 以 及 用 于 大 规 模 最 优 化 问 题 时 的 的 解 析 解 的 参 数 更 新 公 式 GT 的 统 一 参 数 优 化 框 架 还 减 轻 了 对 其 它 经 验 设 置 的 需 求, 例 如, 在 其 它 方 法 中, 调 整 参 数 由 经 验 设 置 的 学 习 速 率 决 定 [29][52] 令 和 为 参 数 集 的 两 个 实 值 函 数, 且 分 母 上 那 个 的 函 数 为 正 值 基 于 GT 的 参 数 优 化 目 标 就 是 找 到 一 个 最 优 的 使 得 目 标 函 数 最 大, 而 这 个 目 标 函 数 是 一 个 如 下 表 示 的 有 理 函 数 : (26) 举 例 说 明, 可 以 成 为 式 (19),(22),(23) 和 (24) 所 示 的 有 理 函 数 中 的 一 个, 这 四 个 方 程 分 别 为 MMI,MCE 和 MPE/MWE 的 目 标 函 数, 或 者 为 广 义 有 理 函 数 式 (25) 对 于 广 义 情 况 下 的 式 (25), 我 们 有 : and (27) 其 中, 我 们 使 用 速 记 符 号 来 表 示 所 有 R 训 练 标 记 / 句 子 的 被 标 序 列, 并 用 来 表 示 对 所 有 R 训 练 标 记 的 观 测 数 据 序 列 首 要 辅 助 函 数 正 如 在 文 献 [18] 中 最 初 提 出 的, 对 于 目 标 函 数 式 (26), 基 于 GT 的 优 化 算 法 将 构 建 一 个 如 下 形 式 的 辅 助 函 数 : (28) 其 中 D 是 一 个 与 参 数 集 合 相 独 立 的 量, 通 过 将 GT 应 用 于 一 个 已 存 在 的 模 型 参 数 集 从 而 估 计 新 的 模 型 参 数 集 合 这 种 G T 算 法 开 始 于 ( 初 始 ) 参 数 集 合 ( 例 如, 利 用 最 大 似 然 度 (ML) 训 练 获 得 ) 然 后, 通 过 最 大 化 辅 助 函 数 F 该 算 法 将 参 数 集 合 从 更 新 为, 这 个 迭 代 过 程 止 于 达 到 收 敛 条 件 使 该 辅 助 函 数 最 大 化 通 常 能 比 使 原 始 有 理 函 数 的 最 大 化 更 为 可 行 基 于 GT 的 参 数 优 化 的 重 要 性 质 就 是, 只 要 D 是 与 参 数 集 无 关 的 量, 的 增 加 就 会 确 保 的 增 加 这 从 下 面 的 推 导 可 容 易 看 出 : 用 代 如 式 (28) 中, 可 得 : 因 此, 因 为 是 正 数, 所 以 在 左 边 时, 即 有 右 边 的 次 要 辅 助 函 数 直 接 优 化 的 时 候 依 旧 可 能 比 较 困 难, 因 此 一 种 次 要 辅 助 函 数 可 以 通 过 前 面 的 辅 助 函 数 进 行 构 造 和 优 化 如 文 献 [17] 提 到 的 那 样, 在 基 于 GT 的 参 数 估 计 中 次 要 辅 助 函 数 具 有 如 下 结 构 : (29) 是 一 个 由 离 散 变 量 构 建 的 正 值 函 数, 与 前 面 提 到 的 主 要 辅 助 函 数 相 关 (30) 通 过 将 Jensen 不 等 式 应 用 到 凸 的 对 数 函 数 中, 容 易 证 明 出 函 数 的 增 加 能 够 保 证 函 数 的 增 加 因 为 对 数 是 单 调 增 加 的 函 数, 所 以 这 意 味 着 函 数 的 增 加, 因 此 原 始 的 目 标 函 数 也 会 增 加 V. 基 于 GT 框 架 的 离 散 HMM 中 的 判 别 学 习 对 离 散 HMMs 中 的 基 于 GT-EBW 的 判 别 学 习 需 要 估 计 参 数 模 型, 包 括 状 态 转 移 概 率 和 发 射 概 率 我 们 推 导 出 参 数 优 化 公 式 能 够 使 式 (25) 及 其 中 覆 盖 的 MMI,MCE 和 MPE/MWE 的 判 别 目 标 函 数 产 生 增 长 判 别 函 数 很 难 直 接 优 化 尽 管 它 是 一 个 有 理 函 数 但 应 用 服 从 基 于 GT/EBW 的 参 数 估 计 框 架, 我 们 可 以 先 构 建 辅 助 函 数 F, 然 后 基 于 F 构 建 IEEE 信 号 处 理 杂 志 [45]
次 要 辅 助 函 数 V 我 们 将 会 阐 述 如 何 优 化, 导 出 三 种 判 别 准 则 MMI,MCE 和 MPE/MWE 的 参 数 估 计 公 式 只 要 目 标 函 数 能 用 式 (25) 中 的 有 理 函 数 形 式 表 示, 该 方 法 就 可 以 应 用 在 其 它 任 何 判 别 准 则 中 对 于 离 散 隐 马 尔 科 夫 模 型 (DHMM), 观 测 空 间 可 以 用 一 些 离 散 码 本 进 行 量 化 因 此, 是 所 有 训 练 标 记 的 串 联, 每 一 个 训 练 标 记 包 括 一 列 离 散 索 引, 这 些 指 针 通 过 把 第 r 个 标 记 的 观 测 时 间 序 列 映 射 到 每 个 离 散 索 引 序 列 的 元 素 得 到, 其 中,K 是 码 本 索 引 集 合 的 取 值 范 围, 是 索 引 组 成 部 分, 用 来 量 化 第 r 个 标 记 索 引 处 第 t 帧 的 观 测 数 据 是 一 个 独 立 于 的 常 数 尽 管 此 和 函 数 独 立 于, 为 了 补 偿 为 负 的 可 能 性, 每 一 项 的 是 相 关 的 下 面 进 行 详 细 叙 述 为 了 在 式 (32) 的 函 数 基 础 上 构 建 式 (29) 的 次 要 辅 助 函 数, 我 们 首 先 根 据 式 (30) 从 式 (32) 可 得 : 为 了 保 证 上 面 的 是 正 的, 应 该 选 一 个 充 分 大 的 值 这 样 才 能 保 证 式 (32) 中 的 然 后 根 据 式 (29), 我 们 可 以 得 出 : A. 构 造 首 要 辅 助 函 数 把 式 (27) 代 入 式 (28) 我 们 可 以 得 到 下 面 的 辅 助 函 数 (31) 这 里 q 是 一 个 隐 马 尔 科 夫 模 型 (HMM) 状 态 序 列, 是 所 有 R 训 练 标 记 的 超 级 标 记 序 列 ( 包 括 正 确 的 和 错 误 的 句 子 ) 上 面 的 辅 助 函 数 的 主 要 条 件 可 以 理 解 为 对 准 确 值 的 期 望 偏 差 B. 构 建 次 要 辅 助 函 数 因 为 取 决 于 语 言 模 型 且 与 优 化 不 相 关, 因 此, 我 们 可 以 得 到, 以 及 : (32) 这 里 (33) (34) 辅 助 函 数 (34) 比 函 数 (32) 更 容 易 优 化, 因 为 在 函 数 (34) 中 所 用 到 的 新 对 数 ( 函 数 (32) 中 就 没 有 用 到 ) 可 以 对 进 行 更 加 有 效 的 简 化, 我 们 接 下 来 会 进 行 描 述 C. 简 化 次 要 辅 助 函 数 首 先 我 们 先 不 管 函 数 (34) 中 所 用 到 的 独 立 优 化 的 常 数, 为 了 将 联 合 概 率 转 化 为 后 验 概 率, 用 另 外 一 个 独 立 优 化 值 来 分 割 我 们 可 以 得 到 一 个 等 价 的 辅 助 函 数 : D 是 一 个 独 立 于 参 数 集 的 值 在 式 (33) 中, 是 克 罗 内 克 尔 δ 函 数,χ 表 示 χ 所 属 的 整 个 离 散 数 据 空 间 采 用 文 献 [20] 的 思 想, 这 里 该 数 据 空 间 总 和 的 引 入 是 为 了 满 足 式 (28) 和 (32) 中 常 数 D 成 为 独 立 参 数 的 条 件 也 就 是 说, 在 (32) 中 : 这 里 (35) (36) [46] IEEE 信 号 处 理 杂 志
因 为 X 仅 仅 取 决 于 隐 马 尔 科 夫 模 型 (HMM) 的 状 态 序 列 q, 因 此 我 们 有 进 而 可 以 进 一 步 被 分 解 为 以 下 四 个 部 分 : 这 里 两 边 均 乘 以 为 了 求 解, 我 们 定 义 : (40) (41) 这 里 我 们 可 以 得 到 重 估 公 式 : (37) 在 这 里, 集 合 了 所 有 R 独 立 句 子 标 记 的 训 练 数 据 对 于 每 一 个 标 记 观 测 向 量 是 相 互 独 立 的, 且 它 只 取 决 于 隐 马 尔 科 夫 模 型 (HMM) 在 时 间 T 时 的 状 态 因 此, 是 可 以 被 分 解 的, 从 而 能 对 式 (37) 中 的 第 一 项 和 第 二 项 进 行 简 化 为 了 简 化 (37) 中 的 第 三 项 和 第 四 项, 我 们 根 据 的 一 阶 隐 马 尔 科 夫 模 型 HMM 的 特 性 时 间 t 时 的 状 态 仅 依 赖 于 时 间 t-1 时 的 状 态, 从 而 对 进 行 分 解 我 们 可 以 得 到 分 解 和 优 化 后 的 目 标 函 数 : 现 在 我 们 定 义 : 可 得 : (42) (43) (44) (38) 这 里 表 示 式 (37) 中 第 一 项 和 第 二 项 的 和, 它 只 是 和 发 射 概 率 的 优 化 有 关, 市 第 三 项 和 第 四 项 的 和, 仅 和 来 优 化 转 移 概 率 相 关 D. 辅 助 函 数 优 化 中 的 增 长 转 型 估 计 为 了 优 化 在 限 制 条 件 1 下 的 转 移 概 率, 我 们 使 用 拉 格 朗 日 乘 法 构 建 下 面 的 函 数 : (45) 参 量 重 估 公 式 (42) 和 (45) 是 MMI,MCE 和 MPE/MWE 的 统 一 重 估 公 式 对 此 统 一 的 重 估 公 式,MMI,MCE 和 MPE/MWE 最 主 要 的 不 同 就 在 于, 式 (41) 中 和 式 (44) 中 的 权 重 项 导 致 的 约 束 C(s) 不 同 计 算 具 体 的 MMI,MCE 和 MPE/MWE 计 算 的 细 节 详 见 附 件 I 和 文 献 [24] 设 置 值 为 0 和 得 到 如 下 K+1 个 等 式 : (39) E. 设 置 常 量 D i 式 (43) 中 常 量 D i 和 式 (60) 中 值 决 定 了 上 述 GT/ EBW 算 法 的 稳 定 性 和 收 敛 速 度 设 置 的 理 论 基 础 是 需 要 式 (32) 中 描 述 的 式 (58)d(s) 足 够 大, 从 而 使 从 式 (33) 中 可 得 : IEEE 信 号 处 理 杂 志 [47]
因 此, 给 出 : 相 应 地, 类 似 的, 我 们 可 以 推 导 出 : (46) 这 里, (50) (51) (47) 实 际 上, 式 (56) 和 (60) 中 给 出 的 Di 和 过 于 保 守 且 值 过 大, 这 会 导 致 比 以 前 的 经 验 方 法 更 慢 的 收 敛 速 度 在 这 篇 回 顾 中 我 们 不 会 讨 论 这 类 具 体 的 启 示, 但 仍 指 出 这 依 然 是 一 个 感 兴 趣 的 研 究 问 题, 且 会 向 读 者 推 荐 这 类 研 究 或 者 讨 论, 见 文 献 [18],[41],[42],[47],[54],[59] 和 [61] VI. 对 连 续 密 度 HMMs 下 的 区 别 性 学 习 对 连 续 密 度 HMMs (CDHMMs) 来 说, 观 测 空 间 并 没 有 被 量 化 由 于 这 个 原 因, 是 所 有 训 练 标 记 的 串 联, 每 一 个 训 练 标 记 包 括 一 系 列 的 连 续 随 机 变 量 我 们 将 公 式 (25) 应 用 于 CDHMMS 的 判 别 学 习 中 特 别 地, 在 之 前 的 等 式 (29) 和 (30) 中 χ. 是 一 个 连 续 变 量, 因 此 χ. 域 内 的 总 和 均 被 改 为 χ. 域 的 积 分, 这 样 (48) 式 (52) 中 的 是 Dirac 函 数 (52) 在 经 过 与 前 面 部 分 类 似 的 推 导 后, 式 (45) 中 的 转 移 概 率 估 计 公 式 同 样 存 在 于 离 散 隐 马 尔 科 夫 模 型 HMM 中 A. 基 于 GT 的 参 数 估 计 在 高 斯 密 度 CDHMM 中 的 应 用 我 们 首 先 推 导 CDHMM 中 的 具 有 高 斯 分 布 的 GT 参 数 估 计 公 式, 然 后 再 将 其 推 广 到 后 面 混 合 高 斯 分 布 的 情 况 对 于 高 斯 分 布 的 CDHMM, 观 测 概 率 密 度 函 数 以 如 下 形 式 为 高 斯 分 布 : 这 里 向 量 和 协 方 差 矩 阵 (53) 是 状 态 i 时 高 斯 分 布 的 平 均 为 了 求 出 和, 我 们 设 定 : 这 里 积 分 函 数 被 定 义 为 : (49) 通 过 求 解 和 给 出 GT 的 公 式, 其 中 如 式 (41) 中 定 义, 如 (40) 中 定 义 (54) (55) [48] IEEE 信 号 处 理 杂 志
正 如 在 离 散 隐 马 尔 可 夫 模 型 的 例 子 中 那 样, 式 (54) 和 (55) 是 基 于 式 (25) 中 广 义 判 别 目 标 函 数 的 形 式, 其 中 涵 盖 MMI,MCE 和 MPE/MWE 等 特 例 这 致 使 统 一 的 基 于 GT 参 数 估 值 的 MMI,MCE 和 MPE/ MWE 方 程 与 其 它 任 何 判 别 目 标 函 数 一 样, 都 可 以 映 射 为 式 (25) 的 有 理 函 数 形 式 此 外, 式 (54) 和 (55) 中 的 定 义 为 与 离 散 隐 马 尔 科 夫 模 型 例 子 中 式 (41) 相 同, 对 于 MMI,MCE 和 MPE/MWE, 唯 一 的 区 别 就 是, 而 这 将 在 附 件 和 文 献 [24] 中 做 进 一 步 说 明 B. CDHMM 中 常 量 D i 的 设 置 根 据 Jensen 不 等 式, 设 定 一 个 适 合 的 常 量 来 确 保 式 (54) 和 (55) 为 增 长 转 型 的 理 论 基 础 是 式 (32) 指 出 的 要 求, 即 式 (58) 中 的 需 要 足 够 大 以 确 保 对 于 任 何 字 串 和 任 何 观 测 序 列, 满 足 其 中 在 式 (33) 中 定 义 但 是,CDHMM 中 的 是 狄 拉 克 (Dirac) 三 角 函 数, 它 的 分 布 满 足 中 心 点 时 具 有 密 度 函 数 的 极 大 值, 也 就 是 说, 当 时 所 以, 对 于 字 串, 使 在 这 种 条 件 下, 要 找 到 一 个 边 界 来 满 足 是 不 可 能 的, 所 以 不 能 采 用 Jensen 不 等 式 请 注 意, 这 个 问 题 不 会 出 现 在 离 散 隐 马 尔 科 夫 模 型 中, 因 为 那 时 是 Kronecker 函 数, 只 能 取 有 限 值 0 或 1 如 果 能 证 明 出 存 在 足 够 大 且 有 界 的 常 量 D 使 式 (48) 中 的 可 能 由 式 (51) 定 义 为 积 分 形 式, 那 就 仍 是 有 效 得 辅 助 函 数 ; 也 就 是 说 值 的 增 加 能 够 保 证 值 的 增 加, 那 么 上 面 提 到 的 CDHMMs 难 题 就 可 以 克 服, 且 可 以 继 续 采 用 同 样 的 推 导 方 式 关 于 CDHMMs 中 基 于 GT 的 MMI 训 练 近 年 来 由 文 献 [2] 发 展 和 研 究, 它 同 时 也 支 持 本 文 的 广 义 有 理 函 数 判 别 训 练 准 则 因 此 有 界 的 边 界 是 存 在 的 ( 技 术 细 节 见 文 献 [24]) 尽 管 一 个 足 够 大 的 值 能 确 保 GT 迭 代 估 计 公 式 的 单 调 收 敛 性, 也 就 是 说, 对 于 离 散 HMM 采 用 式 (42) 和 (45), 对 于 CDHMM 采 用 式 (54) 和 (55), 通 过 单 调 收 敛 性 证 明 得 到 的 值 是 一 个 宽 松 的 不 确 定 上 限, 对 合 理 收 敛 速 度 而 言 它 可 能 过 大 事 实 上, 我 们 通 常 经 验 地 设 置 值 从 而 得 到 折 衷 的 训 练 性 能 更 多 探 讨 和 对 比 详 见 文 献 [23][41][42][45][46][47][54][59][60][61] [66] VII. 相 关 工 作 和 讨 论 A. 与 其 它 方 法 的 关 系 在 最 近 的 文 献 [35] 和 [54] 中 提 出 一 种 能 够 统 一 多 种 判 别 学 习 的 方 法, 包 括 MMI,MCE 和 MPE/MWE,( 早 些 的 文 章 [54] 中 未 包 括 MPE/MWE) 文 献 [35],[54] 探 讨 了 MMI,MCE 和 MPE/MWE 准 则 中 目 标 函 数 的 异 同 点 本 文 提 出 的 框 架 需 要 一 个 额 外 步 骤 来 统 一 这 些 准 则 为 正 则 有 理 函 数 形 式 (25), 基 于 GT 的 判 别 学 习 应 用 于 该 有 理 函 数 中, 包 括 作 为 特 例 的 MMI,MCE 和 MPE/MWE 标 准 这 从 两 个 方 面 来 看 都 是 重 要 的 : 首 先, 在 基 于 统 一 有 理 函 数 形 式 (25) 的 目 标 函 数 中, 提 供 了 对 MMI,MCE 和 MPE/MWE 准 则 之 间 本 质 关 系 的 更 准 确 和 更 直 接 的 见 解 其 次, 使 一 个 统 一 的 基 于 GT 的 参 数 优 化 框 架 能 应 用 于 MMI,MCE 和 MPE/MWE 和 其 他 判 别 标 准 中 去 在 文 献 [35] 中 提 到 的 框 架 是 基 于 下 面 的 目 标 函 数 形 式 ( 用 本 文 中 的 数 学 符 号 重 写 了 上 述 公 式, 以 利 于 比 较 ): 其 中 (56) 与 表 1 取 值 相 同 式 (56) 中 平 滑 函 数 f(z), 竞 争 词 序 列 和 的 权 值 的 选 择 是 由 表 2 提 供, 专 为 不 同 类 型 DT 准 则 而 建 立 在 表 2 中 q 是 平 滑 函 数 的 斜 率 方 程 (56) 表 明 不 同 的 判 别 准 则 具 有 一 个 相 似 的 核 函 数 形 式, 且 因 依 赖 准 则 且 能 调 整 核 的 平 滑 函 数 f(z) 而 所 有 不 同, 其 中 目 标 函 数 是 平 滑 函 数 的 和 方 程 (56) 是 对 MMI,MCE,MPE/MWE 目 标 函 数 的 一 般 性 描 述 然 而 由 于 非 线 性 函 数 f(z) 的 存 在, 它 并 不 是 有 理 函 IEEE 信 号 处 理 杂 志 [49]
数 ( 定 义 为 两 个 多 项 式 函 数 的 比 ) 的 一 般 形 式 对 于 这 些 准 则 间 求 和 与 乘 积 之 间 最 大 的 区 别 没 有 明 确 提 出 在 本 文 提 出 的 方 法 中, 我 们 直 接 提 出 了 该 问 题, 并 揭 示 了 MMI,MCE 和 MPE/MWE 准 则 的 目 标 函 数 具 有 一 个 确 定 的 有 理 函 数 形 式 (25), 且 对 于 每 个 判 别 标 准, 目 标 函 数 只 会 因 独 立 于 模 型 的 量 值 而 出 现 不 同 表 二 CHOICES OF THE SMOOTHING FUNCTION f(z), ALTER- NATIVE WORD SEQUENCES M r, AND EXPONENT WEIGHT h IN (56) FOR VARIOUS TYPES OF DT CRITERIA. THIS IS MODI- FIED FROM THE ORIGINAL TABLE IN [54]. 准 则 光 滑 函 数 f(z) 词 序 选 择 M R η MCE (N-BEST) $1 MCE (ONE-BEST) N/A MPE/MWE ALL POSSIBLE LABEL 1 SEQUENCE MMI ALL POSSIBLE LABEL SEQUENCE 1 如 表 2 所 示, 由 于 f(z) 对 MPE/MWE 和 MCE 准 则 而 言 是 一 个 非 线 性 函 数, 原 始 GT 的 解 [18] 是 并 不 能 直 接 应 用 于 MPE/MWE 和 MCE 准 则 的 目 标 函 数 的 ( 因 为 当 f(z) 为 非 线 性 时 试 (56) 不 满 足 GT 的 要 求 ) 为 了 避 开 该 难 题, 文 献 [30] 进 行 了 研 究 在 [30] 中, 原 始 目 标 函 数 是 逼 近 一 个 泰 勒 级 数 的 展 开 式 然 后 通 过 和 文 献 [18] 中 相 似 的 方 法, 基 于 GT 的 参 数 优 化 可 以 被 用 于 泰 勒 级 数 展 开 的 部 分 和, 它 是 一 个 有 限 级 数 的 多 项 式 这 形 成 了 早 期 的 基 于 GT 的 MCE 和 MPE/MWE 理 论 基 础 [35][54] 然 而, 部 分 和 的 正 值 增 长 是 依 赖 于 部 分 和 级 数 的 ( 在 文 献 [18] 中 可 见 关 于 这 点 更 多 讨 论 ), 而 且 当 等 级 接 近 无 限 大 时 它 将 消 失 它 甚 至 消 失 的 比 泰 勒 级 数 逼 近 的 误 差 还 快 因 此 它 并 没 有 明 确 表 明 重 估 公 式 能 确 保 目 标 函 数 值 以 迭 代 方 式 增 长 相 反 地, 本 文 中 描 述 的 统 一 有 理 函 数 方 法 与 文 献 [35] 和 [54] 所 做 的 工 作 不 一 样 它 不 依 赖 于 泰 勒 级 数 逼 近, 且 表 明 了 MMI,MCE 和 MPE/MWE 准 则 的 目 标 函 数 具 有 一 个 明 确 的 广 义 有 理 函 数 形 式 (25) 因 此 基 于 GT 的 参 数 优 化 框 架 能 以 一 种 建 设 性 的 方 法 直 接 应 用 于 式 (25) 在 本 文 中 采 取 的 方 法 是 在 文 献 [2] 和 [20] 工 作 基 础 上 所 做, 比 文 献 [3] 和 [18] 的 工 作 更 前 进 一 步 此 外, 本 文 提 出 的 统 一 的 判 别 目 标 函 数 为 将 基 于 有 理 函 数 的 优 化 方 法 ( 比 如, 基 于 反 向 Jensen 不 等 式 的 方 法 [26]) 应 用 于 MMI,MCE 和 MPE/MWE 分 类 器 设 计 中 开 辟 了 一 条 新 路 通 过 采 用 有 理 函 数 的 结 构, 我 们 期 望 在 本 文 中 出 现 的 参 数 优 化 步 骤 里 期 望 的 算 法 性 能 都 能 够 被 确 定 和 证 明 B. 与 梯 度 优 化 的 关 系 GT/EBW 方 法 和 基 于 梯 度 优 化 的 方 法 之 间 的 关 系 在 一 些 文 献 ( 如 [2],[53],[54]) 中 已 经 有 所 研 究 除 了 收 敛 性 方 面 的 主 要 区 别, 基 于 GT/EBW 的 更 新 公 式 (54) 的 学 习 速 度 和 二 次 牛 顿 修 正 有 一 定 可 比 性 ; 也 就 是 说, 它 可 以 用 步 长 的 梯 度 上 升 来 表 示, 逼 近 反 向 Hessian 算 子 H 的 目 标 函 数 在 CDHMM 情 况 下, 对 于 目 标 函 数 的 式 (25) 形 式, 我 们 以 平 均 向 量 的 估 算 作 为 例 子 的 梯 度 能 表 达 如 下 : (57) 另 一 方 面, 我 们 可 以 将 GT 公 式 (54) 重 写 成 以 下 等 式 形 式 : (58) 考 虑 到 二 次 牛 顿 修 正, 在 降 低 和 的 相 关 性 后, 对 于,Hessian 算 子 可 由 以 下 方 程 近 似 : 因 此, 式 (54) 中 GT 的 更 新 公 式 可 以 进 一 步 写 成 (59) [50] IEEE 信 号 处 理 杂 志
它 逼 近 二 次 牛 顿 修 正, 通 常 比 基 于 梯 度 的 简 单 搜 索 学 习 速 度 快 其 它 的 普 遍 且 有 效 的 基 于 梯 度 的 优 化 判 别 训 练 准 则 的 方 法 可 参 见 文 献 [15][21][31][37][38][42][51][52][54] 参 数 估 计 的 算 法 收 敛 性 对 于 利 用 判 别 训 练 准 则 设 计 的 分 类 器 而 言 是 个 重 要 问 题 寻 找 分 类 器 设 计 中 更 好 的 判 别 标 准 和 优 化 方 法 仍 然 是 一 片 非 常 活 跃 且 具 有 生 命 力 的 研 究 领 域 我 们 希 望 在 本 文 中 基 于 有 理 函 数 表 示 的 目 标 函 数 综 述 能 够 提 供 其 它 的 构 造 公 式, 并 能 够 调 动 研 究 新 学 习 算 法 发 展 的 积 极 性, 从 而 提 高 序 列 模 式 分 类 器 和 识 别 器 的 判 别 能 力 VIII. 总 结 在 这 篇 文 章 中, 我 们 研 究 了 序 列 模 式 识 别 中 关 于 MMI,MCE,MPE/MWE 目 标 函 数 的 判 别 学 习 方 法 我 们 提 出 了 一 种 能 将 MMI,MCE 和 MPE/MWE 目 标 函 数 统 一 为 普 通 有 理 函 数 形 式 (25) 的 方 法 对 现 有 每 种 判 别 准 则 构 造 的 有 理 函 数 结 构 分 别 进 行 了 推 导 和 研 究 过 去 就 已 经 知 道 MMI 的 有 理 函 数 形 式, 因 此 本 文 着 重 为 MCE 和 MPE/MWE 目 标 函 数 存 在 类 似 的 有 理 函 数 形 式 提 供 了 理 论 依 据 另 外, 我 们 给 出 了 MMI,MCE 和 MPE/MWE 目 标 函 数 的 有 理 函 数 形 式 由 于 常 量 权 值 因 子 而 不 同, 且 这 些 权 值 因 子 只 与 标 记 序 列 有 关, 与 被 优 化 的 参 数 集 合 不 相 关 为 MMI,MCE 和 MPE/MWE 推 导 出 的 有 理 函 数 形 式 允 许 基 于 GT/EBW 的 参 数 优 化 框 架 直 接 应 用 于 判 别 学 习 中 在 过 去, 缺 乏 合 适 的 有 理 函 数 形 式 对 于 MCE 和 MPE/MWE 是 一 个 难 题, 因 为 如 果 没 有 这 个 形 式, 基 于 GT/EBW 的 参 数 优 化 框 架 就 不 能 直 接 被 应 用 在 指 导 性 风 格 中, 我 们 为 判 别 学 习 中 使 用 MMI,MCE 和 MPE/MWE 准 则 而 对 离 散 HMMs 和 CDHMMs 分 别 推 导 出 基 于 GT/EBW 的 参 数 优 化 公 式 本 文 的 整 体 性 综 述 有 大 量 被 引 用 和 研 讨 的 早 期 文 献 贯 穿 全 文 这 里 我 们 提 供 一 个 关 于 背 景 工 作 的 简 要 总 结 GT 技 术 最 早 出 现 在 文 献 [3] 和 [4] 中, 用 于 离 散 HMMs 的 ML 估 计, 在 文 献 [18] 中 得 到 扩 展 以 用 来 解 决 HMMs 的 MMI 估 计 问 题 论 文 [41] 将 文 献 [18] 中 的 研 究 工 作 从 离 散 HMMS 扩 展 到 在 小 规 模 语 音 识 别 任 务 中 的 连 续 高 斯 分 布 CDHMMs 在 文 献 [59] 和 [60] 中 扩 展 到 大 规 模 语 音 识 别 任 务 的 实 现 论 文 [47] 进 一 步 将 MMI 准 则 提 高 至 MPE/MWE 准 则 同 时, 文 献 [20] 中 的 研 究 工 作 为 论 文 [41] 的 实 现 提 供 了 一 个 可 选 方 案, 尝 试 提 供 更 严 格 的 MMI 目 标 函 数 正 增 长 的 CDHMM 模 型 重 估 公 式 此 尝 试 的 一 个 关 键 错 误 被 文 献 [2] 纠 正, 因 而 得 以 建 立 该 正 增 长 存 在 的 依 据 在 判 别 学 习 发 展 的 另 一 条 道 路 上,MCE 的 最 初 形 式 出 现 在 文 献 [1] 中, 而 在 文 献 [28] 和 [29] 中 得 到 充 分 发 展, 展 示 了 它 如 何 被 应 用 于 语 音 识 别 文 献 [22] 和 [23] 中 的 工 作 进 一 步 表 明, 将 使 用 文 献 [20] 中 的 公 式 取 代 文 献 [41] 中 的 公 式, 那 么 GT 也 能 够 应 用 于 MCE 最 近, 文 献 [37] 和 [38] 中 的 研 究 工 作 证 明 了 MCE 能 应 用 于 大 规 模 语 音 识 别 再 近 些, 文 献 [52] 验 证 了 非 序 列 的 梯 度 方 法 也 能 被 成 功 地 应 用 于 CDHMMs 中 的 MCE 学 习 上 再 近 一 些, 文 献 [35],[53] 和 [54] 中 的 研 究 工 作 表 明 MPE,MCE 和 MMI 是 因 目 标 函 数 的 普 遍 非 有 理 函 数 描 述 而 关 联 最 后, 在 本 文 中, 我 们 阐 述 了 所 有 MMI,MCE 和 MPE/MWE 都 能 严 格 地 化 为 一 个 满 足 严 格 GT 类 优 化 的 有 理 函 数 公 式 这 篇 文 章 是 由 近 来 语 音 识 别 领 域 基 于 MMI,MCE 和 MPE/MWE 判 别 准 则 的 斐 然 成 绩 所 感 而 发 在 过 去, 尽 管 MMI( 诞 生 于 1983 年, 见 文 献 [39]),MCE ( 诞 生 于 1967 年, 见 文 献 [1]),MPE/MWE ( 诞 生 于 2002 年, 见 文 献 [45]) 具 有 相 对 较 长 的 发 展 史, 但 缺 乏 对 这 些 技 术 间 相 互 关 系 的 共 同 理 解 由 于 这 些 技 术 的 复 杂 性 和 共 同 的 根 本 的 理 论 主 题 和 结 构 的 缺 失, 各 种 判 别 学 习 发 展 各 不 相 同, 且 参 数 优 化 也 变 成 一 个 重 要 课 题 这 篇 文 章 的 主 要 目 标 是 在 目 标 函 数 级 别 上 为 MMI,MCE 和 MPE/MWE 提 供 根 本 基 础 支 撑, 使 新 的 参 数 优 化 技 术 得 以 发 展, 引 入 其 它 的 模 式 识 别 概 念, 比 如 判 别 边 界 [66] 的 概 念, 到 当 前 的 判 别 学 习 范 例 中 IEEE 信 号 处 理 杂 志 [51]
附 录 : 计 算 GT 公 式 中 的 在 (41) 中, 直 接 计 算 非 常 复 杂, 需 要 进 一 步 简 化 以 下, 我 们 设 定, 及. 于 是, 由 (41), 可 得 : B. 对 求 和 形 式 的 C(s) (MCE 和 MPE/MWE) 对 MCE 和 MPE/MWE,, 或 者 于 是 (62) (60) 对 MCE, 上 述 公 试 可 简 化 为 : 下 面 针 对 MMI 和 MCE/MPE/MWE 讲 述 具 体 方 法 A. 对 乘 积 形 式 的 C(s) ( 如 MMI) 对 MMI, 为 乘 积 形 式, 于 是 (63) 类 似 的, 当 用 识 别 字 网 格 (lattice) 时, 图 二 演 示 了 一 个 高 效 的 算 法 具 体 方 法 见 文 献 [24] (61) 当 用 识 别 字 网 格 (lattice) 时, 图 一 演 示 了 一 个 高 效 的 算 法 具 体 方 法 见 文 献 [24] {p : p precedes q} {v : v succeeds q}........................ q p(x r (q) q,λ ) P(v q,λ )...... P(q p,λ ) p(x r (v) v,λ )...... (p) (q), (q) (v)............ 1 X (q) r b q 1 b q X r (q) e q e q +1 X r (q) T 1................... (p) (p) p........................... X r (q) {p : p precedes q} (q) P(q p,λ ) C(q) q p(x r (q) q,λ ) b q X r (q) e q....................... X r (q)t [FIG2] Illustrations of the sub-lattice containing arc q and of the recursive (q) computation based on the sub-lattice. Each solid line represents an arc in the sub-lattice, and each dashed line represents the transition between two arcs. The dotted line encircles all partial paths that pass p and end with q. [FIG1] Illustrations of the sub-lattice that contains arc q and of the computation of the forward and backward (q) and (q) based on the sub-lattice. Each solid line represents an arc in the lattice, and each dashed line represents the direct connection between two arcs (i.e., b q 1 5 e p ). [52] IEEE 信 号 处 理 杂 志
Can new telemedicine standards keep us healthier longer? Find the latest research in IEEE Xplore Wherever you fi nd people developing the most advanced technology, chances are you ll fi nd them using the IEEE Xplore digital library. That s because IEEE Xplore is fi lled with the latest research on everything from wireless technology and solid-state circuits to telemedicine standards that can help us get more out of life. When it comes to technology, the research that matters is in IEEE Xplore. See for yourself. Read Evaluation of Security and Privacy Issues in Integrated Mobile Telemedical System, only in IEEE Xplore. Try IEEE Xplore free visit www.ieee.org/livehealthier IEEE Xplore Digital Library Information driving innovation 09-CRS-0283a-Standards-7x10-Final-2010.indd 1 11/23/09 2:55:28 PM
MATLAB 标 的 数 器, MATLAB 的 备 MATLAB 的 数, 整 分 析 化 的 所 持 的, : www.mathworks.cn/connect 2010 The MathWorks, Inc. MATLAB The MathWorks 的 商 标 其 或 者 商 标 其 各 所 有 者 的 商 标 或 者 商 标