2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临



Similar documents
, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

Microsoft Word - 33-p skyd8.doc

Microsoft Word 定版

第 9 卷 江 南 大 学 学 报 人 文 社 会 科 学 版 Z 第 2 期 掌握 是指在 表 层 知 识 教 学 过 程 中 学 生 对 表 层 知 识 的 掌 想 方法有所悟 有所体会 5 数学思想 方法教学是循环往 握 学生掌握 了 一 定 量 的 数 学 表 层 知 识 是 学 生 能 够

然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

3 : 505.,,,,,,,,,, 21 [1,2 ] , 21,, 21,, : [3 ]. 1. 3,, 10, 2 ( ),,, ; ; 40, [4 ]. 46, : (1),, (2) 16,,,,, (3) 17, (4) 18,, (5) 19,, (6) 20

56 包 装 工 程 1.2 眼 动 跟 踪 技 术 介 入 APP 图 形 用 户 界 面 可 用 性 评 估 眼 动 仪 是 基 于 眼 动 轨 迹 跟 踪 的 装 置, 用 于 测 量 眼 睛 的 位 置 和 眼 球 运 动 眼 动 仪 是 用 于 人 类 视 觉 系 统 心 理 学 认 知

《中文信息学报》投稿模版

word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

体 育 科 学 2015 年 ( 第 35 卷 ) 第 6 期 的 分 析, 提 供 反 映 体 育 志 愿 服 务 组 织 综 合 能 力 结 构 的 一 种 认 识 框 架 和 各 层 次 能 力 重 要 程 度 的 结 果, 为 人 们 进 一 步 深 入 探 讨 此 问 题 和 完 善 评

~ ~ ~ ~ ~ ~ ~ % % ~ 20% 50% ~ 60%

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

Microsoft Word - 鄂卫规[2012]3号.doc


标题

办函[2004]号

Microsoft Word - A _ doc

1.第二卷第二期p1

~ Capability Maturity Model Integration, CMMI CMMI

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

复 变 函 数 与 积 分 变 换 常 微 分 方 程 数 值 分 析 数 值 分 析 课 程 实 习 微 分 方 程 数 值

<4D F736F F D20D2D F52CEAABBF9D7BCB5C4C6B1BEDDB6A8BCDBC0EDC2DBD7DBCAF6>

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

第 1 期 常 壮 等 : 基 于 RS-485 总 线 的 舰 船 损 管 训 练 平 台 控 系 统 研 究 87 能 : 1) 损 管 基 本 理 论 的 学 习 帮 助 舰 员 熟 悉 舰 艇 舱 室 相 关 规 章 制 度 损 管 施 分 布 和 使 用 不 沉 性 文 件 等 ) 损 管

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

Microsoft Word - 19王建华.doc

Microsoft Word _4_doc doc

彩色地图中道路的识别和提取

1 引言

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

标题


Microsoft Word - 贺小凤,王国胜.doc

标题

本研究主要关注的是中国内地东北地区一个省会城市中的中低收入社区内居民使用手机的情况,廓清手机这种信息沟通技术对于社区居民的影响

第 37 卷 第 5 期 自 然 论 坛 亿, 相 当 于 总 人 口 的 1/4; 到 2050 年, 比 重 将 达 到 1/3, 相 当 于 三 个 人 中 就 有 一 个 老 年 人 2013 年 上 海 市 60 岁 及 以 上 老 年 人 口 为 万 人, 占 总 人 口

涓浗鏂囧寲

44 深 圳 信 息 职 业 技 术 学 院 学 报 第 10 卷 业 实 际 进 出 口 单 证 样 本 的 演 示 与 讲 解, 导 致 学 生 在 学 校 看 到 的 都 是 过 时 的 单 据 演 练 的 陈 旧 的 工 作 流 程, 走 上 工 作 岗 位 后, 一 旦 遇 到 实 际 问

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

标题

穨423.PDF

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

~ ~ ~

2011年上海市高校精品课程申报表(本科)

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

Microsoft Word - xb 陈亚辉

第二部分

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~

untitled

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

附表2:

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

交流活动

Microsoft Word - chnInfoPaper6

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

(1) ( 1965 ),, 1952 [9] 2.1 (2) 1 53 (E i ), 2 (P i ) (G E (G P, 31 (Q i ) 3, : G E (x,y)= (E i Q(x i, y i )) E i G P (x,y)=

Microsoft Word - 31空中大學校稿檔.doc

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

3期

西部人居环境学刊2016年第1期.indd

Microsoft Word - 专论综述1.doc

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

作 之 重 要 据 点 在 教 学 与 实 务 发 展 方 面, 强 调 传 统 法 学 领 域 的 深 化 发 展, 规 划 开 设 新 兴 科 技 相 关 法 律 课 程, 如 智 能 财 产 权 电 子 商 务 生 物 科 技 网 络 科 技 医 疗 等 相 关 法 律 ; 建 立 与 法 律

中国科技论文在线中文稿件模板


具有多个输入 特别是多个输出的 部门 或 单位 ( 称为 决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型 也是 DEA 的基础 和重要模型 假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m

标题

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

.. (,, ),(): ( (,,, (, (,,, (), ( ): (, ), ( ): (,,, (,,, (,,, ),( ): (,,, (, (,,, (,, (, ),(): ~ (, ~ (,, ~ (, ~ (,,, ), ( ), ( ): ( (,, ~ (,, ), ~ (

Microsoft Word tb 谢涛.doc

经 济 与 管 理 耿 庆 峰 : 我 国 创 业 板 市 场 与 中 小 板 市 场 动 态 相 关 性 实 证 研 究 基 于 方 法 比 较 视 角 87 Copula 模 型 均 能 较 好 地 刻 画 金 融 市 场 间 的 动 态 关 系, 但 Copula 模 型 效 果 要 好 于

荨荨 % [3] [4] 86%( [6] 27 ) Excel [7] 27 [8] 2 [9] K2 [2] ; Google group+ 5 Gmail [2] 2 fxljwcy 3E [22] 2 2 fxljzrh 2D [23] 3 2 fxzphjf 3D 35

标题

專 用 或 主 要 用 於 第 8525 至 8528 節 所 屬 器 具 之 零 件 用 於 衣 服 靴 鞋 帳 蓬 手 提 包 旅 行 用 品 或 其 他 已 製 作 品 之 卑 金 屬 搭 鈕 帶 搭 鈕 之 框 架 帶 扣 帶 扣 搭 鈕 眼 環 眼 及 其

中国药师 年第 卷第 期 C P m V N 左金丸源自元代 丹溪心法 的火方 由黄连和 型在线脱气机 S L A型自动进样器 CTO A型 吴茱萸两味药按照 的比例组成 近年来的现 柱温箱 日本 S m 公司 BPD型电子天平 代药理学研究表明 左金丸具有调节中枢 抑杀幽门 德国赛多利斯集团 BR

. 1 4 Web PAD

一 区域法治发展的本体论研究 在一个理论体系中,本体论居于逻辑起点的地位,它所要探究的是一定的社会现象赖以存在的 根基 区域法治发展的本体研究亦不例外,它涵盖了区域法治的概念内涵 必要性与可行性 合法性 与合理性 区域法治发展的各种基础 发展模式( 道路) 发展动力( 机制) 等根本性的理论问题,构

Microsoft Word 年第三期09

<4D F736F F D20C4A3B0E520D3A2D3EFBFDAD3EFBBFABFBCD6D0D3A2D3EFC8FBD2F4D3EFD2F4CAB6B1F0B5C4B8C4BDF8D0CDB7BDB7A8D1D0BEBF2E646F63>

Microsoft Word - 1--《材料力学基本训练》-2011(中学时内部使用版)---第1章 绪 论.doc

Ph m V N 中国药师 年第 卷第 期 Ch 学基础首先是开放性药物可直接经口 鼻给予 其次是应 连整个产品设计紧凑携带使用方便此外减速网也被认为 答性它富含的感受器和药物受体能对体内外刺激作出应答 是可用于降低药物微粒速度从而减少其惯性嵌顿的一种结 反射从而对调节气道的张力有重要作用 第三是吸

标题

untitled

关于在招募说明书和公开说明书中

期 李 海 青 等 : 生 物 安 全 性 白 藜 芦 醇 合 成 酶 表 达 载 体 的 构 建 及 水 稻 遗 传 转 化 子 植 物 中 作 为 植 物 处 于 恶 劣 环 境 下 或 遭 到 病 原 体 侵 害 时, 植 物 自 身 分 泌 的 一 种 可 抵 御 病 菌 感 染 的 抗 菌

P.2 6:45 7:00 pm 7:00 7:10 pm 7:10 7:30 pm 7:30 8:00 pm 8:00 8:30 pm P.3 P.4 P.6 P.7 P.10 P.10 P.11 P.12 P.13 P.14 P.15 P.16 P.17 P.24 P.25 P.26 P.27

29期xx(copy)

Transcription:

计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 1 面 向 电 子 病 历 中 文 医 学 信 息 的 可 视 组 织 方 法 徐 天 明 1,2, 樊 银 亭 3, 马 翠 霞 1, 滕 东 兴 1 ( 中 国 科 学 院 软 件 研 究 所 人 机 交 互 技 术 与 智 能 信 息 处 理 实 验 室, 北 京 100190) 2 ( 中 国 科 学 院 大 学, 北 京 100190) 3 ( 中 原 工 学 院 计 算 机 学 院, 郑 州 450007) 1 摘 要 : 针 对 当 前 大 量 电 子 病 历 信 息 无 法 充 分 利 用 的 问 题, 研 究 了 面 向 电 子 病 历 中 文 医 学 信 息 的 主 题 建 模 及 可 视 组 织 方 法. 首 先 基 于 电 子 病 历 数 据 和 医 疗 问 答 数 据, 进 行 预 处 理 并 转 换 为 纯 文 本 语 料, 然 后 采 用 基 于 Mallet 的 LDA 主 题 模 型 训 练 算 法 进 行 主 题 建 模, 并 结 合 主 题 模 型 分 析 的 需 求 进 行 可 视 组 织 与 呈 现, 最 后 构 建 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统. 实 例 验 证 表 明 该 系 统 可 以 有 效 的 辅 助 用 户 进 行 主 题 模 型 的 构 建 与 分 析, 并 有 利 于 进 一 步 的 诊 断. 关 键 词 : 电 子 病 历 ; 可 视 分 析 ; 主 题 模 型 ; 信 息 组 织 ; 人 机 交 互 Visual Organization Method for Chinese Medical Information XU Tian-Ming 1,2, FAN Yin-Ting 3, MA Cui-Xia 1, TENG Dong-Xing 1 1 (Intelligence Engineering Lab, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China) 2 (University of Chinese Academy of Sciences, Beijing 100190, China) 3 (School of Computer Science, Zhongyuan University of Technology, Zhengzhou 450007, China) Abstract: To make the best of the Chinese medical information in electronic medical records, a visual organization method is proposed. Firstly, a medical information dataset based on electronic medical records and medical community web pages is constructed, which is preprocessed into text corpus. Secondly, a topic model using Mallet is trained and visualized the output of topic model. Finally, a visual analysis system for Chinese medical information is also built. Experiments showed that the system could effectively help the analyzers train topic models and diagnose. Key words: electronic medical records; visual analysis; topic model; information organization; human-computer interaction 随 着 医 疗 信 息 化 进 程 的 加 速 和 各 类 医 疗 信 息 系 统 的 不 断 完 善, 中 文 医 学 信 息 正 以 几 何 数 字 不 断 激 增. 而 医 学 信 息 资 源 的 极 大 丰 富, 正 在 对 人 们 快 速 准 确 获 取 所 需 信 息 的 需 求 造 成 挑 战. 一 方 面 由 于 缺 乏 方 便 获 取 信 息 的 途 径, 大 量 的 医 学 信 息 资 源 被 闲 置 ; 另 一 方 面, 医 护 人 员 也 无 法 在 大 量 的 信 息 中, 快 速 准 确 地 获 取 自 己 所 需 的 信 息. 目 前 海 量 的 中 文 医 学 信 息 存 在 于 各 类 医 学 数 据 库 医 学 信 息 组 织 系 统 医 学 文 献 和 互 联 网 中, 而 电 子 病 历 作 为 病 人 在 医 院 诊 断 治 疗 全 过 程 的 原 始 记 录, 是 病 人 健 康 医 疗 信 息 的 最 主 要 载 体, 包 含 大 量 有 价 值 的 中 文 医 学 信 息 资 源. 相 比 于 其 他 形 式 的 中 文 医 学 信 息, 病 历 医 学 信 息 的 表 示 具 有 更 多 的 语 义 特 性, 主 要 体 现 在 医 学 信 息 的 专 业 表 示 和 实 际 医 疗 过 程 的 忠 实 表 示 [1]. 目 前, 电 子 病 历 系 统 的 发 展 正 处 于 初 级 阶 段, 系 统 功 能 有 限, 只 是 传 统 纸 张 病 历 的 简 单 电 子 化, 此 类 典 型 的 电 子 病 历 系 统 提 供 MS Word 或 者 其 他 类 似 的 文 本 编 辑 器 由 医 生 输 入 内 容, 医 生 使 用 系 统 水 平 的 参 差 不 齐 使 得 电 子 病 历 的 质 量 不 能 得 到 保 证 [2] ; 现 有 电 子 病 历 结 构 化 研 究 仅 仅 是 已 有 信 息 的 文 本 形 式 的 简 单 的 存 储 和 组 织, 缺 乏 有 序 化 优 质 化 的 组 织 方 式, 不 能 体 现 病 历 中 的 语 义 关 系, 相 对 应 的 结 构 化 电 子 病 历 系 统 中 完 全 结 构 化 的 病 历 不 但 给 输 入 造 成 了 不 便 还 有 可 能 造 成 临 床 数 据 的 曲 解 [3] ; 病 历 结 构 化 录 入 很 不 完 善, 病 1 基 金 项 目 : 国 家 高 技 术 研 究 发 展 计 划 (863)(2012AA02A608); 国 家 自 然 科 学 基 金 (61173057,61173058,61232013,U1304611) 收 稿 时 间 :2015-03-05; 收 到 修 改 稿 时 间 :2015-04-26 44 系 统 建 设 System Construction

2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临 床 信 息 获 取 和 分 析 以 及 海 量 病 历 数 据 检 索 和 数 据 挖 掘 的 需 求. 为 此, 本 文 研 究 一 种 面 向 电 子 病 历 中 文 医 学 信 息 的 可 视 组 织 方 法, 在 第 2 节 中 以 病 历 中 的 非 结 构 化 文 本 信 息 为 输 入, 进 行 预 处 理 和 主 题 建 模, 并 在 第 3 节 中 以 可 视 化 形 态 加 以 呈 现. 第 4 5 节 实 现 了 基 于 语 义 的 中 文 病 历 信 息 可 视 分 析 系 统, 实 现 了 自 动 化 的 病 历 文 本 信 息 预 处 理 主 题 模 型 训 练, 并 提 供 交 互 操 作 辅 助 分 析 人 员 进 行 模 型 训 练 结 果 分 析, 第 6 节 验 证 系 统 有 利 于 医 务 工 作 者 对 新 的 病 例 进 行 诊 断. 1 相 关 工 作 1.1 电 子 病 历 医 学 信 息 组 织 目 前 的 医 学 信 息 组 织 主 要 依 赖 各 种 医 学 信 息 组 织 系 统, 例 如 : 临 床 医 学 知 识 库 (CMKB) 中 文 医 学 主 题 词 表 (CMeSH) 和 中 文 一 体 化 医 学 语 言 系 统 (CUMLS) 等. 这 些 信 息 组 织 系 统 致 力 于 对 医 学 术 语 知 识 概 念 的 标 准 化, 方 便 临 床 科 研 工 作 人 员 医 生 迅 速 快 捷 地 获 取 疾 病 诊 断 治 疗 用 药 等 方 面 的 系 统 的 权 威 的 临 床 医 学 知 识. 这 些 标 准 的 术 语 概 念, 可 以 成 为 病 历 检 索 和 组 织 的 依 据, 但 是 仅 仅 依 赖 文 中 有 没 有 出 现 给 定 的 术 语 关 键 字 进 行 检 索 并 不 能 取 得 良 好 的 效 果, 缺 乏 上 下 文 环 境 的 利 用. 现 有 对 电 子 病 历 信 息 组 织 的 研 究, 大 多 集 中 在 面 向 电 子 病 历 的 检 索 引 擎 的 研 究. 王 晓 和 胡 恒 文 分 别 基 于 Lucene 和 CLucene 研 究 了 电 子 病 历 的 全 文 检 索 引 擎, 并 且 分 别 在 查 准 率 和 查 全 率 上 取 得 了 非 常 好 的 效 果, 但 是 Lucene 依 然 是 根 据 关 键 词 进 行 索 引 和 检 索, 分 词 的 效 果 以 及 术 语 在 文 中 的 出 现 与 否 对 检 索 的 效 果 有 重 要 的 影 响 [6,7]. 为 了 解 决 检 索 关 键 字 的 语 义 问 题, 赵 洋 提 出 了 基 于 本 体 的 电 子 病 历 检 索 系 统, 利 用 本 体 库 对 用 户 查 询 进 行 语 义 扩 展 从 而 优 化 检 索 的 查 全 率, 但 是 这 种 方 法 极 大 依 赖 于 本 体 库 的 构 建 [8]. 总 之, 现 有 的 电 子 病 历 医 学 信 息 组 织 方 式, 包 括 各 类 医 学 信 息 组 织 系 统 和 病 历 检 索 引 擎, 并 不 能 很 好 地 兼 顾 语 义 和 上 下 文 信 息, 限 制 了 信 息 获 取 的 效 果, 不 利 于 临 床 科 研 工 作 人 员 和 医 生 迅 速 便 捷 地 获 取 所 需 的 信 息, 进 行 相 关 分 析 和 决 策. 1.2 基 于 病 例 数 据 的 数 据 挖 掘 随 着 临 床 医 学 术 语 的 丰 富 和 数 据 挖 掘 技 术 的 发 展, 越 来 越 多 的 研 究 人 员 将 数 据 挖 掘 的 方 法 应 用 于 临 床 研 究, 以 挖 掘 出 有 价 值 的 知 识 和 规 则. 刘 立 刚 提 出 了 基 于 兴 趣 度 的 Apriori 算 法 在 电 子 病 历 数 据 中 提 取 有 诊 断 价 值 的 关 联 规 则 并 提 高 医 生 的 诊 断 效 率 [9]. 王 欣 萍 将 BP 神 经 网 络 算 法 应 用 于 确 定 子 宫 肌 瘤 的 危 险 因 素 以 及 出 生 缺 陷 率 的 预 估, 表 现 出 良 好 的 准 确 性 [10]. 但 是 这 些 研 究 中, 大 都 只 利 用 了 病 历 中 的 少 数 结 构 化 数 据, 并 没 有 充 分 利 用 电 子 病 历 中 占 主 体 的 非 结 构 化 的 文 本 数 据, 因 而 取 得 的 效 果 极 其 有 限. 1.3 LDA 主 题 模 型 LDA [11] 是 由 David Blei 提 出 的 三 层 贝 叶 斯 模 型, 其 基 本 思 想 是 : 文 档 由 隐 含 的 主 题 生 成, 主 题 的 概 率 分 布 符 合 Dirichlet 分 布. 主 题 用 关 键 词 的 分 布 表 示, 文 档 集 由 同 一 组 主 题 生 成, 而 一 个 文 档 可 以 由 不 同 的 主 题 同 时 生 成. LDA 能 够 表 示 丰 富 的 语 义 信 息, 但 是 LDA 模 型 需 要 人 为 指 定 主 题 的 个 数. 图 1 LDA 图 概 率 模 型 图 在 上 述 图 概 率 模 型 图 中, α 和 β 是 语 料 级 别 的 参 数, 对 一 份 语 料 中 的 所 有 文 档 都 一 样. θ 是 文 档 级 别 的 参 数, 每 个 文 档 对 应 一 个 θ, z 和 w 都 是 单 词 级 别 的 参 数. 其 中 α 是 Dirichlet 分 布 的 参 数, 决 定 了 θ 的 分 布, θ d 是 文 档 d 下 的 主 题 概 率 分 布, β 为 Dirichlet 分 布 的 参 数. Z n 为 第 n 个 词 项 文 档 产 生 的 主 题, W n 为 主 题 产 生 的 词 项, 由 β 和 z 共 同 决 定. 生 成 W n 的 过 程 产 生 了 各 个 文 档, 以 上 生 成 过 程, 可 以 对 应 到 下 列 公 式 : N p( θ, z, w α, β) = p( θ α) p( zn θ) p( wn zn, β) n= 1 其 中, N 为 文 档 中 词 的 个 数, n 为 词 编 号. Z n 为 第 n 个 词 项 文 档 产 生 的 主 题, W n 为 主 题 产 生 的 词 项, 由 β 和 z 共 同 决 定. 在 迭 代 求 解 模 型 时, w 是 观 察 所 得, θ 和 z 是 隐 藏 变 量, 使 用 EM 算 法 求 解, E 步 输 入 α 和 β 计 算 似 然 函 数, M 步 最 大 化 这 个 似 然 函 数 算 出 α 和 β, 不 断 迭 代 直 至 收 敛. System Construction 系 统 建 设 45

计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 2 基 于 语 义 的 中 文 医 学 信 息 主 题 建 模 电 子 病 历 中 信 息 的 主 要 形 式 是 自 然 语 言, 包 含 着 临 床 医 生 书 写 的 住 院 志 病 程 记 录 会 诊 记 录 手 术 记 录 以 及 各 种 科 室 发 出 的 放 射 超 声 内 镜 心 电 等 病 历 检 查 报 告 [12]. 这 些 非 结 构 化 的 文 本, 组 成 了 绝 大 多 数 的 病 历 内 容. 由 于 电 子 病 历 结 构 化 等 基 础 技 术 的 限 制, 蕴 含 在 这 些 非 结 构 化 文 本 中 的 信 息 并 没 有 得 到 充 分 有 效 的 利 用. 本 节 利 用 LDA 基 于 语 义 对 电 子 病 历 中 的 中 文 医 学 信 息 进 行 主 题 建 模, 进 而 进 行 术 语 相 关 性 分 析 和 病 历 相 似 度 分 析, 实 现 了 概 念 术 语 的 语 义 关 联 和 电 子 病 历 的 语 义 相 似 度 度 量, 从 而 可 对 病 历 中 的 非 结 构 化 文 本 加 以 挖 掘 分 析, 提 取 有 价 值 的 信 息. 2.1 电 子 病 历 中 文 医 学 语 言 数 据 集 的 构 建 和 预 处 理 2.1.1 电 子 病 历 中 文 医 学 语 言 数 据 集 采 集 由 于 电 子 病 历 数 据 涉 及 隐 私, 科 研 用 的 脱 敏 数 据 集 有 限, 所 以 本 文 在 进 行 实 验 时, 只 使 用 了 少 量 真 实 电 子 病 历 数 据. 其 他 的 数 据 来 自 于 各 大 医 疗 问 答 论 坛, 在 医 疗 论 坛 问 答 中, 包 含 了 病 人 对 自 己 症 状 的 描 述 以 及 医 生 的 初 步 诊 断 结 果 用 药 建 议 以 及 注 意 事 项, 与 病 历 中 的 文 本 有 很 大 的 相 似 性. 实 验 所 用 的 数 据 集 合 计 有 一 万 左 右 的 医 疗 文 本 数 据. 在 数 据 采 集 的 过 程 中, 使 用 基 于 Python 的 BeautifulSoup 编 写 爬 虫 程 序, 获 取 医 疗 问 答 数 据. 按 照 文 本 长 度 去 除 过 短 的 低 质 量 内 容 之 后, 存 储 成 纯 文 本 格 式. 结 合 已 有 的 电 子 病 历 文 档, 组 成 了 训 练 主 题 模 型 所 需 的 语 料. 2.1.2 数 据 集 分 词 去 除 标 点 和 停 用 词 对 收 集 到 的 中 文 医 学 语 言 数 据 集 进 行 进 一 步 预 处 理, 利 用 开 源 搜 索 引 擎 框 架 Lucene 提 供 的 IKAnalyzer 进 行 分 词 和 去 除 停 用 词 的 处 理. 经 过 分 词 器 的 处 理, 病 历 文 本 中 无 意 义 的 停 用 词 ( 如 的, 了 ) 以 及 标 点 符 号 被 去 除, 文 本 成 为 空 格 分 隔 的 关 键 字 的 集 合, 以 此 作 为 LDA 训 练 器 的 输 入. 2.1.3 LDA 主 题 模 型 的 训 练 经 过 预 处 理 的 语 料, 作 为 LDA 训 练 算 法 的 输 入, 可 以 进 行 LDA 模 型 的 训 练. LDA 模 型 训 练 使 用 了 基 于 Java 的 开 源 工 具 包 Mallet. 主 题 模 型 的 训 练 需 要 人 为 指 定 主 题 的 个 数, 主 题 的 个 数 的 选 择 需 要 基 于 分 析 人 员 对 于 训 练 语 料 的 先 验 知 识. 基 于 Mallet 的 LDA 主 题 模 型 训 练, 会 生 成 两 个 模 型 文 件. 一 个 包 含 了 所 有 的 主 题 的 关 键 词 表, 另 一 个 包 含 了 所 有 文 档 的 主 题 概 率 分 布. 更 具 体 来 讲, 主 题 的 关 键 词 表, 一 方 面 代 表 了 该 主 题 语 义 上 的 含 义, 另 一 方 面 是 对 关 键 词 基 于 潜 语 义 空 间 的 聚 类, 可 以 认 为 同 一 个 主 题 下 的 所 有 的 词, 都 具 有 语 义 关 联 性 ; 文 档 的 主 题 概 率 分 布, 则 是 在 潜 语 义 空 间 下, 文 档 的 一 种 表 示 方 式, 可 以 作 为 文 档 的 词 向 量 空 间 表 示 方 式 的 语 义 替 代. 2.2 医 学 概 念 术 语 的 语 义 相 关 性 分 析 利 用 构 建 完 成 的 中 文 医 学 语 料 集 基 于 Mallet 完 成 LDA 的 训 练, 并 获 得 了 各 个 主 题 的 关 键 词 表, 如 图 2 所 示. 图 2 各 主 题 关 键 词 表 主 题 的 关 键 词 表 代 表 了 本 主 题 的 含 义, 另 一 方 面 是 关 键 词 在 潜 语 义 空 间 上 的 聚 类. 同 一 个 主 题 下 的 关 键 词 具 有 语 义 上 的 关 联, 是 广 义 上 的 同 义 词 或 者 相 似 词. 由 此, 可 以 解 决 给 定 关 键 词 的 语 义 问 题, 通 过 主 题 关 键 词 表 将 关 键 词 扩 展 成 为 了 一 组 语 义 相 同 或 者 相 关 的 词. 假 设 在 LDA 主 题 模 型 的 训 练 结 果 中 有 主 题 T 1 ={w i, w i+1 W w n } 和 主 题 T 2 ={w j, w j+1 W w m }, 其 中 均 包 含 词 W 则 可 以 将 其 扩 展 为 由 w p 组 成 的 词 袋, 其 中 p=i n,j m, 从 而 扩 展 词 W 的 语 义, 达 到 利 用 词 W 的 上 下 文 语 义 对 W 的 含 义 进 行 描 述 的 目 的. 进 一 步, 利 用 T 1 和 T 2 的 共 现 的 关 键 词 个 数, 可 以 度 量 两 个 主 题 之 间 的 相 似 度. 根 据 主 题 关 键 词 表 对 关 键 词 进 行 语 义 扩 展, 可 以 更 充 分 描 述 关 键 词 的 含 义, 达 到 了 升 维 的 作 用. 2.3 电 子 病 历 文 档 的 语 义 相 似 度 分 析 基 于 LDA 主 题 模 型 训 练 过 程 中 产 生 的 文 档 在 各 个 主 题 上 的 概 率 分 布, 如 图 3 所 示, 可 以 作 为 潜 语 义 空 间 中 文 档 的 表 示 形 式, 用 来 替 代 传 统 的 词 向 量 空 间. 而 基 于 文 档 在 各 个 主 题 上 概 率 分 布 产 生 的 文 档 向 量 的 相 似 度, 可 以 代 表 文 档 的 潜 语 义 相 似 度. 假 设 指 定 主 题 的 个 数 为 N, LDA 主 题 模 型 训 练 完 成 之 后 会 产 生 每 个 文 档 在 N 个 主 题 上 的 概 率 分 布, 由 此 可 以 利 用 N 维 的 向 量 来 表 示 每 个 文 档, 每 一 维 代 表 46 系 统 建 设 System Construction

2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 一 个 主 题, 各 个 维 度 的 数 值 为 此 文 档 属 于 该 主 题 的 概 率, 作 为 向 量 的 权 重. 这 样 可 以 将 文 档 映 射 到 N 维 的 潜 语 义 空 间, 完 成 降 维, 进 而 可 以 利 用 降 维 之 后 的 结 果 进 行 文 档 的 相 似 度 分 析, 具 体 可 以 采 用 各 种 向 量 的 距 离 度 量 方 法, 比 如 余 弦 相 似 度 等. 经 过 降 维 之 后 文 档 的 主 题 向 量, 虽 然 损 失 了 相 当 一 部 分 的 信 息, 但 是 仍 然 可 以 保 持 潜 语 义 层 面 上 的 相 关 性, 也 就 是 说, 潜 语 义 空 间 上 相 关 的 文 档 往 往 具 有 语 义 上 潜 在 的 关 联 关 系, 例 如 油 腻 和 辛 辣 是 词 义 上 毫 无 关 系 的 两 个 词, 但 是 在 潜 语 义 层 面 上, 两 词 均 常 用 来 形 容 饮 食 习 惯, 多 见 于 病 历 文 本 的 饮 食 注 意 事 项 中, 在 语 义 和 上 下 文 关 系 上 存 在 着 比 较 高 的 相 似 性. 降 维 之 后 的 主 题 信 息 也 可 以 作 为 特 征, 结 合 传 统 的 词 向 量 空 间 的 特 征, 对 文 档 相 似 性 度 量 的 效 果 有 显 著 提 升. 为 结 构 化 数 据, 然 后 利 用 可 视 化 映 射 将 结 构 化 数 据 表 现 为 可 视 化 形 态, 从 而 将 原 始 数 据 传 递 给 人 的 感 知 系 统. 本 文 结 合 Card 的 可 视 模 型 特 点, 针 对 中 文 医 学 信 息 主 题 模 型 训 练 结 果 构 建 了 术 语 语 义 关 联 关 系 和 病 历 语 义 相 似 度 的 可 视 形 态 模 型. 图 4 主 题 模 型 可 视 形 态 交 互 与 数 据 迁 移 图 图 3 文 档 在 各 个 主 题 上 的 概 率 分 布 3 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 LDA 主 题 模 型 的 训 练 以 及 基 于 主 题 模 型 的 术 语 关 联 关 系 分 析 和 病 历 语 义 相 似 度 分 析 是 一 个 循 环 往 复 的 渐 进 的 探 索 过 程. 分 析 人 员 需 要 根 据 训 练 的 效 果, 不 断 调 整 主 题 的 个 数 重 新 清 理 数 据 以 达 到 最 优 的 训 练 效 果, 获 得 最 有 效 的 数 据 分 析 结 果. 因 此, 为 了 辅 助 分 析 人 员 进 行 主 题 模 型 训 练 并 进 行 术 语 关 联 关 系 分 析 和 病 历 语 义 相 似 度 分 析 的 过 程, 本 文 针 对 2.1 节 2.2 节 和 2.3 节 的 LDA 主 题 模 型 训 练 和 分 析 过 程 构 建 了 自 然 的 可 以 帮 助 用 户 快 速 对 训 练 分 析 效 果 做 出 判 断 的 降 低 分 析 人 员 交 互 负 担 的 可 视 化 形 态, 用 于 辅 助 分 析 人 员 LDA 主 题 模 型 的 训 练 和 分 析 过 程, 进 而 有 助 于 医 务 工 作 者 进 行 病 例 诊 断. 3.1 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 构 建 方 法 Card 认 为, 信 息 可 视 化 是 从 数 据 到 可 视 化 形 式 再 到 人 的 感 知 系 统 的 可 调 节 的 映 射 过 程 [13]. 在 Card 提 出 的 可 视 模 型 中, 首 先 利 用 数 据 变 化 把 原 始 数 据 预 处 理 如 图 4 所 示, 先 利 用 相 应 的 数 据 转 换 算 法, 将 主 题 模 型 训 练 结 果 转 换 为 可 视 形 态 可 以 映 射 的 可 视 结 构, 映 射 到 用 户 的 可 视 视 图 上 ; 用 户 再 根 据 自 己 的 领 域 知 识 和 先 验 知 识 对 可 视 视 图 进 行 交 互, 如 拖 拽 圈 选 钻 取 等 ; 可 视 视 图 再 根 据 用 户 的 交 互 动 作, 将 对 数 据 的 修 改 映 射 到 相 应 的 可 视 结 构 上, 可 以 是 结 果 的 调 整 修 改 筛 选 排 序, 甚 至 是 修 改 模 型 训 练 的 参 数 重 新 训 练 主 题 模 型. 3.2 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 分 析 形 态 集 可 视 分 析 系 统 基 于 LDA 主 题 模 型 训 练 结 果, 提 供 可 视 形 态 呈 现 数 据 并 提 供 交 互 操 作 帮 助 用 户 调 整 分 析 数 据. 本 文 结 合 基 于 语 义 的 医 学 术 语 关 联 关 系 以 及 病 历 的 语 义 相 关 性 分 析 需 求, 针 对 在 数 据 分 析 的 各 个 阶 段 中 遇 到 的 问 题 构 建 了 一 系 列 可 视 形 态 集 合, 如 图 5 所 示. 3.2.1 医 学 术 语 语 义 关 系 可 视 形 态 医 学 术 语 语 义 关 系 可 视 形 态 用 于 对 语 料 中 包 含 的 医 学 术 语 的 关 联 关 系 进 行 可 视 化, 可 以 直 观 地 将 术 语 关 键 字 之 间 以 及 术 语 集 合 之 间 语 义 关 联 关 系 表 示 出 来. 如 图 6(a) 所 示, 同 一 个 主 题 的 所 有 术 语 关 键 字 形 成 簇, 代 表 术 语 集 合, 被 选 中 的 术 语 位 于 簇 的 中 心 ; 同 时 包 含 被 选 中 术 语 的 术 语 集 合 簇 被 链 接 在 一 起. 术 语 集 合 之 间 的 距 离 远 近, 代 表 了 两 个 集 合 术 语 关 键 字 重 叠 的 个 数, 表 现 出 两 个 术 语 集 合 的 相 似 度. System Construction 系 统 建 设 47

计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 图 5 可 视 形 态 分 类 图 3.2.2 主 题 关 键 字 标 签 云 可 视 形 态 主 题 关 键 字 标 签 云 可 视 形 态 利 用 标 签 云 的 方 式 将 每 个 主 题 中 的 所 有 关 键 词 显 示 出 来. 如 图 6(b) 所 示, 每 一 行 代 表 一 个 主 题, 同 样 的 关 键 字 用 同 样 的 颜 色 和 字 体 标 识, 可 以 快 速 探 查 某 个 特 定 关 键 字 出 现 在 哪 些 主 题 中. 对 于 选 中 的 关 键 字 用 字 体 的 大 小 代 表 关 键 字 的 权 重, 字 体 越 大, 对 主 题 的 区 分 度 越 强. (a) 医 学 术 语 语 义 关 系 可 视 形 态 (d) 病 历 文 档 在 各 主 题 上 概 率 分 布 可 视 形 态 图 6 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 分 析 形 态 集 3.2.3 病 历 语 义 相 关 性 网 络 可 视 形 态 病 历 语 义 相 关 性 网 络 可 视 形 态 描 述 病 历 文 档 之 间 的 语 义 相 似 度. 如 图 6(c) 所 示, 每 一 个 结 点 代 表 一 个 病 历 文 档, 结 点 之 间 的 距 离 表 示 文 档 之 间 的 相 似 度. 距 离 越 近 相 似 度 越 高, 距 离 越 远 相 似 度 越 低, 相 似 的 病 历 可 以 为 病 患 的 诊 断 提 供 参 考. 为 方 便 探 查, 相 似 度 网 络 会 以 指 定 病 历 为 中 心 进 行 布 局. 3.2.4 病 历 文 档 在 各 主 题 上 概 率 分 布 可 视 形 态 病 历 文 档 在 各 个 主 题 上 的 概 率 分 布 可 视 形 态, 用 折 线 图 的 方 式 展 示 出 病 历 在 各 个 主 题 上 的 概 率 分 布, 如 图 6(d) 所 示. 可 以 直 观 地 掌 握 每 个 病 历 由 哪 几 个 主 题 生 成, 根 据 大 部 分 病 历 文 档 的 主 题 组 成 可 以 直 观 的 判 断 主 题 模 型 训 练 的 效 果. 若 大 部 分 病 历 在 概 率 分 布 图 上 均 呈 现 出 单 峰 或 双 峰 则 模 型 训 练 的 结 果 较 好 ; 若 大 部 分 病 历 在 各 个 主 题 上 均 没 有 很 明 显 的 倾 向 性, 则 主 题 模 型 训 练 得 出 的 信 息 量 非 常 少, 不 足 以 从 语 义 上 区 分 各 个 病 历 文 档. (b) 主 题 关 键 字 标 签 云 可 视 形 态 (c) 病 历 语 义 相 关 性 网 络 可 视 形 态 4 面 向 中 文 医 学 信 息 的 可 视 分 析 架 构 本 文 构 建 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 系 统 体 系 架 构 如 图 7 所 示. 系 统 架 构 分 为 6 层. 1 多 源 异 构 数 据 源 层 : 主 要 用 于 描 述 在 各 个 电 子 病 历 系 统 以 及 各 种 电 子 病 历 数 据 源 的 多 源 异 构 的 数 据 源. 由 于 缺 乏 对 现 有 电 子 病 历 标 准 的 贯 彻 实 施, 大 部 分 数 据 源 均 有 各 自 的 存 储 方 式 和 格 式, 如 数 据 库 Word 文 档 Web 页 面 纯 文 本 文 档 等, 因 此 首 先 要 为 各 种 数 据 源 编 写 对 应 的 接 口, 将 所 需 的 中 文 医 学 信 息 文 本 统 一 转 化 为 纯 文 本 文 档. 2 数 据 预 处 理 层 : 主 要 用 于 对 纯 文 本 文 档 进 行 分 词 去 停 用 词 等 预 处 理 操 作, 经 过 预 处 理 模 块, 纯 文 48 系 统 建 设 System Construction

2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 本 文 档 被 处 理 成 为 可 以 作 为 数 据 挖 掘 算 法 输 入 的 语 料. 本 文 集 成 了 基 于 Lucene 的 IKAnalyzer 作 为 分 词 器 并 用 医 学 语 言 词 典 作 为 分 词 字 典, 使 用 了 搜 狗 在 线 语 料 库 中 的 停 用 词 表. 此 外, 由 于 很 多 病 历 语 料 内 容 过 短, 不 能 有 效 提 供 信 息, 还 编 写 了 低 质 量 数 据 清 洗 程 序, 用 以 过 滤 低 质 数 据. 3 数 据 挖 掘 算 法 层 : 主 要 用 于 将 预 处 理 完 成 的 语 料 作 为 输 入, 进 行 模 型 训 练, 输 出 模 型 文 件. 本 文 集 成 了 开 源 的 基 于 Java 的 Mallet 工 具 作 为 LDA 模 型 的 训 练 算 法, 为 了 方 便 进 一 步 的 文 本 分 析 挖 掘 工 作, 还 编 写 了 若 干 工 具 算 法 模 块, 例 如 TFIDF 计 算 算 法 各 种 相 似 度 计 算 算 法 等. 此 外 还 设 计 了 系 统 接 口 用 于 接 入 更 多 的 数 据 挖 掘 算 法, 以 便 进 一 步 丰 富 系 统 的 功 能. 4 可 视 化 结 构 数 据 提 取 层 : 结 合 可 视 化 需 求, 以 模 型 文 件 为 依 据 进 行 进 一 步 的 计 算, 生 成 可 以 直 接 映 射 为 可 视 化 形 态 的 可 视 化 结 构 数 据. 本 文 针 对 面 向 中 文 医 学 信 息 主 题 模 型 中 的 常 见 问 题, 为 各 种 可 视 分 析 需 求 编 写 了 相 应 的 算 法 库, 提 取 相 应 的 可 视 化 结 构 数 据, 用 于 支 持 中 文 医 学 信 息 的 可 视 分 析 过 程. 5 可 视 形 态 层 : 主 要 由 可 视 形 态 集 合 交 互 任 务 集 两 个 模 块 组 成. 本 文 从 易 于 用 户 理 解 和 认 知 的 角 度 构 建 了 一 套 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 集, 并 提 供 了 易 于 交 互 使 用 的 交 互 任 务 辅 助 用 户 的 数 据 质 量 管 理 与 分 析. 6 支 撑 数 据 接 口 层 : 将 可 视 分 析 产 生 的 结 果 数 据, 按 照 指 定 的 格 式 进 行 导 出. 用 于 进 一 步 的 数 据 分 析 系 统 构 建 等. 图 7 面 向 中 文 医 学 信 息 的 可 视 分 析 架 构 5 可 视 化 结 构 数 据 提 取 算 法 5.1 主 题 关 键 字 标 签 云 布 局 算 法 当 分 析 人 员 针 对 LDA 主 题 模 型 评 估 各 个 主 题 聚 类 的 效 果 时, 往 往 会 先 通 过 每 个 主 题 包 含 的 主 题 关 键 字 推 测 该 主 题 的 大 致 含 义. 为 了 帮 助 分 析 人 员 快 速 把 握 每 个 主 题 的 含 义, 本 文 利 用 标 签 云 的 方 式 展 现 每 个 主 题 的 关 键 字. 为 了 保 持 自 上 而 下 的 阅 读 习 惯, 主 题 的 关 键 字 依 然 按 行 列 出, 为 了 区 分 同 一 个 关 键 字 在 不 同 主 题 中 的 不 同 语 义, 同 一 个 关 键 字 使 用 了 相 同 颜 色 和 大 小. 此 外, 同 一 个 主 题 不 同 的 关 键 字 对 于 主 题 含 义 的 区 分 度 是 不 同 的, 而 现 有 的 主 题 模 型 中, 并 没 有 对 这 些 关 键 字 的 重 要 性 作 区 分, 本 文 拟 用 词 频 率 逆 文 档 频 率 作 为 衡 量 关 键 字 重 要 性 的 权 重, 关 键 字 在 标 签 云 中 的 显 示 大 小 与 权 值 大 小 成 正 比. 其 计 算 公 式 如 下 : n i, j tfi, j = D idfi = lo g n k, j k { j : ti d j } tfidfi, j= tfi, j idfi 其 中, tf i,j 的 计 算 公 式 中, n i,j 为 该 词 在 文 档 d j 中 出 现 的 次 数 总 和, 而 分 母 为 文 档 d j 中 所 有 词 出 现 的 次 数 总 和. 在 idf i 的 计 算 公 式 中, D 为 语 料 库 中 文 档 总 数, 分 子 为 包 含 词 t i 的 文 档 总 数. 5.2 病 历 文 档 语 义 相 关 性 布 局 算 法 病 历 文 档 基 于 语 义 的 相 关 性 度 量, 是 面 向 中 文 医 学 信 息 主 题 模 型 的 重 要 输 出 数 据. 文 档 相 关 性 是 文 档 信 息 检 索 的 基 本 问 题, 因 此 基 于 语 义 的 文 档 相 似 度 度 量 算 法 对 于 基 于 语 义 的 病 历 文 档 检 索 有 重 要 意 义. 对 于 面 向 中 文 医 学 信 息 的 主 题 模 型, 假 设 指 定 的 主 题 个 数 为 N, 则 在 主 题 模 型 输 出 的 文 档 关 于 各 个 主 题 的 概 率 分 布 中, 每 个 文 档 可 以 表 示 为 R={S 1,S 2,S 3, S i }, 其 中 i {1,2 N}, Si 为 文 档 属 于 主 题 i 的 概 率. 为 了 计 算 文 档 的 相 似 性, 可 以 用 向 量 之 间 的 夹 角 余 弦 值 来 表 示 : Ri Rj Similar( Ri, Rj) = cos( Ri, Rj) = Ri Rj 为 了 方 便 用 户 对 相 关 性 网 络 进 行 可 交 互 的 探 查, [14] 采 用 了 有 限 制 条 件 的 Verlet 算 法 进 行 节 点 布 局. Verlet 算 法 是 一 种 用 于 求 解 牛 顿 运 动 方 程 的 数 值 方 法, 被 广 泛 应 用 于 分 子 动 力 学 模 拟 以 及 视 频 游 戏 中. 在 交 互 操 作 中, 当 用 户 改 变 某 个 节 点 的 位 置, 需 要 对 每 个 节 点 的 位 置 用 以 下 公 式 进 行 重 新 计 算, 从 而 完 成 整 个 System Construction 系 统 建 设 49

计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 网 络 的 重 新 布 局 : wq( d p q pq) rp = ( wp+ wq) p q 其 中, r p 即 为 p 点 的 位 移 ; q 点 为 固 定 点 的 位 置, w 为 p q 两 点 的 权 重. 由 于 q 为 固 定 点, w q >> w p. 5.3 医 学 术 语 关 键 字 集 合 相 似 性 度 量 算 法 医 学 主 题 由 医 学 术 语 关 键 字 集 合 组 成, 医 学 术 语 关 键 字 集 合 的 相 似 性 表 现 了 各 个 医 学 主 题 之 间 的 相 似 性. 在 主 题 模 型 的 训 练 中, 主 题 个 数 设 置 过 大 往 往 导 致 产 生 相 似 性 比 较 高 的 主 题, 对 主 题 相 似 性 进 行 呈 现 有 助 于 分 析 人 员 优 化 模 型 训 练 参 数, 提 升 模 型 训 练 效 果. 医 学 术 语 关 键 字 集 合 相 似 性 计 算 公 式 如 下 : 2 Nw ( ) Similar( Ti, Tj) = N( wi) + N( wj) 其 中, T i 和 T j 代 表 两 个 术 语 关 键 字 集 合, N(w) 代 表 两 个 术 语 集 合 中 相 同 的 关 键 字 个 数, 而 N(w i ) 和 N(w j ) 分 别 代 表 两 个 术 语 关 键 字 集 合 中 的 关 键 字 个 数. 6 应 用 实 例 基 于 以 上 研 究, 我 们 开 发 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 如 图 8, 针 对 已 构 建 的 中 文 医 学 语 言 数 据 集 进 行 了 LDA 主 题 模 型 的 训 练 和 可 视 分 析, 进 行 了 效 果 验 证. 图 8 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统 界 面 图 可 视 分 析 系 统 根 据 指 定 的 源 数 据 集 所 在 的 目 录, 根 据 数 据 类 型 调 用 对 应 的 数 据 源 处 理 接 口, 将 数 据 处 理 为 纯 文 本 格 式, 再 通 过 预 处 理 模 块 进 行 分 词 去 停 用 词 等 预 处 理, 形 成 模 型 训 练 的 语 料. 语 料 经 过 LDA 模 型 训 练 之 后, 输 出 模 型 文 件, 通 过 可 视 化 结 构 数 据 构 建 算 法 计 算 出 可 视 化 结 构 数 据, 映 射 到 图 6 所 示 的 各 个 可 视 形 态 中. 首 先, 分 析 人 员 可 以 在 主 题 关 键 字 标 签 云 中 探 查 各 个 主 题 的 含 义 以 及 每 个 关 键 字 在 不 同 主 题 中 的 语 义, 如 图 6(b) 所 示, 其 中 怀 孕 存 在 于 两 个 主 题 中, 并 且 语 义 有 所 不 同, 前 者 倾 向 于 计 划 中 的 怀 孕, 而 后 者 倾 向 于 避 孕. 在 大 致 了 解 每 个 主 题 的 含 义 之 后, 分 析 人 员 对 本 次 主 题 模 型 的 训 练 效 果 已 经 有 了 大 致 的 认 识, 并 且 可 以 对 各 个 主 题 的 含 义 进 行 标 注. 然 后 分 析 人 员 可 以 利 用 图 6(d) 中 的 可 视 形 态, 探 查 各 个 文 档 在 各 个 主 题 上 的 概 率 分 布, 并 利 用 先 验 知 识 验 证 合 理 性. 进 行 完 如 上 的 合 理 性 验 证 之 后, 基 本 可 以 确 定 主 题 模 型 的 训 练 效 果, 决 定 是 否 需 要 调 整 参 数 重 新 训 练 甚 至 重 新 清 理 数 据 集. 图 6(a) 以 及 图 6(c) 中 的 可 视 形 态, 可 以 帮 助 分 析 人 员 直 观 判 断 可 视 分 析 系 统 的 产 出 数 据 是 否 合 理, 并 有 利 于 分 析 人 员 对 新 的 病 例 进 行 诊 断. 比 如, 当 分 析 人 员 拿 到 一 份 新 的 与 怀 孕 有 关 的 病 历 时, 可 50 系 统 建 设 System Construction

2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 以 首 先 根 据 图 6(a) 和 图 6(b) 中 的 主 题 关 键 词 关 系 网 络 和 标 签 云 找 到 与 该 病 历 相 关 的 主 题 关 键 词, 比 如 早 孕 试 纸 排 卵 期 等, 进 而 利 用 这 些 关 键 词 对 病 历 文 档 进 行 检 索, 找 到 相 关 的 历 史 病 历 及 诊 断 方 案 进 行 参 考. 进 一 步, 可 以 利 用 如 图 6(c) 的 文 档 主 题 相 似 性 对 检 索 出 的 文 档 进 行 筛 选, 得 出 高 相 关 性 的 文 档 进 行 参 考. 综 上 可 知, 利 用 如 上 的 可 视 形 态, 分 析 人 员 可 以 在 较 短 时 间 内, 判 断 主 题 模 型 的 训 练 效 果, 验 证 输 出 的 合 理 性. 此 外, 分 析 人 员 还 可 以 利 用 交 互 任 务 集, 对 输 出 结 果 进 行 微 调, 修 正 明 显 的 错 误 用 例, 最 终 产 出 合 理 可 以 进 一 步 使 用 的 数 据 集. 7 结 论 与 展 望 本 文 构 建 了 中 文 医 学 信 息 数 据 集, 基 于 Mallet 进 行 了 主 题 模 型 训 练 并 针 对 在 主 题 模 型 训 练 和 分 析 中 可 能 遇 到 的 问 题 构 建 了 可 视 化 结 构 数 据 并 映 射 为 可 视 化 形 态, 同 时, 为 了 辅 助 主 题 模 型 训 练 和 分 析, 减 轻 分 析 人 员 的 认 知 负 担, 设 计 了 对 应 的 交 互 任 务 集, 帮 助 分 析 人 员 对 中 文 医 学 信 息 进 行 分 析 与 管 理. 最 后, 开 发 了 一 个 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 并 结 合 具 体 实 例 进 行 验 证. 结 果 表 明, 该 系 统 能 够 有 效 地 进 行 主 题 模 型 的 训 练 与 分 析. 由 于 时 间 所 限, 本 系 统 还 存 在 以 下 不 足 : 仅 仅 使 用 了 一 种 主 题 模 型, 从 中 文 医 学 信 息 中 获 得 的 信 息 有 限, 此 外 辅 助 主 题 模 型 训 练 和 分 析 的 可 视 形 态 还 不 够 丰 富, 在 未 来 的 工 作 中 还 有 许 多 在 电 子 病 历 中 文 医 学 信 息 的 组 织 和 分 析 中 有 实 用 价 值 的 算 法 可 以 应 用. 例 如 K-Means KNN 等 基 于 距 离 的 聚 类 算 法 可 以 基 于 给 定 的 文 档 的 向 量 表 示 方 法, 对 电 子 病 历 文 档 进 行 聚 类, 帮 助 分 析 人 员 发 现 病 历 文 档 之 间 的 关 系 和 规 律 ; Apriori 和 FP-Growth 算 法 可 以 用 于 发 现 电 子 病 历 文 本 中 的 频 繁 模 式, 挖 掘 出 具 有 实 用 价 值 的 临 床 医 学 规 律 ; 在 给 定 电 子 病 历 医 学 分 类 的 情 况 下, 还 可 以 利 用 已 标 注 的 训 练 数 据 集 基 于 各 种 文 本 分 类 算 法 ( 如 SVM 等 ) 对 病 历 进 行 分 类, 方 便 电 子 病 历 文 档 的 组 织 和 管 理. 参 考 文 献 1 温 有 奎, 焦 玉 英. 基 于 语 义 三 元 组 的 电 子 病 历 潜 在 知 识 发 现 研 究. 情 报 学 报,2011,30(7):675 681. 2 曹 原, 齐 静. 电 子 病 历 在 医 院 实 施 HIS 系 统 中 的 优 点 及 不 足. 青 海 医 药 杂 志,2006,35(10):33 33. 3 陈 衡. 结 构 化 电 子 病 历 综 述. 湖 南 省 图 书 情 报 学 研 究 生 论 坛,2010. 4 丁 卫 平, 施 佺, 管 致 锦. 基 于 频 繁 概 念 格 的 电 子 病 历 关 联 规 则 挖 掘 研 究. 微 电 子 学 与 计 算 机,2008,25(8):125 128. 5 曾 勇. 关 联 规 则 在 脑 科 电 子 病 历 挖 掘 中 的 应 用. 医 学 信 息 学 杂 志,2014,35(10):55 58. 6 王 晓, 张 健. 基 于 Lucene 检 索 引 擎 的 电 子 病 历 全 文 检 索 系 统. 医 疗 卫 生 装 备,2009,29(12):43 44. 7 胡 恒 文, 高 智 勇, 王 辉. 基 于 Clucene 的 电 子 病 历 全 文 检 索 系 统 研 究 与 设 计. 计 算 机 与 数 字 工 程,2014,42(3):521 525. 8 赵 洋, 李 万 龙, 白 杰 英. 基 于 本 体 的 电 子 病 历 检 索 系 统 研 究. 计 算 机 技 术 与 发 展,2010,20(3):211 213. 9 刘 立 刚, 钟 锐, 杨 娟. 基 于 兴 趣 度 的 Apriori 算 法 在 电 子 病 历 数 据 分 析 中 的 应 用. 江 西 理 工 大 学 学 报,2013,34(5):72 76. 10 王 欣 萍, 孙 昕, 孙 尧. 基 于 BP 人 工 神 经 网 络 模 型 构 建 电 子 病 历 系 统 的 数 据 分 析. 中 国 组 织 工 程 研 究,2011,15(35): 6592 6595. 11 Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. the Journal of machine Learning research, 2003, 3: 993 1022. 12 李 昊 曼, 段 会 龙, 吕 旭 东. 医 学 语 言 处 理 技 术 及 应 用. 中 国 数 字 医 学,2008,3(11):11 13. 13 Card SK, Mackinlay JD, Shneiderman B, eds. Readings in Information Visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999:15 20. 14 Dwyer T. Scalable, versatile and simple constrained graph layout. Computer Graphics Forum, 2009, 28(3): 991 998. System Construction 系 统 建 设 51