计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 1 面 向 电 子 病 历 中 文 医 学 信 息 的 可 视 组 织 方 法 徐 天 明 1,2, 樊 银 亭 3, 马 翠 霞 1, 滕 东 兴 1 ( 中 国 科 学 院 软 件 研 究 所 人 机 交 互 技 术 与 智 能 信 息 处 理 实 验 室, 北 京 100190) 2 ( 中 国 科 学 院 大 学, 北 京 100190) 3 ( 中 原 工 学 院 计 算 机 学 院, 郑 州 450007) 1 摘 要 : 针 对 当 前 大 量 电 子 病 历 信 息 无 法 充 分 利 用 的 问 题, 研 究 了 面 向 电 子 病 历 中 文 医 学 信 息 的 主 题 建 模 及 可 视 组 织 方 法. 首 先 基 于 电 子 病 历 数 据 和 医 疗 问 答 数 据, 进 行 预 处 理 并 转 换 为 纯 文 本 语 料, 然 后 采 用 基 于 Mallet 的 LDA 主 题 模 型 训 练 算 法 进 行 主 题 建 模, 并 结 合 主 题 模 型 分 析 的 需 求 进 行 可 视 组 织 与 呈 现, 最 后 构 建 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统. 实 例 验 证 表 明 该 系 统 可 以 有 效 的 辅 助 用 户 进 行 主 题 模 型 的 构 建 与 分 析, 并 有 利 于 进 一 步 的 诊 断. 关 键 词 : 电 子 病 历 ; 可 视 分 析 ; 主 题 模 型 ; 信 息 组 织 ; 人 机 交 互 Visual Organization Method for Chinese Medical Information XU Tian-Ming 1,2, FAN Yin-Ting 3, MA Cui-Xia 1, TENG Dong-Xing 1 1 (Intelligence Engineering Lab, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China) 2 (University of Chinese Academy of Sciences, Beijing 100190, China) 3 (School of Computer Science, Zhongyuan University of Technology, Zhengzhou 450007, China) Abstract: To make the best of the Chinese medical information in electronic medical records, a visual organization method is proposed. Firstly, a medical information dataset based on electronic medical records and medical community web pages is constructed, which is preprocessed into text corpus. Secondly, a topic model using Mallet is trained and visualized the output of topic model. Finally, a visual analysis system for Chinese medical information is also built. Experiments showed that the system could effectively help the analyzers train topic models and diagnose. Key words: electronic medical records; visual analysis; topic model; information organization; human-computer interaction 随 着 医 疗 信 息 化 进 程 的 加 速 和 各 类 医 疗 信 息 系 统 的 不 断 完 善, 中 文 医 学 信 息 正 以 几 何 数 字 不 断 激 增. 而 医 学 信 息 资 源 的 极 大 丰 富, 正 在 对 人 们 快 速 准 确 获 取 所 需 信 息 的 需 求 造 成 挑 战. 一 方 面 由 于 缺 乏 方 便 获 取 信 息 的 途 径, 大 量 的 医 学 信 息 资 源 被 闲 置 ; 另 一 方 面, 医 护 人 员 也 无 法 在 大 量 的 信 息 中, 快 速 准 确 地 获 取 自 己 所 需 的 信 息. 目 前 海 量 的 中 文 医 学 信 息 存 在 于 各 类 医 学 数 据 库 医 学 信 息 组 织 系 统 医 学 文 献 和 互 联 网 中, 而 电 子 病 历 作 为 病 人 在 医 院 诊 断 治 疗 全 过 程 的 原 始 记 录, 是 病 人 健 康 医 疗 信 息 的 最 主 要 载 体, 包 含 大 量 有 价 值 的 中 文 医 学 信 息 资 源. 相 比 于 其 他 形 式 的 中 文 医 学 信 息, 病 历 医 学 信 息 的 表 示 具 有 更 多 的 语 义 特 性, 主 要 体 现 在 医 学 信 息 的 专 业 表 示 和 实 际 医 疗 过 程 的 忠 实 表 示 [1]. 目 前, 电 子 病 历 系 统 的 发 展 正 处 于 初 级 阶 段, 系 统 功 能 有 限, 只 是 传 统 纸 张 病 历 的 简 单 电 子 化, 此 类 典 型 的 电 子 病 历 系 统 提 供 MS Word 或 者 其 他 类 似 的 文 本 编 辑 器 由 医 生 输 入 内 容, 医 生 使 用 系 统 水 平 的 参 差 不 齐 使 得 电 子 病 历 的 质 量 不 能 得 到 保 证 [2] ; 现 有 电 子 病 历 结 构 化 研 究 仅 仅 是 已 有 信 息 的 文 本 形 式 的 简 单 的 存 储 和 组 织, 缺 乏 有 序 化 优 质 化 的 组 织 方 式, 不 能 体 现 病 历 中 的 语 义 关 系, 相 对 应 的 结 构 化 电 子 病 历 系 统 中 完 全 结 构 化 的 病 历 不 但 给 输 入 造 成 了 不 便 还 有 可 能 造 成 临 床 数 据 的 曲 解 [3] ; 病 历 结 构 化 录 入 很 不 完 善, 病 1 基 金 项 目 : 国 家 高 技 术 研 究 发 展 计 划 (863)(2012AA02A608); 国 家 自 然 科 学 基 金 (61173057,61173058,61232013,U1304611) 收 稿 时 间 :2015-03-05; 收 到 修 改 稿 时 间 :2015-04-26 44 系 统 建 设 System Construction
2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临 床 信 息 获 取 和 分 析 以 及 海 量 病 历 数 据 检 索 和 数 据 挖 掘 的 需 求. 为 此, 本 文 研 究 一 种 面 向 电 子 病 历 中 文 医 学 信 息 的 可 视 组 织 方 法, 在 第 2 节 中 以 病 历 中 的 非 结 构 化 文 本 信 息 为 输 入, 进 行 预 处 理 和 主 题 建 模, 并 在 第 3 节 中 以 可 视 化 形 态 加 以 呈 现. 第 4 5 节 实 现 了 基 于 语 义 的 中 文 病 历 信 息 可 视 分 析 系 统, 实 现 了 自 动 化 的 病 历 文 本 信 息 预 处 理 主 题 模 型 训 练, 并 提 供 交 互 操 作 辅 助 分 析 人 员 进 行 模 型 训 练 结 果 分 析, 第 6 节 验 证 系 统 有 利 于 医 务 工 作 者 对 新 的 病 例 进 行 诊 断. 1 相 关 工 作 1.1 电 子 病 历 医 学 信 息 组 织 目 前 的 医 学 信 息 组 织 主 要 依 赖 各 种 医 学 信 息 组 织 系 统, 例 如 : 临 床 医 学 知 识 库 (CMKB) 中 文 医 学 主 题 词 表 (CMeSH) 和 中 文 一 体 化 医 学 语 言 系 统 (CUMLS) 等. 这 些 信 息 组 织 系 统 致 力 于 对 医 学 术 语 知 识 概 念 的 标 准 化, 方 便 临 床 科 研 工 作 人 员 医 生 迅 速 快 捷 地 获 取 疾 病 诊 断 治 疗 用 药 等 方 面 的 系 统 的 权 威 的 临 床 医 学 知 识. 这 些 标 准 的 术 语 概 念, 可 以 成 为 病 历 检 索 和 组 织 的 依 据, 但 是 仅 仅 依 赖 文 中 有 没 有 出 现 给 定 的 术 语 关 键 字 进 行 检 索 并 不 能 取 得 良 好 的 效 果, 缺 乏 上 下 文 环 境 的 利 用. 现 有 对 电 子 病 历 信 息 组 织 的 研 究, 大 多 集 中 在 面 向 电 子 病 历 的 检 索 引 擎 的 研 究. 王 晓 和 胡 恒 文 分 别 基 于 Lucene 和 CLucene 研 究 了 电 子 病 历 的 全 文 检 索 引 擎, 并 且 分 别 在 查 准 率 和 查 全 率 上 取 得 了 非 常 好 的 效 果, 但 是 Lucene 依 然 是 根 据 关 键 词 进 行 索 引 和 检 索, 分 词 的 效 果 以 及 术 语 在 文 中 的 出 现 与 否 对 检 索 的 效 果 有 重 要 的 影 响 [6,7]. 为 了 解 决 检 索 关 键 字 的 语 义 问 题, 赵 洋 提 出 了 基 于 本 体 的 电 子 病 历 检 索 系 统, 利 用 本 体 库 对 用 户 查 询 进 行 语 义 扩 展 从 而 优 化 检 索 的 查 全 率, 但 是 这 种 方 法 极 大 依 赖 于 本 体 库 的 构 建 [8]. 总 之, 现 有 的 电 子 病 历 医 学 信 息 组 织 方 式, 包 括 各 类 医 学 信 息 组 织 系 统 和 病 历 检 索 引 擎, 并 不 能 很 好 地 兼 顾 语 义 和 上 下 文 信 息, 限 制 了 信 息 获 取 的 效 果, 不 利 于 临 床 科 研 工 作 人 员 和 医 生 迅 速 便 捷 地 获 取 所 需 的 信 息, 进 行 相 关 分 析 和 决 策. 1.2 基 于 病 例 数 据 的 数 据 挖 掘 随 着 临 床 医 学 术 语 的 丰 富 和 数 据 挖 掘 技 术 的 发 展, 越 来 越 多 的 研 究 人 员 将 数 据 挖 掘 的 方 法 应 用 于 临 床 研 究, 以 挖 掘 出 有 价 值 的 知 识 和 规 则. 刘 立 刚 提 出 了 基 于 兴 趣 度 的 Apriori 算 法 在 电 子 病 历 数 据 中 提 取 有 诊 断 价 值 的 关 联 规 则 并 提 高 医 生 的 诊 断 效 率 [9]. 王 欣 萍 将 BP 神 经 网 络 算 法 应 用 于 确 定 子 宫 肌 瘤 的 危 险 因 素 以 及 出 生 缺 陷 率 的 预 估, 表 现 出 良 好 的 准 确 性 [10]. 但 是 这 些 研 究 中, 大 都 只 利 用 了 病 历 中 的 少 数 结 构 化 数 据, 并 没 有 充 分 利 用 电 子 病 历 中 占 主 体 的 非 结 构 化 的 文 本 数 据, 因 而 取 得 的 效 果 极 其 有 限. 1.3 LDA 主 题 模 型 LDA [11] 是 由 David Blei 提 出 的 三 层 贝 叶 斯 模 型, 其 基 本 思 想 是 : 文 档 由 隐 含 的 主 题 生 成, 主 题 的 概 率 分 布 符 合 Dirichlet 分 布. 主 题 用 关 键 词 的 分 布 表 示, 文 档 集 由 同 一 组 主 题 生 成, 而 一 个 文 档 可 以 由 不 同 的 主 题 同 时 生 成. LDA 能 够 表 示 丰 富 的 语 义 信 息, 但 是 LDA 模 型 需 要 人 为 指 定 主 题 的 个 数. 图 1 LDA 图 概 率 模 型 图 在 上 述 图 概 率 模 型 图 中, α 和 β 是 语 料 级 别 的 参 数, 对 一 份 语 料 中 的 所 有 文 档 都 一 样. θ 是 文 档 级 别 的 参 数, 每 个 文 档 对 应 一 个 θ, z 和 w 都 是 单 词 级 别 的 参 数. 其 中 α 是 Dirichlet 分 布 的 参 数, 决 定 了 θ 的 分 布, θ d 是 文 档 d 下 的 主 题 概 率 分 布, β 为 Dirichlet 分 布 的 参 数. Z n 为 第 n 个 词 项 文 档 产 生 的 主 题, W n 为 主 题 产 生 的 词 项, 由 β 和 z 共 同 决 定. 生 成 W n 的 过 程 产 生 了 各 个 文 档, 以 上 生 成 过 程, 可 以 对 应 到 下 列 公 式 : N p( θ, z, w α, β) = p( θ α) p( zn θ) p( wn zn, β) n= 1 其 中, N 为 文 档 中 词 的 个 数, n 为 词 编 号. Z n 为 第 n 个 词 项 文 档 产 生 的 主 题, W n 为 主 题 产 生 的 词 项, 由 β 和 z 共 同 决 定. 在 迭 代 求 解 模 型 时, w 是 观 察 所 得, θ 和 z 是 隐 藏 变 量, 使 用 EM 算 法 求 解, E 步 输 入 α 和 β 计 算 似 然 函 数, M 步 最 大 化 这 个 似 然 函 数 算 出 α 和 β, 不 断 迭 代 直 至 收 敛. System Construction 系 统 建 设 45
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 2 基 于 语 义 的 中 文 医 学 信 息 主 题 建 模 电 子 病 历 中 信 息 的 主 要 形 式 是 自 然 语 言, 包 含 着 临 床 医 生 书 写 的 住 院 志 病 程 记 录 会 诊 记 录 手 术 记 录 以 及 各 种 科 室 发 出 的 放 射 超 声 内 镜 心 电 等 病 历 检 查 报 告 [12]. 这 些 非 结 构 化 的 文 本, 组 成 了 绝 大 多 数 的 病 历 内 容. 由 于 电 子 病 历 结 构 化 等 基 础 技 术 的 限 制, 蕴 含 在 这 些 非 结 构 化 文 本 中 的 信 息 并 没 有 得 到 充 分 有 效 的 利 用. 本 节 利 用 LDA 基 于 语 义 对 电 子 病 历 中 的 中 文 医 学 信 息 进 行 主 题 建 模, 进 而 进 行 术 语 相 关 性 分 析 和 病 历 相 似 度 分 析, 实 现 了 概 念 术 语 的 语 义 关 联 和 电 子 病 历 的 语 义 相 似 度 度 量, 从 而 可 对 病 历 中 的 非 结 构 化 文 本 加 以 挖 掘 分 析, 提 取 有 价 值 的 信 息. 2.1 电 子 病 历 中 文 医 学 语 言 数 据 集 的 构 建 和 预 处 理 2.1.1 电 子 病 历 中 文 医 学 语 言 数 据 集 采 集 由 于 电 子 病 历 数 据 涉 及 隐 私, 科 研 用 的 脱 敏 数 据 集 有 限, 所 以 本 文 在 进 行 实 验 时, 只 使 用 了 少 量 真 实 电 子 病 历 数 据. 其 他 的 数 据 来 自 于 各 大 医 疗 问 答 论 坛, 在 医 疗 论 坛 问 答 中, 包 含 了 病 人 对 自 己 症 状 的 描 述 以 及 医 生 的 初 步 诊 断 结 果 用 药 建 议 以 及 注 意 事 项, 与 病 历 中 的 文 本 有 很 大 的 相 似 性. 实 验 所 用 的 数 据 集 合 计 有 一 万 左 右 的 医 疗 文 本 数 据. 在 数 据 采 集 的 过 程 中, 使 用 基 于 Python 的 BeautifulSoup 编 写 爬 虫 程 序, 获 取 医 疗 问 答 数 据. 按 照 文 本 长 度 去 除 过 短 的 低 质 量 内 容 之 后, 存 储 成 纯 文 本 格 式. 结 合 已 有 的 电 子 病 历 文 档, 组 成 了 训 练 主 题 模 型 所 需 的 语 料. 2.1.2 数 据 集 分 词 去 除 标 点 和 停 用 词 对 收 集 到 的 中 文 医 学 语 言 数 据 集 进 行 进 一 步 预 处 理, 利 用 开 源 搜 索 引 擎 框 架 Lucene 提 供 的 IKAnalyzer 进 行 分 词 和 去 除 停 用 词 的 处 理. 经 过 分 词 器 的 处 理, 病 历 文 本 中 无 意 义 的 停 用 词 ( 如 的, 了 ) 以 及 标 点 符 号 被 去 除, 文 本 成 为 空 格 分 隔 的 关 键 字 的 集 合, 以 此 作 为 LDA 训 练 器 的 输 入. 2.1.3 LDA 主 题 模 型 的 训 练 经 过 预 处 理 的 语 料, 作 为 LDA 训 练 算 法 的 输 入, 可 以 进 行 LDA 模 型 的 训 练. LDA 模 型 训 练 使 用 了 基 于 Java 的 开 源 工 具 包 Mallet. 主 题 模 型 的 训 练 需 要 人 为 指 定 主 题 的 个 数, 主 题 的 个 数 的 选 择 需 要 基 于 分 析 人 员 对 于 训 练 语 料 的 先 验 知 识. 基 于 Mallet 的 LDA 主 题 模 型 训 练, 会 生 成 两 个 模 型 文 件. 一 个 包 含 了 所 有 的 主 题 的 关 键 词 表, 另 一 个 包 含 了 所 有 文 档 的 主 题 概 率 分 布. 更 具 体 来 讲, 主 题 的 关 键 词 表, 一 方 面 代 表 了 该 主 题 语 义 上 的 含 义, 另 一 方 面 是 对 关 键 词 基 于 潜 语 义 空 间 的 聚 类, 可 以 认 为 同 一 个 主 题 下 的 所 有 的 词, 都 具 有 语 义 关 联 性 ; 文 档 的 主 题 概 率 分 布, 则 是 在 潜 语 义 空 间 下, 文 档 的 一 种 表 示 方 式, 可 以 作 为 文 档 的 词 向 量 空 间 表 示 方 式 的 语 义 替 代. 2.2 医 学 概 念 术 语 的 语 义 相 关 性 分 析 利 用 构 建 完 成 的 中 文 医 学 语 料 集 基 于 Mallet 完 成 LDA 的 训 练, 并 获 得 了 各 个 主 题 的 关 键 词 表, 如 图 2 所 示. 图 2 各 主 题 关 键 词 表 主 题 的 关 键 词 表 代 表 了 本 主 题 的 含 义, 另 一 方 面 是 关 键 词 在 潜 语 义 空 间 上 的 聚 类. 同 一 个 主 题 下 的 关 键 词 具 有 语 义 上 的 关 联, 是 广 义 上 的 同 义 词 或 者 相 似 词. 由 此, 可 以 解 决 给 定 关 键 词 的 语 义 问 题, 通 过 主 题 关 键 词 表 将 关 键 词 扩 展 成 为 了 一 组 语 义 相 同 或 者 相 关 的 词. 假 设 在 LDA 主 题 模 型 的 训 练 结 果 中 有 主 题 T 1 ={w i, w i+1 W w n } 和 主 题 T 2 ={w j, w j+1 W w m }, 其 中 均 包 含 词 W 则 可 以 将 其 扩 展 为 由 w p 组 成 的 词 袋, 其 中 p=i n,j m, 从 而 扩 展 词 W 的 语 义, 达 到 利 用 词 W 的 上 下 文 语 义 对 W 的 含 义 进 行 描 述 的 目 的. 进 一 步, 利 用 T 1 和 T 2 的 共 现 的 关 键 词 个 数, 可 以 度 量 两 个 主 题 之 间 的 相 似 度. 根 据 主 题 关 键 词 表 对 关 键 词 进 行 语 义 扩 展, 可 以 更 充 分 描 述 关 键 词 的 含 义, 达 到 了 升 维 的 作 用. 2.3 电 子 病 历 文 档 的 语 义 相 似 度 分 析 基 于 LDA 主 题 模 型 训 练 过 程 中 产 生 的 文 档 在 各 个 主 题 上 的 概 率 分 布, 如 图 3 所 示, 可 以 作 为 潜 语 义 空 间 中 文 档 的 表 示 形 式, 用 来 替 代 传 统 的 词 向 量 空 间. 而 基 于 文 档 在 各 个 主 题 上 概 率 分 布 产 生 的 文 档 向 量 的 相 似 度, 可 以 代 表 文 档 的 潜 语 义 相 似 度. 假 设 指 定 主 题 的 个 数 为 N, LDA 主 题 模 型 训 练 完 成 之 后 会 产 生 每 个 文 档 在 N 个 主 题 上 的 概 率 分 布, 由 此 可 以 利 用 N 维 的 向 量 来 表 示 每 个 文 档, 每 一 维 代 表 46 系 统 建 设 System Construction
2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 一 个 主 题, 各 个 维 度 的 数 值 为 此 文 档 属 于 该 主 题 的 概 率, 作 为 向 量 的 权 重. 这 样 可 以 将 文 档 映 射 到 N 维 的 潜 语 义 空 间, 完 成 降 维, 进 而 可 以 利 用 降 维 之 后 的 结 果 进 行 文 档 的 相 似 度 分 析, 具 体 可 以 采 用 各 种 向 量 的 距 离 度 量 方 法, 比 如 余 弦 相 似 度 等. 经 过 降 维 之 后 文 档 的 主 题 向 量, 虽 然 损 失 了 相 当 一 部 分 的 信 息, 但 是 仍 然 可 以 保 持 潜 语 义 层 面 上 的 相 关 性, 也 就 是 说, 潜 语 义 空 间 上 相 关 的 文 档 往 往 具 有 语 义 上 潜 在 的 关 联 关 系, 例 如 油 腻 和 辛 辣 是 词 义 上 毫 无 关 系 的 两 个 词, 但 是 在 潜 语 义 层 面 上, 两 词 均 常 用 来 形 容 饮 食 习 惯, 多 见 于 病 历 文 本 的 饮 食 注 意 事 项 中, 在 语 义 和 上 下 文 关 系 上 存 在 着 比 较 高 的 相 似 性. 降 维 之 后 的 主 题 信 息 也 可 以 作 为 特 征, 结 合 传 统 的 词 向 量 空 间 的 特 征, 对 文 档 相 似 性 度 量 的 效 果 有 显 著 提 升. 为 结 构 化 数 据, 然 后 利 用 可 视 化 映 射 将 结 构 化 数 据 表 现 为 可 视 化 形 态, 从 而 将 原 始 数 据 传 递 给 人 的 感 知 系 统. 本 文 结 合 Card 的 可 视 模 型 特 点, 针 对 中 文 医 学 信 息 主 题 模 型 训 练 结 果 构 建 了 术 语 语 义 关 联 关 系 和 病 历 语 义 相 似 度 的 可 视 形 态 模 型. 图 4 主 题 模 型 可 视 形 态 交 互 与 数 据 迁 移 图 图 3 文 档 在 各 个 主 题 上 的 概 率 分 布 3 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 LDA 主 题 模 型 的 训 练 以 及 基 于 主 题 模 型 的 术 语 关 联 关 系 分 析 和 病 历 语 义 相 似 度 分 析 是 一 个 循 环 往 复 的 渐 进 的 探 索 过 程. 分 析 人 员 需 要 根 据 训 练 的 效 果, 不 断 调 整 主 题 的 个 数 重 新 清 理 数 据 以 达 到 最 优 的 训 练 效 果, 获 得 最 有 效 的 数 据 分 析 结 果. 因 此, 为 了 辅 助 分 析 人 员 进 行 主 题 模 型 训 练 并 进 行 术 语 关 联 关 系 分 析 和 病 历 语 义 相 似 度 分 析 的 过 程, 本 文 针 对 2.1 节 2.2 节 和 2.3 节 的 LDA 主 题 模 型 训 练 和 分 析 过 程 构 建 了 自 然 的 可 以 帮 助 用 户 快 速 对 训 练 分 析 效 果 做 出 判 断 的 降 低 分 析 人 员 交 互 负 担 的 可 视 化 形 态, 用 于 辅 助 分 析 人 员 LDA 主 题 模 型 的 训 练 和 分 析 过 程, 进 而 有 助 于 医 务 工 作 者 进 行 病 例 诊 断. 3.1 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 构 建 方 法 Card 认 为, 信 息 可 视 化 是 从 数 据 到 可 视 化 形 式 再 到 人 的 感 知 系 统 的 可 调 节 的 映 射 过 程 [13]. 在 Card 提 出 的 可 视 模 型 中, 首 先 利 用 数 据 变 化 把 原 始 数 据 预 处 理 如 图 4 所 示, 先 利 用 相 应 的 数 据 转 换 算 法, 将 主 题 模 型 训 练 结 果 转 换 为 可 视 形 态 可 以 映 射 的 可 视 结 构, 映 射 到 用 户 的 可 视 视 图 上 ; 用 户 再 根 据 自 己 的 领 域 知 识 和 先 验 知 识 对 可 视 视 图 进 行 交 互, 如 拖 拽 圈 选 钻 取 等 ; 可 视 视 图 再 根 据 用 户 的 交 互 动 作, 将 对 数 据 的 修 改 映 射 到 相 应 的 可 视 结 构 上, 可 以 是 结 果 的 调 整 修 改 筛 选 排 序, 甚 至 是 修 改 模 型 训 练 的 参 数 重 新 训 练 主 题 模 型. 3.2 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 分 析 形 态 集 可 视 分 析 系 统 基 于 LDA 主 题 模 型 训 练 结 果, 提 供 可 视 形 态 呈 现 数 据 并 提 供 交 互 操 作 帮 助 用 户 调 整 分 析 数 据. 本 文 结 合 基 于 语 义 的 医 学 术 语 关 联 关 系 以 及 病 历 的 语 义 相 关 性 分 析 需 求, 针 对 在 数 据 分 析 的 各 个 阶 段 中 遇 到 的 问 题 构 建 了 一 系 列 可 视 形 态 集 合, 如 图 5 所 示. 3.2.1 医 学 术 语 语 义 关 系 可 视 形 态 医 学 术 语 语 义 关 系 可 视 形 态 用 于 对 语 料 中 包 含 的 医 学 术 语 的 关 联 关 系 进 行 可 视 化, 可 以 直 观 地 将 术 语 关 键 字 之 间 以 及 术 语 集 合 之 间 语 义 关 联 关 系 表 示 出 来. 如 图 6(a) 所 示, 同 一 个 主 题 的 所 有 术 语 关 键 字 形 成 簇, 代 表 术 语 集 合, 被 选 中 的 术 语 位 于 簇 的 中 心 ; 同 时 包 含 被 选 中 术 语 的 术 语 集 合 簇 被 链 接 在 一 起. 术 语 集 合 之 间 的 距 离 远 近, 代 表 了 两 个 集 合 术 语 关 键 字 重 叠 的 个 数, 表 现 出 两 个 术 语 集 合 的 相 似 度. System Construction 系 统 建 设 47
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 图 5 可 视 形 态 分 类 图 3.2.2 主 题 关 键 字 标 签 云 可 视 形 态 主 题 关 键 字 标 签 云 可 视 形 态 利 用 标 签 云 的 方 式 将 每 个 主 题 中 的 所 有 关 键 词 显 示 出 来. 如 图 6(b) 所 示, 每 一 行 代 表 一 个 主 题, 同 样 的 关 键 字 用 同 样 的 颜 色 和 字 体 标 识, 可 以 快 速 探 查 某 个 特 定 关 键 字 出 现 在 哪 些 主 题 中. 对 于 选 中 的 关 键 字 用 字 体 的 大 小 代 表 关 键 字 的 权 重, 字 体 越 大, 对 主 题 的 区 分 度 越 强. (a) 医 学 术 语 语 义 关 系 可 视 形 态 (d) 病 历 文 档 在 各 主 题 上 概 率 分 布 可 视 形 态 图 6 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 分 析 形 态 集 3.2.3 病 历 语 义 相 关 性 网 络 可 视 形 态 病 历 语 义 相 关 性 网 络 可 视 形 态 描 述 病 历 文 档 之 间 的 语 义 相 似 度. 如 图 6(c) 所 示, 每 一 个 结 点 代 表 一 个 病 历 文 档, 结 点 之 间 的 距 离 表 示 文 档 之 间 的 相 似 度. 距 离 越 近 相 似 度 越 高, 距 离 越 远 相 似 度 越 低, 相 似 的 病 历 可 以 为 病 患 的 诊 断 提 供 参 考. 为 方 便 探 查, 相 似 度 网 络 会 以 指 定 病 历 为 中 心 进 行 布 局. 3.2.4 病 历 文 档 在 各 主 题 上 概 率 分 布 可 视 形 态 病 历 文 档 在 各 个 主 题 上 的 概 率 分 布 可 视 形 态, 用 折 线 图 的 方 式 展 示 出 病 历 在 各 个 主 题 上 的 概 率 分 布, 如 图 6(d) 所 示. 可 以 直 观 地 掌 握 每 个 病 历 由 哪 几 个 主 题 生 成, 根 据 大 部 分 病 历 文 档 的 主 题 组 成 可 以 直 观 的 判 断 主 题 模 型 训 练 的 效 果. 若 大 部 分 病 历 在 概 率 分 布 图 上 均 呈 现 出 单 峰 或 双 峰 则 模 型 训 练 的 结 果 较 好 ; 若 大 部 分 病 历 在 各 个 主 题 上 均 没 有 很 明 显 的 倾 向 性, 则 主 题 模 型 训 练 得 出 的 信 息 量 非 常 少, 不 足 以 从 语 义 上 区 分 各 个 病 历 文 档. (b) 主 题 关 键 字 标 签 云 可 视 形 态 (c) 病 历 语 义 相 关 性 网 络 可 视 形 态 4 面 向 中 文 医 学 信 息 的 可 视 分 析 架 构 本 文 构 建 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 系 统 体 系 架 构 如 图 7 所 示. 系 统 架 构 分 为 6 层. 1 多 源 异 构 数 据 源 层 : 主 要 用 于 描 述 在 各 个 电 子 病 历 系 统 以 及 各 种 电 子 病 历 数 据 源 的 多 源 异 构 的 数 据 源. 由 于 缺 乏 对 现 有 电 子 病 历 标 准 的 贯 彻 实 施, 大 部 分 数 据 源 均 有 各 自 的 存 储 方 式 和 格 式, 如 数 据 库 Word 文 档 Web 页 面 纯 文 本 文 档 等, 因 此 首 先 要 为 各 种 数 据 源 编 写 对 应 的 接 口, 将 所 需 的 中 文 医 学 信 息 文 本 统 一 转 化 为 纯 文 本 文 档. 2 数 据 预 处 理 层 : 主 要 用 于 对 纯 文 本 文 档 进 行 分 词 去 停 用 词 等 预 处 理 操 作, 经 过 预 处 理 模 块, 纯 文 48 系 统 建 设 System Construction
2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 本 文 档 被 处 理 成 为 可 以 作 为 数 据 挖 掘 算 法 输 入 的 语 料. 本 文 集 成 了 基 于 Lucene 的 IKAnalyzer 作 为 分 词 器 并 用 医 学 语 言 词 典 作 为 分 词 字 典, 使 用 了 搜 狗 在 线 语 料 库 中 的 停 用 词 表. 此 外, 由 于 很 多 病 历 语 料 内 容 过 短, 不 能 有 效 提 供 信 息, 还 编 写 了 低 质 量 数 据 清 洗 程 序, 用 以 过 滤 低 质 数 据. 3 数 据 挖 掘 算 法 层 : 主 要 用 于 将 预 处 理 完 成 的 语 料 作 为 输 入, 进 行 模 型 训 练, 输 出 模 型 文 件. 本 文 集 成 了 开 源 的 基 于 Java 的 Mallet 工 具 作 为 LDA 模 型 的 训 练 算 法, 为 了 方 便 进 一 步 的 文 本 分 析 挖 掘 工 作, 还 编 写 了 若 干 工 具 算 法 模 块, 例 如 TFIDF 计 算 算 法 各 种 相 似 度 计 算 算 法 等. 此 外 还 设 计 了 系 统 接 口 用 于 接 入 更 多 的 数 据 挖 掘 算 法, 以 便 进 一 步 丰 富 系 统 的 功 能. 4 可 视 化 结 构 数 据 提 取 层 : 结 合 可 视 化 需 求, 以 模 型 文 件 为 依 据 进 行 进 一 步 的 计 算, 生 成 可 以 直 接 映 射 为 可 视 化 形 态 的 可 视 化 结 构 数 据. 本 文 针 对 面 向 中 文 医 学 信 息 主 题 模 型 中 的 常 见 问 题, 为 各 种 可 视 分 析 需 求 编 写 了 相 应 的 算 法 库, 提 取 相 应 的 可 视 化 结 构 数 据, 用 于 支 持 中 文 医 学 信 息 的 可 视 分 析 过 程. 5 可 视 形 态 层 : 主 要 由 可 视 形 态 集 合 交 互 任 务 集 两 个 模 块 组 成. 本 文 从 易 于 用 户 理 解 和 认 知 的 角 度 构 建 了 一 套 面 向 中 文 医 学 信 息 主 题 模 型 的 可 视 形 态 集, 并 提 供 了 易 于 交 互 使 用 的 交 互 任 务 辅 助 用 户 的 数 据 质 量 管 理 与 分 析. 6 支 撑 数 据 接 口 层 : 将 可 视 分 析 产 生 的 结 果 数 据, 按 照 指 定 的 格 式 进 行 导 出. 用 于 进 一 步 的 数 据 分 析 系 统 构 建 等. 图 7 面 向 中 文 医 学 信 息 的 可 视 分 析 架 构 5 可 视 化 结 构 数 据 提 取 算 法 5.1 主 题 关 键 字 标 签 云 布 局 算 法 当 分 析 人 员 针 对 LDA 主 题 模 型 评 估 各 个 主 题 聚 类 的 效 果 时, 往 往 会 先 通 过 每 个 主 题 包 含 的 主 题 关 键 字 推 测 该 主 题 的 大 致 含 义. 为 了 帮 助 分 析 人 员 快 速 把 握 每 个 主 题 的 含 义, 本 文 利 用 标 签 云 的 方 式 展 现 每 个 主 题 的 关 键 字. 为 了 保 持 自 上 而 下 的 阅 读 习 惯, 主 题 的 关 键 字 依 然 按 行 列 出, 为 了 区 分 同 一 个 关 键 字 在 不 同 主 题 中 的 不 同 语 义, 同 一 个 关 键 字 使 用 了 相 同 颜 色 和 大 小. 此 外, 同 一 个 主 题 不 同 的 关 键 字 对 于 主 题 含 义 的 区 分 度 是 不 同 的, 而 现 有 的 主 题 模 型 中, 并 没 有 对 这 些 关 键 字 的 重 要 性 作 区 分, 本 文 拟 用 词 频 率 逆 文 档 频 率 作 为 衡 量 关 键 字 重 要 性 的 权 重, 关 键 字 在 标 签 云 中 的 显 示 大 小 与 权 值 大 小 成 正 比. 其 计 算 公 式 如 下 : n i, j tfi, j = D idfi = lo g n k, j k { j : ti d j } tfidfi, j= tfi, j idfi 其 中, tf i,j 的 计 算 公 式 中, n i,j 为 该 词 在 文 档 d j 中 出 现 的 次 数 总 和, 而 分 母 为 文 档 d j 中 所 有 词 出 现 的 次 数 总 和. 在 idf i 的 计 算 公 式 中, D 为 语 料 库 中 文 档 总 数, 分 子 为 包 含 词 t i 的 文 档 总 数. 5.2 病 历 文 档 语 义 相 关 性 布 局 算 法 病 历 文 档 基 于 语 义 的 相 关 性 度 量, 是 面 向 中 文 医 学 信 息 主 题 模 型 的 重 要 输 出 数 据. 文 档 相 关 性 是 文 档 信 息 检 索 的 基 本 问 题, 因 此 基 于 语 义 的 文 档 相 似 度 度 量 算 法 对 于 基 于 语 义 的 病 历 文 档 检 索 有 重 要 意 义. 对 于 面 向 中 文 医 学 信 息 的 主 题 模 型, 假 设 指 定 的 主 题 个 数 为 N, 则 在 主 题 模 型 输 出 的 文 档 关 于 各 个 主 题 的 概 率 分 布 中, 每 个 文 档 可 以 表 示 为 R={S 1,S 2,S 3, S i }, 其 中 i {1,2 N}, Si 为 文 档 属 于 主 题 i 的 概 率. 为 了 计 算 文 档 的 相 似 性, 可 以 用 向 量 之 间 的 夹 角 余 弦 值 来 表 示 : Ri Rj Similar( Ri, Rj) = cos( Ri, Rj) = Ri Rj 为 了 方 便 用 户 对 相 关 性 网 络 进 行 可 交 互 的 探 查, [14] 采 用 了 有 限 制 条 件 的 Verlet 算 法 进 行 节 点 布 局. Verlet 算 法 是 一 种 用 于 求 解 牛 顿 运 动 方 程 的 数 值 方 法, 被 广 泛 应 用 于 分 子 动 力 学 模 拟 以 及 视 频 游 戏 中. 在 交 互 操 作 中, 当 用 户 改 变 某 个 节 点 的 位 置, 需 要 对 每 个 节 点 的 位 置 用 以 下 公 式 进 行 重 新 计 算, 从 而 完 成 整 个 System Construction 系 统 建 设 49
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 网 络 的 重 新 布 局 : wq( d p q pq) rp = ( wp+ wq) p q 其 中, r p 即 为 p 点 的 位 移 ; q 点 为 固 定 点 的 位 置, w 为 p q 两 点 的 权 重. 由 于 q 为 固 定 点, w q >> w p. 5.3 医 学 术 语 关 键 字 集 合 相 似 性 度 量 算 法 医 学 主 题 由 医 学 术 语 关 键 字 集 合 组 成, 医 学 术 语 关 键 字 集 合 的 相 似 性 表 现 了 各 个 医 学 主 题 之 间 的 相 似 性. 在 主 题 模 型 的 训 练 中, 主 题 个 数 设 置 过 大 往 往 导 致 产 生 相 似 性 比 较 高 的 主 题, 对 主 题 相 似 性 进 行 呈 现 有 助 于 分 析 人 员 优 化 模 型 训 练 参 数, 提 升 模 型 训 练 效 果. 医 学 术 语 关 键 字 集 合 相 似 性 计 算 公 式 如 下 : 2 Nw ( ) Similar( Ti, Tj) = N( wi) + N( wj) 其 中, T i 和 T j 代 表 两 个 术 语 关 键 字 集 合, N(w) 代 表 两 个 术 语 集 合 中 相 同 的 关 键 字 个 数, 而 N(w i ) 和 N(w j ) 分 别 代 表 两 个 术 语 关 键 字 集 合 中 的 关 键 字 个 数. 6 应 用 实 例 基 于 以 上 研 究, 我 们 开 发 了 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 如 图 8, 针 对 已 构 建 的 中 文 医 学 语 言 数 据 集 进 行 了 LDA 主 题 模 型 的 训 练 和 可 视 分 析, 进 行 了 效 果 验 证. 图 8 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统 界 面 图 可 视 分 析 系 统 根 据 指 定 的 源 数 据 集 所 在 的 目 录, 根 据 数 据 类 型 调 用 对 应 的 数 据 源 处 理 接 口, 将 数 据 处 理 为 纯 文 本 格 式, 再 通 过 预 处 理 模 块 进 行 分 词 去 停 用 词 等 预 处 理, 形 成 模 型 训 练 的 语 料. 语 料 经 过 LDA 模 型 训 练 之 后, 输 出 模 型 文 件, 通 过 可 视 化 结 构 数 据 构 建 算 法 计 算 出 可 视 化 结 构 数 据, 映 射 到 图 6 所 示 的 各 个 可 视 形 态 中. 首 先, 分 析 人 员 可 以 在 主 题 关 键 字 标 签 云 中 探 查 各 个 主 题 的 含 义 以 及 每 个 关 键 字 在 不 同 主 题 中 的 语 义, 如 图 6(b) 所 示, 其 中 怀 孕 存 在 于 两 个 主 题 中, 并 且 语 义 有 所 不 同, 前 者 倾 向 于 计 划 中 的 怀 孕, 而 后 者 倾 向 于 避 孕. 在 大 致 了 解 每 个 主 题 的 含 义 之 后, 分 析 人 员 对 本 次 主 题 模 型 的 训 练 效 果 已 经 有 了 大 致 的 认 识, 并 且 可 以 对 各 个 主 题 的 含 义 进 行 标 注. 然 后 分 析 人 员 可 以 利 用 图 6(d) 中 的 可 视 形 态, 探 查 各 个 文 档 在 各 个 主 题 上 的 概 率 分 布, 并 利 用 先 验 知 识 验 证 合 理 性. 进 行 完 如 上 的 合 理 性 验 证 之 后, 基 本 可 以 确 定 主 题 模 型 的 训 练 效 果, 决 定 是 否 需 要 调 整 参 数 重 新 训 练 甚 至 重 新 清 理 数 据 集. 图 6(a) 以 及 图 6(c) 中 的 可 视 形 态, 可 以 帮 助 分 析 人 员 直 观 判 断 可 视 分 析 系 统 的 产 出 数 据 是 否 合 理, 并 有 利 于 分 析 人 员 对 新 的 病 例 进 行 诊 断. 比 如, 当 分 析 人 员 拿 到 一 份 新 的 与 怀 孕 有 关 的 病 历 时, 可 50 系 统 建 设 System Construction
2015 年 第 24 卷 第 11 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 以 首 先 根 据 图 6(a) 和 图 6(b) 中 的 主 题 关 键 词 关 系 网 络 和 标 签 云 找 到 与 该 病 历 相 关 的 主 题 关 键 词, 比 如 早 孕 试 纸 排 卵 期 等, 进 而 利 用 这 些 关 键 词 对 病 历 文 档 进 行 检 索, 找 到 相 关 的 历 史 病 历 及 诊 断 方 案 进 行 参 考. 进 一 步, 可 以 利 用 如 图 6(c) 的 文 档 主 题 相 似 性 对 检 索 出 的 文 档 进 行 筛 选, 得 出 高 相 关 性 的 文 档 进 行 参 考. 综 上 可 知, 利 用 如 上 的 可 视 形 态, 分 析 人 员 可 以 在 较 短 时 间 内, 判 断 主 题 模 型 的 训 练 效 果, 验 证 输 出 的 合 理 性. 此 外, 分 析 人 员 还 可 以 利 用 交 互 任 务 集, 对 输 出 结 果 进 行 微 调, 修 正 明 显 的 错 误 用 例, 最 终 产 出 合 理 可 以 进 一 步 使 用 的 数 据 集. 7 结 论 与 展 望 本 文 构 建 了 中 文 医 学 信 息 数 据 集, 基 于 Mallet 进 行 了 主 题 模 型 训 练 并 针 对 在 主 题 模 型 训 练 和 分 析 中 可 能 遇 到 的 问 题 构 建 了 可 视 化 结 构 数 据 并 映 射 为 可 视 化 形 态, 同 时, 为 了 辅 助 主 题 模 型 训 练 和 分 析, 减 轻 分 析 人 员 的 认 知 负 担, 设 计 了 对 应 的 交 互 任 务 集, 帮 助 分 析 人 员 对 中 文 医 学 信 息 进 行 分 析 与 管 理. 最 后, 开 发 了 一 个 面 向 中 文 医 学 信 息 的 可 视 分 析 系 统, 并 结 合 具 体 实 例 进 行 验 证. 结 果 表 明, 该 系 统 能 够 有 效 地 进 行 主 题 模 型 的 训 练 与 分 析. 由 于 时 间 所 限, 本 系 统 还 存 在 以 下 不 足 : 仅 仅 使 用 了 一 种 主 题 模 型, 从 中 文 医 学 信 息 中 获 得 的 信 息 有 限, 此 外 辅 助 主 题 模 型 训 练 和 分 析 的 可 视 形 态 还 不 够 丰 富, 在 未 来 的 工 作 中 还 有 许 多 在 电 子 病 历 中 文 医 学 信 息 的 组 织 和 分 析 中 有 实 用 价 值 的 算 法 可 以 应 用. 例 如 K-Means KNN 等 基 于 距 离 的 聚 类 算 法 可 以 基 于 给 定 的 文 档 的 向 量 表 示 方 法, 对 电 子 病 历 文 档 进 行 聚 类, 帮 助 分 析 人 员 发 现 病 历 文 档 之 间 的 关 系 和 规 律 ; Apriori 和 FP-Growth 算 法 可 以 用 于 发 现 电 子 病 历 文 本 中 的 频 繁 模 式, 挖 掘 出 具 有 实 用 价 值 的 临 床 医 学 规 律 ; 在 给 定 电 子 病 历 医 学 分 类 的 情 况 下, 还 可 以 利 用 已 标 注 的 训 练 数 据 集 基 于 各 种 文 本 分 类 算 法 ( 如 SVM 等 ) 对 病 历 进 行 分 类, 方 便 电 子 病 历 文 档 的 组 织 和 管 理. 参 考 文 献 1 温 有 奎, 焦 玉 英. 基 于 语 义 三 元 组 的 电 子 病 历 潜 在 知 识 发 现 研 究. 情 报 学 报,2011,30(7):675 681. 2 曹 原, 齐 静. 电 子 病 历 在 医 院 实 施 HIS 系 统 中 的 优 点 及 不 足. 青 海 医 药 杂 志,2006,35(10):33 33. 3 陈 衡. 结 构 化 电 子 病 历 综 述. 湖 南 省 图 书 情 报 学 研 究 生 论 坛,2010. 4 丁 卫 平, 施 佺, 管 致 锦. 基 于 频 繁 概 念 格 的 电 子 病 历 关 联 规 则 挖 掘 研 究. 微 电 子 学 与 计 算 机,2008,25(8):125 128. 5 曾 勇. 关 联 规 则 在 脑 科 电 子 病 历 挖 掘 中 的 应 用. 医 学 信 息 学 杂 志,2014,35(10):55 58. 6 王 晓, 张 健. 基 于 Lucene 检 索 引 擎 的 电 子 病 历 全 文 检 索 系 统. 医 疗 卫 生 装 备,2009,29(12):43 44. 7 胡 恒 文, 高 智 勇, 王 辉. 基 于 Clucene 的 电 子 病 历 全 文 检 索 系 统 研 究 与 设 计. 计 算 机 与 数 字 工 程,2014,42(3):521 525. 8 赵 洋, 李 万 龙, 白 杰 英. 基 于 本 体 的 电 子 病 历 检 索 系 统 研 究. 计 算 机 技 术 与 发 展,2010,20(3):211 213. 9 刘 立 刚, 钟 锐, 杨 娟. 基 于 兴 趣 度 的 Apriori 算 法 在 电 子 病 历 数 据 分 析 中 的 应 用. 江 西 理 工 大 学 学 报,2013,34(5):72 76. 10 王 欣 萍, 孙 昕, 孙 尧. 基 于 BP 人 工 神 经 网 络 模 型 构 建 电 子 病 历 系 统 的 数 据 分 析. 中 国 组 织 工 程 研 究,2011,15(35): 6592 6595. 11 Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. the Journal of machine Learning research, 2003, 3: 993 1022. 12 李 昊 曼, 段 会 龙, 吕 旭 东. 医 学 语 言 处 理 技 术 及 应 用. 中 国 数 字 医 学,2008,3(11):11 13. 13 Card SK, Mackinlay JD, Shneiderman B, eds. Readings in Information Visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999:15 20. 14 Dwyer T. Scalable, versatile and simple constrained graph layout. Computer Graphics Forum, 2009, 28(3): 991 998. System Construction 系 统 建 设 51