中 文 信 息 处 理 翟 喜 奎 / 北 京 100081 摘 要 : 负 有 重 点 收 藏 和 长 期 保 存 中 文 资 源, 建 立 中 文 资 源 保 障 中 心, 建 设 中 文 资 源 查 询 基 地 的 责 任 因 此, 中 文 信 息 处 理 在 中 的 应 用 具 有 重 要 作 用 文 章 对 中 文 信 息 处 理 以 及 中 文 信 息 处 理 标 准 规 范 进 行 介 绍 ; 指 出 中 文 信 息 处 理 标 准 规 范 在 建 设 中 的 必 要 性 和 重 大 意 义 该 文 为 2008 年 第 八 期 的 文 章 之 一 关 键 词 :,,, 中 文 信 息 处 理, 汉 属 性 典 DOI:10.3772/j.issn.1673-2286.2008.08.007 1 引 言 是 面 向 未 来 互 联 网 发 展 的 信 息 管 理 模 式 以 资 源 的 制 作 存 储 管 理 传 输 和 服 务 为 主 要 特 征 的 技 术, 是 21 世 纪 际 科 技 文 化 竞 争 的 焦 点 之 一 中 是 信 息 技 术 和 网 络 技 术 发 展 的 必 然 结 果, 是 传 统 在 信 息 网 络 时 代 的 拓 展 与 延 伸 根 据 的 职 能, 在 资 源 建 设 方 面, 全 面 收 藏 中 文 文 献 信 息, 是 全 球 最 大 的 中 文 文 献 提 供 中 心 ; 负 有 重 点 收 藏 和 长 期 保 存 中 文 资 源 建 立 中 文 资 源 保 障 中 心 建 设 中 文 资 源 查 询 基 地 的 责 任 [1] 因 此, 中 文 信 息 处 理 在 建 设 中 具 有 重 要 作 用 中 文 信 息 处 理 包 括 汉 编 码 符 集 中 文 信 息 输 入 输 出 中 文 信 息 处 理 基 础 研 究 等 各 个 方 面 为 了 规 范 指 导 建 设, 制 定 了 一 系 列 的 相 关 标 准 规 范 中 文 信 息 处 理 是 标 准 规 的 一 部 分 主 要 包 括 五 个 方 面 内 容 :1 汉 属 性 典 规 范 ;2 古 籍 用 规 范 ;3 生 僻 避 讳 处 理 规 范 ;4 计 算 机 中 文 信 息 处 理 规 范 ;5 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 通 过 中 文 信 息 处 理 标 准 规 范 的 制 定 与 实 施, 指 导 资 源 制 作 存 储 管 理 传 输 和 服 务 完 整 过 的 建 设 2 汉 属 性 典 规 范 汉 属 性 典 规 范 是 确 保 建 设 的 重 要 标 准 规 范 之 一 针 对 文 献 类 型 复 杂 使 用 汉 符 量 大 等 特 点, 汉 属 性 典 规 范 要 求 处 理 的 汉 范 围 为 GB18030-2005(UNICODE5.1 ISO10646-2003) 所 包 括 的 全 部 汉 汉 属 性 典 规 范 的 基 本 内 容 是 汉 型 标 准 化 汉 标 准 发 音 型 特 征 ( 包 括 汉 总 笔 画 量 汉 起 笔 至 末 笔 部 首 笔 画 量 部 首 序 号 部 首 外 起 笔 异 体 量 异 体 型 等 ) 各 种 编 码 ( 包 括 四 角 号 码 输 入 编 码 其 他 汉 符 集 编 码 等 ) 以 及 构 词 和 使 用 频 度 等 汉 属 性 典 规 范 应 解 决 :1 代 码 转 换 ; 2 为 检 索 提 供 规 范 ; 3 汉 排 序 ; 4 音 转 换 ; 5 为 文 研 究 提 供 汉 的 基 本 属 性 ; 6 提 供 汉 电 子 具 等 应 用 问 题 汉 属 性 典 规 范 是 建 立 汉 属 性 系 统 的 基 础, 是 汉 信 息 处 理 系 统 的 一 个 重 要 组 成 部 分, 可 以 使 计 算 机 处 理 中 文 信 息 的 功 能 更 为 齐 全, 提 高 效 率, 促 进 标 准 化 对 汉 属 性 典 规 范 的 研 究 和 利 用 是 中 文 信 息 处 理 技 术 不 断 深 入 发 展 以 及 深 入 应 用 的 必 然 结 果 因 此, 对 汉 属 性 典 规 范 的 研 究 与 应 用 具 有 很 重 要 的 意 义 2.1 汉 属 性 典 规 范 与 其 它 规 范 的 关 系 汉 属 性 典 规 范 是 中 文 信 息 处 理 的 基 础, 也 是 古 籍 用 规 范 生 僻 和 避 讳 处 理 规 范 计 算 机 中 文 信 息 处 理 规 范 的 基 础 古 籍 用 规 范 生 僻 和 避 讳 处 理 规 范 计 算 机 中 文 信 息 处 理 规 范 是 49 http: // www.dlf.net.cn 2008 年 第 8 期 ( 总 第 51 期 )
汉 属 性 典 规 范 的 具 体 应 用 2.2 汉 属 性 典 研 究 现 状 在 汉 属 性 研 究 方 面, 自 80 年 代 中 期, 我 相 继 研 制 出 了 一 些 具 有 应 用 价 值 的 汉 属 性 典 汉 属 性 库 和 汉 属 性 系 统 基 于 GB13000.1 信 息 技 术 通 用 多 八 位 编 码 符 集 即 (ISO/ IEC10646.1-1993) UNICODE1.0 的 汉 属 性 标 准 研 究 已 经 完 成, 解 决 的 汉 量 只 是 基 本 集 20902 个 汉 但 是, 基 于 UNICODE5.1(ISO/IEC10646: 2003) 的 汉 属 性 标 准 研 究, 当 前 还 是 空 白, 除 了 已 经 解 决 的 汉 基 本 集 20902 个 汉 之 外, 还 要 解 决 的 汉 量 是 扩 充 A 集 6582 个 汉 扩 充 B 集 42711 个 汉 要 加 速 这 方 面 的 基 础 研 究, 满 足 资 源 建 设 以 及 实 际 应 用 的 需 求 为 了 适 应 未 来 的 发 展 和 应 用, 已 有 的 汉 属 性 研 究 还 需 要 进 一 步 拓 展 和 深 入 需 要 将 汉 属 性 研 究 的 汉 量 从 20902 扩 大 到 70195 ; 需 要 对 汉 属 性 研 究 的 内 容 根 据 应 用 的 需 求 不 断 扩 充 ; 需 要 对 汉 的 有 些 属 性, 根 据 ISO/ IEC10646 进 行 相 应 的 调 整 补 充 ; 需 要 加 强 对 属 性 据 的 维 护 与 更 新 汉 属 性 典 规 范 要 求 处 理 的 汉 范 围 为 是 GB18030-2005(UNICODE5.1 ISO10646-2003) 所 包 括 的 全 部 汉 ( 即 7 万 多 ), 要 求 满 足 资 源 建 设 以 及 实 际 应 用 的 需 求 汉 属 性 典 规 范 是 中 文 信 息 处 理 的 基 础, 为 中 文 信 息 处 理 提 供 基 础 据, 为 中 文 信 息 处 理 应 用 提 供 支 撑 目 前, 内 外 对 汉 属 性 典 研 究 在 7 万 多 范 围 的 还 是 空 白, 因 此, 在 处 理 难 度 上 可 想 而 知 2.3 代 码 转 换 汉 编 码 符 集 是 汉 的 存 储 和 传 输 码, 一 般 又 称 为 汉, 也 叫 做 汉 的 机 汉 编 码 符 集 是 计 算 机 可 以 识 别 的 编 码, 适 用 于 汉 处 理 汉 通 信 等 系 统 之 间 的 信 息 交 换 汉 输 入 编 码 是 输 入 汉 时 使 用 的 编 码, 一 般 又 称 为 汉 外 码, 也 叫 做 汉 的 机 外 码 汉 输 入 编 码 跟 特 定 输 入 法 相 对 应, 通 过 汉 外 码 转 换 成 汉 输 入 到 计 算 机 中 汉 属 性 典 规 范 提 供 我 已 经 颁 布 的 信 息 交 换 用 汉 编 码 符 集 中 的 符 与 其 他 和 地 区 的 汉 信 息 交 换 码 的 对 照 关 系, 实 现 我 与 不 同 地 区 之 间 的 机 读 据 的 相 互 转 换 ; 汉 属 性 典 规 范 提 供 汉 输 入 编 码 与 汉 编 码 符 集 的 对 照 关 系, 解 决 超 大 符 集 的 汉 输 入 问 题 [2] 2.3.1 内 外 汉 编 码 符 集 (1)GB 2312-80 信 息 交 换 用 汉 编 码 符 集 - 基 本 集 中 于 1980 年 3 月 颁 布 了 第 一 个 汉 编 码 符 集 标 准, 即 GB 2312-80 信 息 交 换 用 汉 编 码 符 集 - 基 本 集 该 标 准 符 合 ISO 2022 编 码 体 系 结 构 1981 年 5 月 1 日 开 始 正 式 实 施, 它 奠 定 了 中 中 文 信 息 处 理 技 术 的 发 展 基 础 (2) 编 码 符 集 的 繁 体 和 简 体 对 应 编 码 1984 年 全 计 算 机 与 信 息 处 理 标 准 化 技 术 委 员 会 提 出 编 码 符 集 的 繁 体 和 简 体 对 应 编 码 的 原 则, 并 做 出 了 制 定 六 个 信 息 交 换 用 汉 编 码 符 集 的 计 划 这 六 个 集 分 别 命 名 为 基 本 集 (GB2312-80) 第 一 辅 助 集 ( 辅 一,GB 12345-90) 第 二 辅 助 集 ( 辅 二,GB 7589-87) 第 三 辅 助 集 ( 辅 三,GB13131-1991) 第 四 辅 助 集 ( 辅 四,GB 7590-87) 第 五 辅 助 集 ( 辅 五, GB13132-1991) 其 中, 基 本 集 辅 二 集 辅 四 集 是 简 体 集, 辅 一 集 辅 三 集 辅 五 集 分 别 是 基 本 集 辅 二 集 辅 四 集 的 繁 体 映 射 集, 且 简 / 繁 在 两 个 符 集 中 同 码 ( 个 别 简 / 繁 关 系 为 一 对 多 的 汉 除 外 ) 这 六 个 集 均 采 用 双 七 位 编 码 方 式, 但 为 了 避 开 ASCII 表 中 的 控 制 码, 每 个 七 位 只 选 取 了 94 个 编 码 位 置 所 以 每 张 代 码 表 分 94 个 区 和 94 个 位 其 中 前 15 区 作 为 拼 音 文 及 符 号 区 或 保 留 未 用,16 区 到 94 区 为 汉 区 符 集 (3)GB13000 信 息 技 术 通 用 多 八 位 编 码 1990 年 中 颁 布 了 GB13000 信 息 技 术 通 用 多 八 位 编 码 符 集 随 着 际 间 的 交 流 与 合 作 的 扩 大, 信 息 处 理 应 用 对 符 集 提 出 了 多 文 种 大 量 多 用 途 的 要 求 1993 年 际 标 准 化 组 织 发 布 了 ISO/IEC 10646-1 信 息 技 术 通 用 多 八 位 编 码 符 集 第 一 部 分 体 系 结 构 与 基 本 多 文 种 平 面 我 等 同 采 用 此 标 准 制 定 2008 年 第 8 期 ( 总 第 51 期 ) http: // www.dlf.net.cn 50
了 GB 13000.1-1993 该 标 准 采 用 了 全 新 的 多 文 种 编 码 体 系, 收 录 了 中 日 韩 20902 个 汉, 是 编 码 体 系 未 来 发 展 方 向 (4)GBK 编 码 符 集 1995 年 12 月 完 成 GBK 规 范 GBK 编 码 是 GB2312-80 标 码 的 扩 充 ( 其 中 GB 表 示 标,K 表 示 扩 展 ) 但 是 GBK 编 码 本 身 不 是 标 准 该 编 码 规 范 完 全 兼 容 GB2312-80 (5)GB18030-2005 中 文 编 码 符 集 2005 年 中 颁 布 了 标 准 GB18030-2005 中 文 编 码 符 集 替 代 了 GB18030-2000 信 息 交 换 用 汉 编 码 符 集 基 本 集 的 扩 充 这 是 我 继 GB2312-1980 和 GB13000-1993 GB18030-2000 之 后 最 重 要 的 汉 编 码 标 准, 是 未 来 我 计 算 机 系 统 必 须 遵 循 的 基 础 性 标 准 之 一, 该 标 准 是 强 制 性 标 准 在 中 大 部 分 计 算 机 系 统 仍 然 采 用 GB 2312 编 码 GB 18030 与 GB 2312 一 脉 相 承, 较 好 地 解 决 了 旧 系 统 向 新 系 统 的 转 换 问 题, 并 且 改 造 成 本 较 小 从 我 信 息 技 术 和 信 息 产 业 发 展 的 角 度 出 发, 考 虑 到 满 足 我 用 户 的 需 要 及 保 证 现 有 系 统 的 兼 容 性 和 对 多 种 操 作 系 统 的 支 持, 采 用 GB 18030 是 我 目 前 较 好 的 选 择, 而 GB 13000.1 更 适 用 于 未 来 际 间 的 信 息 交 换 考 虑 到 GB 18030 和 GB 13000 的 兼 容 问 题, 标 准 起 草 组 编 制 了 GB 18030 与 GB 13000.1 的 代 码 映 射 表, 使 得 两 个 编 码 体 系 可 以 自 由 转 换 同 时, 还 开 发 了 GB 18030 基 本 点 阵 型 库 (6) 台 湾 地 区 符 集 中 文 资 讯 交 换 码 CCCII CCCII 是 Chinese Character Code for Information Interchange 的 缩 写, 是 经 台 湾 中 研 院 中 美 会 及 科 会 等 单 位 支 持, 于 1979 年 12 月 集 合 台 湾 学 者 文 学 及 电 脑 组 成 整 理 小 组 提 出 的 汉 编 码 经 过 一 些 修 改, 被 美 采 纳 为 美 标 准 ANSI Z39.64-1989, 同 时 也 被 称 为 东 亚 符 编 码 (EACC), 用 于 籍 目 录 方 面 通 用 汉 标 准 交 换 码 CNS 11643 1983 年 10 月, 台 湾 科 学 委 员 会 教 育 部 语 推 行 委 员 会 中 央 标 准 局 行 政 院 主 计 处 电 子 资 料 处 理 中 心 共 同 制 定 了 通 用 汉 标 准 交 换 码 (Chinese Ideographic Standard Code for Information Interchange, 简 称 CISCII 码 ), 经 试 用 修 订,1986 年 8 月 4 日 由 台 湾 中 央 标 准 局 公 布 为 法 定 标 准, 标 准 编 号 为 CNS 11643 这 一 标 准 于 1992 年 5 月 21 日 重 新 修 订 公 布, 更 名 为 中 文 标 准 交 换 码 (Chinese Standard Interchange Code) 1995 年 1 月 4 日, 台 湾 中 央 标 准 局 又 公 布 了 CNS 11643-1 中 文 标 准 交 换 码 使 用 方 法 上 述 两 个 汉 符 集,CNS 11643 为 通 用 的 标 准 交 换 码, 适 用 面 较 广 CCCII 使 用 面 相 对 较 窄, 主 要 应 用 于, 相 当 于 行 业 规 范 BIG-5 码 是 1984 年 台 湾 资 讯 业 策 进 会 根 据 通 用 汉 标 准 交 换 码 制 订 的 编 码 方 案 (7) 日 本 符 集 标 准 1978 年, 日 本 政 府 公 布 了 日 本 业 标 准 JIS C 6226-1978 信 息 交 换 用 汉 符 集 该 标 准 于 1983 年 进 行 了 修 订, 新 增 加 了 4 个 汉, 并 将 该 标 准 编 号 改 为 JIS X 0208-1983 1990 年 日 本 发 布 了 第 二 个 日 本 汉 编 码 符 集 标 准 JIS X 0212-1990, 作 为 日 本 汉 交 换 码 辅 助 集 1993 年 日 本 发 布 了 第 三 个 日 本 汉 编 码 符 集 标 准 JIS X 0221-1993, 该 标 准 是 有 20,902 个 汉 的 编 码 标 准 接 着, 有 了 1996 年 的 表 外 汉 体 表 试 案, 日 本 政 府 在 公 布 该 方 案 时, 声 明 它 是 法 令 公 用 文 报 纸 杂 志 广 播 电 视 等 一 般 社 会 生 活 中, 使 用 表 外 汉 体 的 依 据, 这 个 体 表 将 明 治 以 来 传 统 的 印 刷 文 体 ( 并 非 康 熙 典 体 的 本 身, 而 是 以 康 熙 典 为 依 据 作 成 的 明 治 以 来 的 铅 体 即 康 熙 典 体 ) 置 于 印 刷 标 准 体 的 地 位 目 前, 日 本 最 新 汉 编 码 符 集 标 准 是 JIS X 0221-1:2001 (8) 韩 符 集 标 准 1987 年 韩 制 定 了 韩 标 准 编 码 符 集 KS C 5601-1987, 共 有 8224 个 符 1991 年 韩 制 定 了 编 码 符 集 的 辅 助 集 KS C 5657-1991, 增 收 汉 2856 个 (9)ISO/IEC 10646 与 UNICODE 际 标 准 化 组 织 (ISO) 于 1984 年 开 始 研 究 制 定 信 息 技 术 通 用 多 八 位 编 码 符 集 (UCS) 际 标 准, 即 ISO/IEC 10646 1993 年 5 月, 该 标 准 的 第 一 部 分 : 体 系 结 构 与 基 本 多 文 种 平 面 ( 即 ISO/IEC 10646.1) 正 式 发 布 前 后 经 历 了 九 年 的 时 间 ISO/IEC 10646-1 的 第 二 版 更 加 全 面, 即 ISO/IEC 51 http: // www.dlf.net.cn 2008 年 第 8 期 ( 总 第 51 期 )
10646-1:2000 与 ISO/IEC 10646-1:2000 等 同 的 业 标 准 是 Unicode3.0,Unicode 是 Universal Code 的 简 称, 即 统 一 编 码 Unicode 除 了 作 为 ISO/IEC10646 编 码 的 另 一 种 称 谓 外, 同 时 还 是 由 HP,IBM, APPLE,MICROSOFT 等 一 些 际 知 名 企 业 组 成 的 一 个 联 盟 的 名 称 该 联 盟 的 主 要 宗 旨 就 是 要 通 过 市 场 手 段 推 进 多 文 种 的 统 一 编 码, 因 此 称 为 Unicode 它 的 广 泛 使 用 将 会 使 得 软 件 开 发 费 用 大 幅 度 降 低, 开 发 更 为 快 捷, 可 共 享 资 源 更 为 丰 富, 使 用 者 的 投 入 也 将 大 幅 度 降 低, 便 于 推 广 软 件 也 可 以 实 现 一 个 版 本 在 世 界 范 围 内 通 用, 从 此 不 再 需 要 多 个 版 本 多 种 语 言 的 产 品 了 目 前 兼 容 和 支 持 该 标 准 的 已 有 许 多 大 型 厂 商, 如 微 软 苹 果 SUN 甲 骨 文 等 际 性 软 件 公 司 目 前,ISO/IEC 10646 际 标 准 的 最 新 版 本 是 2003 年 修 订 的 ISO/IEC 10646:2003 等 同 的 业 标 准 是 Unicode 5.1 2.3.2 汉 编 码 符 集 代 码 转 换 汉 属 性 典 规 范 提 供 上 述 我 已 经 颁 布 的 信 息 交 换 用 汉 编 码 符 集 与 其 他 和 地 区 的 汉 符 集 信 息 交 换 码 的 对 照 关 系, 通 过 符 集 转 换 表 实 现 我 与 不 同 地 区 之 间 的 机 读 据 的 相 互 转 换 功 能 在 的 应 用 中, 采 用 了 ISO/ IEC 10646-2003 的 标 准 符 集 ( 即 UNICODE5.1), 该 标 准 符 集 已 经 发 展 到 7 万 多 汉, 而 的 强 制 标 准 GB 18030 符 集 在 2005 年 才 由 27533 个 汉 扩 充 到 7 万 多 汉 可 见, 中 文 发 源 地 的 汉 编 码 符 集 标 准 严 重 的 落 后 于 ISO 的 际 标 准 在 资 源 建 设 中, 在 进 行 古 籍 全 文 化 时, 遇 到 ISO/IEC 10646-2003 的 标 准 符 集 中 没 有 涵 括 的 汉 近 5000, 计 划 今 年 将 符 集 中 没 有 涵 括 的 汉 提 交 给 IRG 委 员 会 进 行 讨 论 在 系 统 中, 需 要 核 心 的 汉 编 码 符 集 核 心 的 编 码 符 集 也 采 用 ISO 10646-2003 标 准 ( 即 UNICODE5.1), 在 表 现 层 可 以 通 过 汉 属 性 典 规 范 进 行 汉 编 码 符 集 代 码 转 换, 实 现 不 同 地 区 之 间 的 机 读 据 的 相 互 转 换 功 能, 这 样 系 统 的 处 理 核 心 就 只 需 一 套 符 集, 而 不 需 要 多 套 [3] 2.3.3 汉 输 入 编 码 代 码 转 换 汉 属 性 典 规 范 提 供 汉 输 入 编 码 与 汉 编 码 符 集 的 对 照 关 系, 解 决 超 大 符 集 的 汉 输 入 问 题 汉 属 性 典 规 范 提 供 以 汉 形 为 依 据 的 汉 输 入 编 码, 如 : 四 角 号 码 郑 码 五 笔 形 部 首 笔 画 等 ; 提 供 以 汉 发 音 为 依 据 的 拼 音 输 入 编 码 等 读 者 可 以 根 据 自 己 的 喜 好 选 择 适 合 自 己 的 输 入 编 码, 通 过 汉 属 性 典 规 范 可 以 将 汉 外 码 转 换 成 汉 输 入 到 计 算 机, 解 决 超 大 符 集 的 汉 输 入 问 题 2.4 为 检 索 提 供 规 范 汉 属 性 典 规 范 提 供 正 形 的 通 用 汉 与 异 体 汉 ( 包 括 繁 体 ) 间 的 连 接 信 息 以 满 足 汉 信 息 检 索 和 文 规 范 方 面 的 使 用 要 求 在 检 索 中 通 过 汉 属 性 典 标 准 规 范 可 以 实 现 简 繁 同 级 检 索 ; 异 体 生 僻 避 讳 同 级 检 索 等 [4] 2.5 汉 排 序 汉 属 性 典 规 范 提 供 按 有 关 部 门 规 范 的 汉 语 拼 音 部 首 笔 画 笔 形 和 四 角 号 码 等 排 序 方 法 对 汉 进 行 排 序 所 需 的 序 值 信 息, 满 足 检 索 结 果 的 汉 排 序 以 及 在 计 算 机 系 统 上 建 立 文 件 显 示 打 印 输 出 时 所 需 的 排 序 要 求 汉 排 序 规 则 采 用 标 GB/T 13418-92 文 条 目 通 用 排 序 规 则 2.5.1 汉 汉 语 拼 音 排 序 法 汉 汉 语 拼 音 排 序 法 是 按 照 汉 发 音 和 声 调 来 归 并 排 列 汉 的 一 种 方 法 它 的 一 般 形 式 是 : 先 按 汉 的 发 音 和 声 调 来 归 并 汉, 按 母 的 序 列 排 序 音 调 相 同 依 笔 画 多 少 排 列 笔 画 相 同, 再 依 起 笔 笔 形 ( 横 竖 撇 点 折 ) 排 列 先 后 顺 序, 起 笔 笔 形 顺 序 再 相 同 的, 再 依 汉 符 集 2.5.2 汉 部 首 排 序 法 汉 部 首 排 序 法 是 以 部 首 归 并 汉 的 一 种 排 检 方 法 它 是 先 把 汉 按 其 所 属 的 部 首 归 并 集 中 部 首 按 笔 画 多 少 排 列 先 后 顺 序, 笔 画 目 相 同 的 部 首, 依 起 笔 笔 形 ( 横 竖 撇 点 折 ) 排 列 先 后 顺 序 同 属 一 个 部 首 的, 其 先 后 顺 序 仍 然 是 先 按 部 首 之 外 的 笔 画 排 列, 部 首 之 外 的 笔 画 目 相 同 的, 再 依 起 笔 笔 形 顺 序 排 列, 起 笔 笔 形 顺 序 再 相 同 的, 再 依 汉 符 集 2008 年 第 8 期 ( 总 第 51 期 ) http: // www.dlf.net.cn 52
2.5.3 汉 笔 画 排 序 法 汉 笔 画 排 序 法 是 按 照 笔 画 目 及 起 笔 笔 形 来 归 并 排 列 汉 的 一 种 方 法 它 的 一 般 形 式 是 : 先 按 笔 画 多 少 来 归 并 汉, 笔 画 相 同, 再 依 起 笔 笔 形 ( 横 竖 撇 点 折 ) 排 列 先 后 顺 序, 起 笔 笔 形 顺 序 再 相 同 的, 再 依 汉 符 集 2.5.4 汉 笔 形 排 序 法 汉 笔 形 排 序 法 是 按 照 起 笔 笔 形 来 归 并 排 列 汉 的 一 种 方 法 它 的 一 般 形 式 是 : 按 起 笔 笔 形 ( 横 竖 撇 点 折 ) 排 列 先 后 顺 序, 起 笔 笔 形 顺 序 相 同 的, 再 依 汉 符 集 2.5.5 汉 四 角 号 码 排 序 法 汉 四 角 号 码 排 序 法 是 一 种 以 码 来 代 表 汉 四 角 的 笔 形 并 据 此 来 排 列 汉 先 后 次 序 的 方 法 先 按 四 角 号 码 多 少 来 归 并 汉 四 角 号 码 相 同, 依 中 横 笔 的 多 少 排 列 横 笔 相 同, 依 整 体 的 笔 排 列 整 体 的 笔 相 同, 再 依 起 笔 笔 形 ( 横 竖 撇 点 折 ) 排 列 先 后 顺 序, 起 笔 笔 形 顺 序 再 相 同 的, 再 依 汉 符 集 汉 汉 语 拼 音 排 序 法 汉 部 首 排 序 法 汉 笔 画 排 序 法 汉 笔 形 排 序 法 汉 四 角 号 码 排 序 法 2.5.5 计 算 机 处 理 汉 排 序 规 则 用 计 算 机 处 理 汉 排 序 问 题 的 规 则, 见 表 1 表 1 计 算 机 处 理 中 文 文 献 的 排 序 规 则 一 览 表 因 素 1 2.6 音 转 换 因 素 2 因 素 3 汉 语 拼 音 声 调 总 笔 画 部 首 序 号 总 笔 画 汉 起 笔 部 首 外 汉 笔 汉 起 笔 部 首 外 汉 起 笔 四 角 号 码 横 笔 总 笔 画 汉 属 性 典 规 范 提 供 汉 与 汉 语 拼 音 韦 氏 拼 音 注 音 母 间 的 转 换 信 息 以 满 足 内 外 用 户 对 汉 罗 马 化 的 要 求, 以 及 查 询 要 求 [5] 因 素 4 汉 起 笔 汉 起 笔 因 素 5 通 过 汉 属 性 典 规 范 音 转 换 可 以 实 现 汉 语 拼 音 自 动 生 成 ; 汉 语 拼 音 与 韦 氏 拼 音 注 音 母 间 的 自 动 转 换 在 实 现 汉 语 拼 音 自 动 生 成 时, 多 音 需 要 人 干 预 2.7 为 文 研 究 提 供 汉 的 基 本 属 性 汉 属 性 典 规 范 可 为 文 研 究 提 供 汉 的 偏 旁 部 首 笔 画 笔 顺 笔 形 音 调 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 进 行 各 种 统 计 和 分 析 研 究 提 供 依 据 2.7.1 偏 旁 部 首 汉 属 性 典 规 范 在 偏 旁 部 首 方 面 采 用 双 部 首 制, 即 201 部 首 和 214 部 首 共 存 对 每 个 汉 既 标 引 201 部 首 也 标 引 214 部 首, 为 汉 部 首 排 序 提 供 基 本 信 息 201 部 首 是 1983 年 文 改 革 委 员 会 出 版 局 制 定 的 汉 统 一 部 首 表 ( 草 案 ) 汉 统 一 部 首 表 ( 草 案 ) 是 的 部 首 标 准 草 案 201 部 首 是 在 214 部 的 基 础 上 增 删 分 合 而 成, 共 201 个 部 首, 还 有 若 干 附 形 部 首 汉 语 大 典 遵 从 了 201 部 首 排 序 中 文 文 献 部 首 排 序 法 也 采 用 了 201 部 首 序 列 214 部 首 始 创 于 东 汉 许 慎 所 作 的 说 文 解, 为 后 世 所 承 用 但 不 同 的 分 部 标 准 不 同, 部 首 目 及 其 性 质 亦 不 尽 相 同 从 说 文 的 540 部 起, 呈 逐 步 减 少 的 趋 势 明 代 汇 定 为 214 部, 被 清 代 康 熙 典 所 继 承 因 康 熙 典 的 权 威 性,214 部 成 为 最 流 行 的 部 首 表, 也 为 日 本 韩 的 典 所 采 用,ISO/IEC 10646 Unicode 符 集 也 遵 从 了 214 部 首 排 序 2.7.2 笔 画 笔 顺 笔 形 基 本 属 性 汉 属 性 典 规 范 提 供 汉 的 笔 画 笔 顺 笔 形 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 进 行 各 种 统 计 和 分 析 研 究 提 供 依 据, 为 汉 排 序 提 供 基 础 据 笔 画 是 构 成 汉 形 的 最 小 连 笔 单 位 ; 笔 顺 是 写 每 个 汉 时 笔 画 的 次 序 和 方 向 ; 笔 形 是 笔 画 的 形 状 汉 的 笔 形 依 据 笔 势 和 走 向 可 以 分 为 十 种, 最 基 本 的 笔 形 有 五 种, 一 般 又 称 作 札 笔 顺 法 笔 形 其 排 列 顺 序 为 一 ( 横 ) 丨 ( 竖 ) 丿 ( 撇 ) 丶 ( 点 ) 乛 ( 折 ), 分 别 用 序 号 1 2 3 4 5 表 示 汉 属 性 典 规 范 提 供 三 种 笔 画 笔 顺 笔 形 53 http: // www.dlf.net.cn 2008 年 第 8 期 ( 总 第 51 期 )
等 方 面 的 基 本 属 性 信 息 (1) 整 个 汉 的 笔 画 笔 顺 笔 形 基 本 属 性 汉 属 性 典 规 范 提 供 了 整 个 汉 的 笔 画 笔 顺 笔 形 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 对 整 个 汉 进 行 各 种 统 计 和 分 析 研 究 提 供 依 据, 为 汉 的 笔 画 排 序 笔 形 排 序 提 供 基 础 据 (2)201 部 首 序 列 的 笔 画 笔 顺 笔 形 基 本 属 性 汉 属 性 典 规 范 提 供 了 汉 部 首 标 准 ( 草 案 )201 部 首 序 列 的 部 首 部 首 序 号 ;201 部 首 的 笔 画 笔 顺 笔 形 ;201 部 首 外 的 笔 画 笔 顺 笔 形 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 进 行 以 201 部 首 序 列 排 序 提 供 基 础 据 ; 为 以 201 部 首 序 列 进 行 各 种 统 计 和 分 析 研 究 提 供 依 据 (3)214 部 首 序 列 的 笔 画 笔 顺 笔 形 基 本 属 性 汉 属 性 典 规 范 提 供 了 汉 的 214 部 首 序 列 的 部 首 部 首 序 号 ;214 部 首 的 笔 画 笔 顺 笔 形 ; 214 部 首 外 的 笔 画 笔 顺 笔 形 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 进 行 以 214 部 首 序 列 排 序 提 供 基 础 据 ; 为 以 214 部 首 序 列 进 行 各 种 统 计 和 分 析 研 究 提 供 依 据 2.7.3 音 调 基 本 属 性 汉 属 性 典 规 范 提 供 了 汉 的 音 调 等 方 面 的 基 本 属 性 信 息, 为 利 用 计 算 机 生 成 音 转 换 表 提 供 基 本 属 性 信 息 ; 为 各 种 统 计 和 分 析 研 究 提 供 依 据 2.8 汉 电 子 具 汉 属 性 典 规 范 提 供 了 汉 的 康 熙 典 和 汉 语 大 典 位 置 标 引 信 息, 为 文 献 提 供 汉 在 康 熙 典 和 汉 语 大 典 的 具 体 位 置 信 息, 间 接 起 到 电 子 具 的 作 用 2.8.1 康 熙 典 位 置 标 引 汉 属 性 典 规 范 提 供 康 熙 典 位 置 标 引 信 息, 所 标 引 和 处 理 的 汉 范 围 是 GB18030-2005 (UNICODE5.1 ISO10646-2003) 所 包 括 的 全 部 汉 具 体 格 式 为 xxxx.xx1, 小 点 前 四 位 表 示 康 熙 页 码 ; 小 点 后 两 位 表 示 位 ; 最 后 一 位 :0 表 示 康 熙 典 有 此 ;1 表 示 康 熙 典 无 此, 当 无 此 时, 应 排 在 同 部 首 笔 画 的 最 后 一 个 之 后 示 例 1: 街 1109.170, 表 示 该 照 康 熙 典 的 排 序, 应 在 康 熙 部 首 的 行 部, 第 1109 页, 第 17 个 ; 因 为 最 后 一 位 为 0, 表 示 康 熙 典 有 此 示 例 2: 衔 1109. 131, 表 示 该 照 康 熙 典 的 排 序, 应 在 康 熙 部 首 的 行 部, 因 为 最 后 一 位 为 1, 表 示 康 熙 典 无 此 ; 因 此, 应 在 第 1109 页, 第 13 个 后 面 ( 即 康 熙 部 首 的 行 部, 因 为 该 是 5 画, 所 以 排 在 行 部 5 画 的 最 后 一 个 之 后, 即 1109 页, 第 13 个 之 后 ) 2.8.2 汉 语 大 典 位 置 标 引 汉 属 性 典 规 范 提 供 汉 语 大 典 位 置 标 引 信 息, 所 标 引 和 处 理 的 汉 范 围 是 GB18030-2005 (UNICODE5.1 ISO10646-2003) 所 包 括 的 全 部 汉 具 体 格 式 为 Xxxxx.xx1 的 最 高 一 位 X 表 示 汉 语 大 典 的 卷 ; 小 点 前 四 位 表 示 汉 语 大 典 页 码 ; 小 点 后 两 位 表 示 位 ; 最 后 一 位 :0 表 示 汉 语 大 典 有 此 ;1 表 示 汉 语 大 典 无 此, 当 无 此 时, 应 排 在 同 部 首 笔 画 的 最 后 一 个 之 后 示 例 1: 街 20831.160, 表 示 该 照 汉 语 大 典 的 排 序, 应 在 汉 语 大 典 部 首 的 彳 部, 第 2 卷, 第 803 页, 第 16 个 ; 因 为 最 后 一 位 为 0, 表 示 汉 语 大 典 有 此 示 例 2: 衐 20826.091, 表 示 该 照 汉 语 大 典 的 排 序, 应 在 汉 语 大 典 部 首 的 彳 部, 因 为 最 后 一 位 为 1, 表 示 汉 语 大 典 无 此 ; 因 此, 应 在 第 2 卷, 第 826 页, 第 9 个 后 面 ( 即 汉 语 大 典 部 首 的 彳 部, 因 为 该 是 7 画, 所 以 排 在 彳 部 7 画 的 最 后 一 个 之 后, 即 第 2 卷, 第 826 页, 第 9 个 之 后 ) 3 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 是 汉 属 性 典 规 范 的 具 体 应 用 针 对 古 籍 文 献 类 型 复 杂, 使 用 汉 符 量 大 等 特 点, 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 要 求 处 理 的 汉 范 围 要 大 于 GB18030-2005(UNICODE5.1 ISO10646-2003) 具 体 要 求 处 理 汉 范 围 是 与 古 籍 相 关 的 全 部 汉 ( 超 出 部 分 需 要 造 ) 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 的 基 本 内 容 是 汉 型 标 准 化 汉 标 准 发 音 型 特 征 ( 包 括 汉 总 笔 画 量 汉 起 笔 部 首 笔 画 量 部 首 序 号 部 首 外 起 笔 异 体 2008 年 第 8 期 ( 总 第 51 期 ) http: // www.dlf.net.cn 54
量 异 体 型 等 ) 各 种 编 码 ( 包 括 四 角 号 码 输 入 编 码 其 他 汉 符 集 编 码 等 ) 以 及 构 词 和 使 用 频 度 等 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 应 解 决 :1 为 检 索 提 供 规 范 ;2 汉 排 序 ;3 为 古 籍 研 究 提 供 古 音 信 息 ;4 为 文 研 究 提 供 汉 的 基 本 属 性 ;5 代 码 转 换 ;6 提 供 汉 电 子 具 ;7 为 古 籍 全 文 化 减 少 自 定 义 和 大 量 非 规 范 用 ;8 为 古 籍 中 的 个 性 化 用 进 行 规 范 3.1 为 检 索 提 供 规 范 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 提 供 正 形 的 通 用 汉 与 异 体 汉 ( 包 括 繁 体 生 僻 避 讳 ) 间 的 连 接 信 息 ; 对 古 籍 用 进 行 标 引 ; 对 生 僻 避 讳 进 行 规 范 以 满 足 汉 信 息 检 索 和 文 规 范 方 面 的 使 用 要 求 3.2 汉 排 序 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 提 供 按 有 关 部 门 规 范 的 按 照 汉 语 拼 音 部 首 笔 画 笔 形 和 四 角 号 码 等 排 序 方 法 对 汉 进 行 排 序 所 需 的 序 值 信 息, 满 足 检 索 结 果 的 汉 排 序 以 及 在 计 算 机 系 统 上 建 立 文 件 显 示 打 印 输 出 时 所 需 的 排 序 要 求 汉 排 序 规 则 采 用 标 GB/T 13418-92 文 条 目 通 用 排 序 规 则 3.3 为 古 籍 研 究 提 供 古 音 信 息 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 提 供 上 古 音 声 纽 上 古 音 韵 部 上 古 音 声 调 上 古 音 拟 音 中 古 音 : 韵 摄 中 古 音 : 开 合 中 古 音 中 古 音 反 切 中 古 音 声 类 中 古 音 韵 部 中 古 音 声 调 中 古 音 拟 音 近 古 音 韵 部 近 古 音 声 母 近 古 音 声 调 近 古 音 拟 音 等 信 息, 以 满 足 古 籍 研 究 与 阅 读 需 求 3.4 为 古 籍 中 的 个 性 化 用 进 行 规 范 古 籍 用 规 范 和 生 僻 避 讳 处 理 规 范 提 供 正 形 的 通 用 汉 与 异 体 汉 ( 包 括 繁 体 生 僻 避 讳 ) 间 的 规 范 化 信 息, 为 古 籍 全 文 化 减 少 自 定 义 和 大 量 非 规 范 用 以 及 为 古 籍 中 的 个 性 化 用 进 行 规 范 以 满 足 应 用 的 需 求 4 计 算 机 中 文 信 息 处 理 规 范 计 算 机 中 文 信 息 处 理 规 范 是 汉 属 性 典 规 范 的 具 体 应 用 要 求 处 理 的 汉 范 围 为 GB18030-2005 (UNICODE5.1 ISO10646-2003) 所 包 括 的 全 部 汉 计 算 机 中 文 信 息 处 理 规 范 是 对 文 件 格 式 存 储 格 式 传 输 格 式 检 索 处 理 能 力 全 文 显 示 能 力 等 进 行 规 范 计 算 机 中 文 信 息 处 理 规 范 应 解 决 :1 为 文 件 格 式 提 供 规 范 ;2 为 存 储 格 式 提 供 规 范 ;3 为 传 输 格 式 提 供 规 范 ;4 为 检 索 提 供 规 范 ;5 为 全 文 显 示 提 供 规 范 ;6 为 文 献 排 序 提 供 规 范 ;7 为 资 源 的 可 交 互 性 未 来 全 文 资 源 的 知 识 挖 掘 进 行 规 范 4.1 为 文 件 格 式 提 供 规 范 计 算 机 中 文 信 息 处 理 规 范 提 供 音 频 视 频 动 画 片 形 像 文 本 等 文 件 格 式 规 范, 指 导 资 源 建 设 音 频 文 件 为 WAV MID/ MIDI MP3 MP2 AIF/AIFF AU WMA 等 视 频 文 件 为 MPEG/MPG QTM AVI RM/RA MOV DAT FLC 等 动 画 片 文 件 为 AVI 3GP MP4 ASF WMV SMV GIF 等 形 文 件 为 DXF GIF CGM CDR EPS HPGL PCD PCT DRM PCX TIF TGA BMP WMF WPG JPG 等 像 文 件 为 BMP GIF JPG PSD TIF/TIFF 3DS WMF PCX PSP PNG 等 文 本 文 件 为 PDF RTF HTML DOC TXT MCW XML 等 4.2 为 存 储 格 式 提 供 规 范 计 算 机 中 文 信 息 处 理 规 范 提 供 资 源 存 储 格 式 规 范 存 储 格 式 规 范 的 原 则 是 规 范 性 通 用 性 应 用 性 和 适 用 性 该 规 范 要 依 据 现 有 的 或 际 标 准 应 用 范 围 要 包 括 音 频 视 频 动 画 片 形 像 文 本 等 据 文 件 针 对 具 体 据 文 件 制 定 存 储 内 容 如 : 全 文 据 要 存 储 为 全 文 的 XML 据 还 原 据 要 对 应 相 应 的 像 文 件 ; 像 文 件 要 存 储 扫 描 的 原 始 像 文 件 缩 略 等 制 定 据 文 件 存 储 方 式 : 压 缩 和 不 压 缩 制 定 据 文 件 存 储 的 据 组 织 规 范 等 55 http: // www.dlf.net.cn 2008 年 第 8 期 ( 总 第 51 期 )
4.3 为 传 输 格 式 提 供 规 范 计 算 机 中 文 信 息 处 理 规 范 提 供 据 传 输 格 式 规 范 对 每 种 据 类 型 给 出 所 有 常 用 格 式 的 列 表 及 说 明, 给 出 所 有 常 用 格 式 转 换 具 列 表 及 说 明 4.4 为 检 索 提 供 规 范 计 算 机 中 文 信 息 处 理 规 范 提 供 正 形 的 通 用 汉 与 异 体 汉 ( 包 括 繁 体 生 僻 避 讳 ) 间 的 连 接 信 息 ; 对 计 算 机 用 进 行 标 引 ; 对 计 算 机 中 文 信 息 处 理 进 行 规 范 以 满 足 汉 信 息 检 索 和 文 规 范 方 面 的 使 用 要 求 4.5 为 文 献 排 序 提 供 规 范 计 算 机 中 文 信 息 处 理 规 范 提 供 按 有 关 部 门 规 范 的 按 照 汉 语 拼 音 部 首 笔 画 笔 形 和 四 角 号 码 等 排 序 方 法 对 汉 进 行 排 序 所 需 的 序 值 信 息, 满 足 检 索 结 果 的 汉 排 序 以 及 在 计 算 机 系 统 上 建 立 文 件 显 示 打 印 输 出 时 所 需 的 排 序 要 求 汉 排 序 规 则 采 用 标 GB/T 13418-92 文 条 目 通 用 排 序 规 则 5 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 是 确 保 建 设 的 重 要 规 范 之 一 针 对 中 参 考 文 献 [1] 世 源 科 技 有 限 公 司. 二 期 暨 系 统 部 分 : 初 步 设 计 [R]., 2005. [2] 翟 喜 奎. 基 于 符 集 的 中 文 信 息 处 理 [C]// 日 本 京 都 大 学 人 文 科 学 研 究 所. 汉 文 献 资 料 库 的 新 技 术. 日 本 : 日 本 京 都 大 学 人 文 科 学 研 究 所,2005 年 7 月 :64-71. [3] 翟 喜 奎. 中 文 信 息 处 理 在 中 的 应 用 [J]. 现 代 情 报 技 术, 2006(8):8-11. [4] 翟 喜 奎. 试 论 中 文 文 献 的 有 序 化 [J]. 现 代 情 报 技 术, 1990(1):32-37. [5] 朱 岩, 翟 喜 奎. 汉 属 性 典 及 汉 信 息 处 理 支 撑 软 件 系 统 [C]// 中 中 文 信 息 学 会. 中 文 信 息 处 理 际 会 议 论 文 集 2.[ 出 版 地 不 详 ]: 中 中 文 信 息 学 会, 1987:245-353. 作 者 简 介 翟 喜 奎, 副 研 究 员, 主 要 从 事 自 动 化 中 文 信 息 处 理 等 技 术 作 研 究 方 向 : 自 动 化 中 文 信 息 处 理 技 术 研 究 通 讯 地 址 : 北 京 中 关 村 南 大 文 文 献 版 式 复 杂, 使 用 汉 符 量 大, 常 有 系 统 外 出 现 等 特 点, 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 必 须 能 够 对 全 部 中 文 文 献 进 行 详 细 标 记 说 明 ( 主 要 用 于 古 籍 文 献, 兼 顾 普 通 文 献 ), 形 成 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 格 式 根 据 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 文 件 能 够 在 互 联 网 上 全 方 位 实 时 再 现 中 文 文 献 原 貌 ( 重 点 是 古 籍 ), 能 够 提 供 全 文 检 索 所 需 信 息 ; 能 够 进 行 中 文 文 献 长 期 存 储 与 保 存 为 此, 必 须 提 供 强 大 灵 活 可 统 一 实 施 的 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 标 记 策 略 和 标 记 方 法 ; 支 持 系 统 与 系 统 外 描 述, 提 供 强 大 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 响 应 和 处 理 机 制 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 应 易 学 习 使 用 和 管 理 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 应 指 导 资 源 的 建 设 与 应 用 全 过 中 文 信 息 处 理, 目 前 主 要 包 括 汉 属 性 典 规 范 ; 古 籍 用 规 范 ; 生 僻 避 讳 处 理 规 范 ; 计 算 机 中 文 信 息 处 理 规 范 ; 中 文 文 献 全 文 版 式 还 原 与 全 文 输 入 XML 规 范 计 划 下 半 年 完 成 研 制 除 此 之 外, 中 文 信 息 处 理 还 应 包 括 中 文 文 献 主 题 词 名 称 分 类 等 标 准 规 范, 形 成 中 文 信 息 处 理 标 准 规 范 体 系, 指 导 资 源 制 作 存 储 管 理 传 输 和 服 务 整 个 建 设 过 街 33 号 业 务 管 理 处 100081 Chinese Information Processing in the National Digital Library of China Zhai Xikui / National Library of China, Beijing, 100081 Abstract:National Digital Library of China is responsible for collecting and long-term preservating the important Chinese digital resources and building the Chinese digital resources supporting and retrieval center, therefore Chinese information processing plays on important role in the National Digital Library of China. The article presents the overview of Chinese information processing and the standards; pointing out the necessity of Chinese information processing standards in the national digital library construction. Keywords:National Library of China,National Digital Library of China, Digital Library, Chinese information processing, Hanzi attributes dictionary ( 收 稿 日 期 :2007-06-11 责 任 编 辑 : 贾 延 霞 ) 2008 年 第 8 期 ( 总 第 51 期 ) http: // www.dlf.net.cn 56