等 義 詞 對 映, 這 時 必 需 將 縮 小 對 映 組 數, 利 用 PMI-IR&LC-IR 及 Context Vector 可 以 作 為 多 選 一 的 判 斷 方 法 並 進 行 第 二 部 份 辨 識, 然 後 觀 察 其 辨 識 效 果 之 Precision 及 Recall



Similar documents
本 课 程 作 为 非 计 算 机 专 业 本 科 通 识 课 程, 是 一 门 理 论 和 实 践 紧 密 结 合 的 实 用 课 程, 内 容 包 括 计 算 机 基 础 部 分 和 程 序 设 计 部 分 计 算 机 基 础 部 分 涵 盖 计 算 机 软 硬 件 组 成 数 制 表 示 操

./ /

!

!

小 说 天 地 欲 望 摩 托 尚 成 河 血 溅 维 纳 斯 刘 步 明 长 调 短 歌 海 上 天 湖 李 转 生 目 海 尖 高 处 的 三 种 陈 述 谢 应 华 乡 村 笔 记 阿 曼 桃 花 渡 林 小 耳 种 诗 歌 江 良 热 雨 花 石 张 彩 霞 刊 名 书 法 陈 奋 武 屏

!

** 状 态 二 亚 健 康 亚 健 康 是 指 处 于 健 康 和 疾 病 两 者 之 间 的 一 种 状 态 即 机 体 内 出 现 某 些 功 能 紊 乱 但 未 影 响 到 行 使 社 会 功 能 主 观 上 有 不 适 感 觉 它 是 人 体 处 于 健 康 和 疾 病 之 间 的 过 渡

全 国 高 等 职 业 教 育 规 划 教 材 21 世 纪 高 职 高 专 规 划 教 材 系 列 高 等 职 业 教 育 计 算 机 专 业 规 划 教 材 选 题 征 集 通 知 一 选 题 范 围 ( 不 仅 限 于 此 ) 选 题 方 向 选 题 名 计 算 机 基 础 计 算 机 应 用

Microsoft Word - 13院21号.doc

高 职 计 算 机 类 优 秀 教 材 书 目 * 序 号 书 号 (ISBN) 书 名 作 者 定 价 出 版 / 印 刷 日 期 ** 配 套 资 源 页 码 计 算 机 基 础 课 计 算 机 应 用 基 础 刘 升 贵 年 8 月

最新监狱管理执法全书(四十四)

目 录 1. 硬 件 安 装 步 骤 云 端 加 密 键 盘 云 端 键 盘 加 密 串 接 器 软 件 安 装 步 骤 软 件 基 本 功 能 软 件 进 阶 使 用 说 明 选 单 说 明...

目 录 1 正 文 乊 前 目 癿 本 文 内 容 声 明 字 符 编 码 相 兰 癿 背 景 知 识 拉 丁 字 母 什 么 是 字 符 编 码 字 符 编 码 标 准... 8

叮当旺业通

<4D F736F F D20CDA8D3C3B9E6B7B6BABAD7D6B1ED5FB0B4B1E0C2EBC5C5C1D05F2E646F63>

高等职业院校人才培养工作状态数据采集与管理平台

四 川 师 范 大 学 学 报 社 会 科 学 版 全 国 统 一 考 试 为 主 中 学 保 送 为 辅 发 展 到 全 国 统 一 考 试 为 主 高 等 学 校 多 样 化 考 试 免 试 入 学 为 补 充 形 式 和 多 元 化 录 取 相 结 合 的 方 式 共 存 其 间 经 历 了

!

Microsoft Word - 席慕容散文集.doc

构 建 生 态 养 生 和 大 健 康 两 个 新 兴 业 态 ; 发 展 电 商 " 的 "3221" 发 展 战 略, 确 保 公 司 良 性 健 康 发 展 上 市 以 来, 公 司 秉 承 以 人 为 本 求 实 创 新 服 务 社 会 厚 报 股 东 的 经 营 理 念, 发 扬 团 结


Microsoft Word - 成长的痕迹散文集.docx

第 一 章 : 從 中 共 解 放 軍 投 奔 藏 軍 棄 家 從 軍 我 原 名 姜 華 亭, 藏 名 羅 桑 扎 西, 家 在 中 國 山 東 省 萊 陽 縣 九 區 孟 格 莊 村, 父 親 叫 姜 昆, 母 親 叫 李 秀 芳 家 中 以 務 農 為 業 解 放 前 後, 父 親 曾 在 三

(1) (20) (27) (31) (39) (45) (57) (62) (71) (77) (84) (96) (104) (106) (140) (145) (147) (150) (155) (171) (174) (180)

<4D F736F F D20D6D0B9FABDDAC8D5CEC4BBAF2DB5BECCEF2E646F63>

Microsoft Word - [术数]《八卦象数与疾病预测》黄鉴.doc

試分析絲綢之路自漢至宋元對中國文化體系的影響

!

七 以 自 然 風 光 為 紋 飾 第 六 章 中 國 歷 代 民 間 藏 瓷 鑒 定 術 語 第 七 章 中 國 古 瓷 文 獻 選 一 窯 器 說 ( 清 ) 程 哲 著 二 景 德 鎮 陶 歌 序 言 我 與 春 恩 先 生 相 識 經 年, 且 為 同 好, 瓷 道 摯 友 春 恩 為 人

Microsoft Word - 變形記

李跃儿《谁拿走了孩子的幸福》

!

小 女 孩 跟 着 派 洛 斯 一 起 进 来, 羞 怯 一 如 往 常 在 她 身 后 拖 步 轻 跳 古 怪 横 行 的, 则 是 她 的 弄 臣 他 戴 着 一 顶 老 旧 锡 桶 做 的 玩 具 头 盔, 顶 端 捆 了 两 根 鹿 角, 上 面 挂 着 牛 铃, 随 着 他 的 蹒 跚 脚

!

!

!

!

!

《饲料和饲料添加剂管理条例》

!

!

目 录 招 生 办 法 与 日 程 安 排 年 杭 州 市 区 各 类 高 中 招 生 工 作 日 程 表 杭 州 市 教 育 局 关 于 年 杭 州 市 区 各 类 高 中 招 生 工 作 的 通 知 杭 州 市 教 育 局 关 于 进 一 步 完 善 杭 州 市 区 初 中 学 生 综 合 素

!"# $ %& (( )* +, +,--.+/ " /357 4, 8 -/!+ * * * "+#* * * $* * * % &+ "5/7+99!"#,--6//,.:: / ,,,6,96973,--. / /,--. 7,

Microsoft Word - 會議紀錄_南_.doc

!

!

(\244j\257d\276\307\274\351_ C.indd_70%.pdf)

!

● 源起

投影片 1

! ( # ( # # ( & ( # & # # # # # # ( &! "#!$ "(!

% 缓 解 患 者 的 心 理 障 碍 或 问 题, 促 进 其 人 格 向 健 康 治 疗 协 调 的 方 向 发 展 精 神 分 析 学 派 心 理 治 疗 起 源 于 弗 洛 依 德 ( ) 于 世 早 期 为 弗 洛 依 德 创 立 的 经 典 精 神 分 析 弗 洛 纪 末 创 始 的 精

序 言 本 专 业 人 才 培 养 方 案 以 适 应 市 场 需 求 为 目 标, 根 据 学 校 校 企 双 主 体 人 才 培 养 的 要 求 和 移 动 应 用 开 发 专 业 的 特 点 设 置 课 程 体 系, 体 现 了 课 程 为 市 场 服 务 的 特 点 本 专 业 要 求 学

第 期 熊 安 萍 等 *1$ 文 件 系 统 中 范 围 锁 机 制 的 应 用 研 究! 锁 命 名 空 间 '+'($($ 描 述 了 资 源 和 锁 的 集 合 它 同 时 在 客 户 节 点 和 服 务 节 点 存 在 不 同 之 处 只 是 利 用 一 个 数 据 标 识 来 有 效 区

期 李 环 等 邻 苯 二 甲 酸 二 丁 酯 暴 露 对 雄 性 大 鼠 生 精 细 胞 功 能 影 响 1 )!# $ + $#'!!) #!%,$' $ 6. $#! +!! '!!' # $! 引 言 - # # 近 年 来 生 殖 健 康 问 题 日 益 突 出 % 不 孕 不 育 等 各

新元史1.PDF

!"# $! "##"! $ "%& % & #(# & "%) &!! * "! * #! * $! ($%" & $!"# "##() %%$$ * * * * * * * * * * (#))*))+ ))* ) $ $" " ##,$ ### "##), ) ) & ( ### "%& %

! "!!

浪潮集团信息化文案

" " " " " # $" # $% " " " " " " " " " & $% "# $%& () *+ " " " % " " % " % " & $ " " % " " % " " %,-./012 34*+ ""

<4D F736F F D20BAE8D1F4D6A4C8AFCDB6D7CABBF9BDF C4EAB5DA33BCBEB6C8B1A8B8E62E646F63>

很 活 潑, 和 氣 的 像 一 家 人 在 張 主 任 慈 祥 的 臉 上, 常 帶 著 微 笑, 在 手 術 或 特 別 檢 查 時, 跟 隨 他 身 邊 會 給 我 扼 要 性 的 解 釋, 可 惜 他 英 年 早 逝, 我 常 念 著 他 陳 振 武 教 授, 沉 默 寡 言, 在 學 術

国 际 政 治 研 究 年 第 期 一 中 国 国 名 渊 源 暨 中 外 交 流 中 中 国 的 称 谓 一 不 在 乎 国 名 的 王 朝 国 家 世 界 上 绝 大 多 数 国 家 的 国 名 是 在 历 史 上 逐 渐 形 成 的 国 名 具 有 排 他 性 宣 示 一 国 之 主 权 国



6寸PDF生成工具

期 戚 瑞 荣 等 单 克 隆 抗 体 在 水 产 无 脊 椎 动 物 血 淋 巴 细 胞 研 究 中 的 应 用 虾 体 之 后 细 胞 形 态 很 容 易 发 生 改 变 因 此 依 靠 传 统 的 光 镜 观 察 方 法 很 难 准 确 统 计 这 三 类 细 胞 单 克 隆 抗 体 用 单

人教版小学三年级作文教案及范文

Microsoft Word - 最新正文.doc

哈尔滨应用职业技术学院2012年教育教学质量报告

附 件 : 2009 年 度 国 家 精 品 课 程 名 单 一 本 科 国 家 精 品 课 程 ( 以 学 科 为 序, 共 400 门 ) 序 号 一 级 学 科 二 级 学 科 课 程 名 称 学 校 名 称 负 责 人 1 哲 学 哲 学 类 马 克 思 主 义 伦 理 学 安 徽 师 范

<4D F736F F F696E74202D BB7BC3D2A4CEBFECB27AA4E8A6A1BBA1A9FA205BACDBAE65BCD2A6A15D>

Microsoft Word - AQSI doc

A 1 (T65C 1) ; (T65C 1) A (T65C 1) ( ~ 1) A (T65C 1) A (T96B 3) A (T96B 3) 1 (T96B 3) 0.8

附 件 印 发 你 们 请 认 真 贯 彻 执 行 附 件 广 西 年 春 季 中 小 学 推 荐 公 告 目 录 教 辅 材 料 表 广 西 壮 族 自 治 区 物 价 局 广 西 壮 族 自 治 区 新 闻 出 版 广 电 局 广 西 壮 族 自 治 区 教 育 厅 年 月 日 政 府 信 息

7

升 温 进 一 步 推 动 了 房 价 的 上 升 近 年 丽 水 城 区 商 品 住 宅 价 格 变 动 情 况 单 位 元 + %

"!!!!!!! *!!!!!! )!!!!!! (!!!!!!! " # $ % & # $ % ( # $ % ) * # $ %! " # $!!!!!! &!!!!!! %!!!!!! $!!!!!! #!!!!!! "!!!!!!! " ) ) $ " ) ) % " ) ) & " )


目 录 一 参 保 范 围 对 象 和 费 用 缴 纳 二 个 人 账 户 资 金 的 管 理 和 使 用 一 构 成 二 的 使 用 范 围 三 个 人 账 户 资 金 用 于 门 诊 就 医 和 药 店 购 药 费 用 报 销 的 办 法 四 医 疗 保 险 卡 的 作 用 五 使 用 医 疗

!$ 能 利 用 床 旁 影 像 学 检 查 手 段 迅 速 作 出 主 动 脉 夹 层 的 定 性 诊 断 和 定 位 诊 断 一 旦 明 确 诊 断 迅 速 联 系 胸 外 科 做 好 手 术 准 备 以 分 秒 必 争 挽 救 患 者 的 生 命 作 为 第 一 要 务 杨 鹏 曲 阜 市 中

出 青 岛 优 势 创 新 跨 境 电 子 商 务 发 展 机 制 坚 持 协 调 发 展 在 发 展 中 规 范 在 规 范 中 发 展 正 确 处 理 好 政 府 与 市 场 规 范 与 发 展 当 前 与 长 远 进 口 与 出 口 监 管 与 便 利 化 等 关 系 坚 持 绿 色 发 展

2


制 普 通 高 中 学 生 职 业 高 中 学 生 中 等 专 业 学 校 学 生 均 可 参 加 1 2, 大 赛 命 題 : 本 届 大 赛 由 中 国 中 学 生 作 文 大 赛 命 题 委 员 会 命 题 初 中 组 高 中 组 各 1 6 道 题 目 供 参 赛 者 选 用 见 附 件 全

* +, -.%, * %(/, & 0!

第 期 惠鹏飞 宋代招抚使始置时间与设置缘由考 营招抚 制 置 使 续 资 治 通 鉴 长 编 与 宋 史 均 有 营马 步 军 都 部 署 平 定 之 后 改 户 部 侍 郎 罢 政 记载 事 隆平集 也记载了赵昌言任参知政事 开宝七年十月 丁酉 以吴 越 王? 为 期间的使职情况 淳化四年参知政

人鱼菽之祭 春秋修其祖庙 士一庙 大夫三 以时有 门 与 行 礼记 月令 云 孟冬之月 天子 事于五祀 盖无出门之祭 今富者祈名岳 望山川 乃祈来年于天宗 大割祀于公社及门闾 腊先祖五 椎牛击鼓 戏倡%像 中者南居当路 水上云台 屠羊 祀 礼记 曲礼下 天子 祭五祀 岁遍 郑 杀狗 鼓瑟吹笙 贫者鸡

所级用户操作手册

董 事 長 的 話 時 間 總 是 如 此 低 調, 用 一 秒 又 一 秒 極 微 小 的 腳 步, 隱 蔽 它 不 斷 前 進 的 聲 息, 直 至 新 年 到 來, 才 讓 人 察 覺 一 年 的 時 光 竟 已 悄 然 流 逝, 來 到 了 終 點 這 期 電 子 報 正 值 新 年 之 始

! " # $!

99CMS手机版

第 3 章 数 据 在 计 算 机 中 的 表 示 43 在 进 位 计 数 制 中 有 数 码 数 位 ( 位 置 ) 基 数 和 位 权 等 用 语 数 码 是 在 一 个 计 数 制 中 用 来 表 示 数 值 的 符 号 ; 数 位 是 指 数 码 在 一 个 数 中 所 处 的 位 置 ;

信息


方 法 和 表 征 技 术 说 清 楚 环 境 质 量 现 状 及 其 变 化 规 律 方 面 取 得 了 重 大 突 破 第 三 阶 段 十 一 五 至 十 二 五 期 间 基 于 多 环 境 要 素 环 境 质 量 综 合 评 价 的 探 索 阶 段 环 境 污 染 呈 现 更 加 复 杂 的

致理技術學院資訊管理學系專題企劃書格式建議書

目 录 第 五 部 分 第 六 部 分 第 七 部 分 第 八 部 分 投 标 邀 请 投 标 人 须 知 附 表 评 标 方 法 和 评 分 细 则 项 目 需 求 和 技 术 方 案 要 求 1

Microsoft Word 级第二专业学士学位培养计划.doc

声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 任 何 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工

Transcription:

第 三 章. 研 究 繁 簡 等 義 詞 辨 識 方 法 在 研 究 繁 簡 等 義 詞 辨 識 方 法 時, 會 經 過 幾 個 步 驟, 包 含 將 量 的 語 料 庫 建 語 料 庫 模 組, 再 建 電 腦 類 繁 簡 體 語 料 庫 正 確 詞 組 雜 訊 語 料 和 虛 詞 等, 接 著 再 將 語 料 庫 句 組 作 斷 詞 處 理, 這 時 才 將 基 礎 工 作 完 成 然 後 利 用 三 種 方 法 建 一 個 辨 識 等 義 詞 的 架 構, 這 三 種 方 法 包 含 使 用 N-gram 辨 識 同 義 字 詞, 再 使 用 PMI-IR&LC-IR 方 法 統 計 等 義 詞 出 現 次 數, 與 Context Vector 來 提 高 等 義 詞 辨 識 率 以 下 將 說 明 整 個 研 究 架 構 與 語 料 庫 的 建 與 辨 識 等 義 詞 的 方 法, 並 且 規 劃 出 本 研 究 的 方 法 架 構 模 型 3.1 研 究 架 構 整 個 研 究 架 構 分 為 兩 步 驟, 第 一 步 驟 先 針 對 語 料 庫 作 處 理, 將 各 來 源 之 語 料 經 過 人 工 處 理, 包 含 去 除 不 適 用 資 料 過 短 或 過 長 的 語 句, 再 加 以 分 類 成 電 腦 類 與 一 般 類 語 料 庫 等, 最 後 再 經 由 斷 詞 成 為 斷 詞 語 料 庫 : Step 1 翻 譯 書 平 行 語 料 庫 中 研 院 平 衡 語 料 搜 狗 語 料 庫 3.2 建 語 料 庫 模 組 原 始 語 料 庫 斷 詞 語 料 庫 3.3 文 字 斷 詞 處 理 圖 3-1: 語 料 庫 處 理 架 構 圖 第 二 步 驟 嘗 試 先 使 用 N-gram 的 方 法 來 作 實 驗,N-gram 會 辨 識 出 多 組 繁 簡 37

等 義 詞 對 映, 這 時 必 需 將 縮 小 對 映 組 數, 利 用 PMI-IR&LC-IR 及 Context Vector 可 以 作 為 多 選 一 的 判 斷 方 法 並 進 行 第 二 部 份 辨 識, 然 後 觀 察 其 辨 識 效 果 之 Precision 及 Recall 是 否 比 採 單 一 使 用 N-gram 步 驟 更 好, 這 也 是 為 何 選 擇 這 樣 架 構 的 原 因 : Step 2 斷 詞 語 料 庫 Step 2-1 Step 2-2 3.4 建 N-gram 模 組 3.5 建 PMI-IR&LC-IR 模 組 3.6 建 Context Vector 模 組 圖 3-2: 方 法 模 型 架 構 圖 而 繁 簡 體 兩 組 語 料 庫 在 斷 詞 後, 運 用 比 對 的 方 式 來 找 出 結 構 相 同 但 用 語 不 同 的 詞 組, 而 N-gram 的 特 點 就 是 可 以 指 定 固 定 長 度 的 結 構 來 作 比 對, 例 如 3-gram 來 說, 有 ABC 三 個 詞, 這 三 個 詞 在 比 對 上 可 能 有 xbc AxC ABx 三 種 可 能 性, 其 中 的 x 是 兩 組 詞 同 一 位 置 但 不 同 的 用 詞, 例 如 AxC 可 以 比 對 出 将 软 盘 放 入 和 將 軟 碟 放 入, 因 為 原 詞 組 順 序 為 ABC, 但 B 的 詞 組 不 同, 所 以 只 要 A 和 C 相 同 時, 就 可 取 得 B 這 個 詞, 因 此 可 以 用 此 方 法 來 取 得 繁 簡 有 關 聯 的 用 詞 組 N-gram 在 辨 識 等 義 詞 的 有 很 好 的 效 果, 雖 然 它 Precision 僅 會 到 一 定 的 程 度, 但 是 至 少 它 可 以 將 語 料 庫 中 辨 識 出 哪 些 是 等 義 詞 而 PMI-IR&LC-IR 及 Context Vector 這 兩 個 方 法 的 最 作 用 是 可 以 歸 類 詞 的 種 類 及 判 斷 多 個 詞 中 多 選 一, 因 此 可 以 作 為 補 強 N-gram 的 Precision 及 Recall 較 低 的 缺 點, 所 以 分 為 兩 個 步 驟 進 行 38

3.2 建 語 料 庫 模 組 語 料 庫 對 實 驗 是 相 當 重 要 的, 在 世 界 各 地 語 言 界 中 最 原 始 的 是 特 定 語 料 庫 與 複 合 語 料 庫, 分 別 說 明 如 下 : 特 定 語 料 庫 : 特 定 語 料 庫 故 名 思 義 即 是 一 種 特 定 類 型 的 語 料 庫, 例 如 莎 士 比 亞 文 作 家 所 出 的 書, 整 個 莎 士 比 亞 全 集 就 是 一 種 語 料 庫 此 類 語 料 庫 包 括 一 個 語 型 (genre) 或 一 組 類 似 語 型, 可 以 探 討 莎 士 比 亞 遣 詞 用 字 的 特 殊 風 格 複 合 語 料 庫 : 複 合 語 料 庫 指 的 是 多 種 類 的 語 料 庫, 在 一 個 語 料 庫 之 中 包 含 多 語 型 (multi-genre) 的 語 料 庫 例 如 使 用 出 版 品 的 語 料 庫, 就 包 含 小 說 戲 劇 新 聞 雜 文 電 子 郵 件 術 文 章 等, 甚 至 還 包 含 語 音 語 料, 主 要 在 研 究 某 一 語 言 中 遣 詞 用 字 的 風 格 其 中 複 合 語 料 庫 中 還 有 一 些 子 類 型, 例 如 多 語 型 (multilingual) 語 料 庫 就 是 一 種 語 料 庫 中 包 含 兩 種 以 上 的 語 言, 主 要 的 用 途 是 翻 譯 研 究 語 言 對 比 研 究 (contrastive studies), 進 而 可 以 協 助 電 腦 翻 譯 與 語 言 教 法 的 研 發 而 翻 譯 的 語 料 庫 又 稱 為 平 行 語 料 庫, 平 行 (parallel) 語 料 庫 是 類 似 翻 譯 的 文 章, 亦 即 原 文 加 上 其 多 種 譯 文, 例 如 聖 經, 在 中 古 時 期 被 翻 譯 成 多 種 語 言, 但 其 內 容 是 相 同 的 因 此 本 實 驗 分 為 三 種 語 料 庫, 依 照 語 料 庫 的 類 別 作 等 義 詞 辨 識, 這 三 種 語 料 庫 分 別 是 : 電 腦 翻 譯 書 作 為 平 行 語 料 庫 中 研 院 平 衡 語 料 庫 與 搜 狗 語 料 庫 作 為 一 般 語 料 庫, 然 後 各 劃 分 為 繁 體 語 料 庫 與 簡 體 語 料 庫, 其 中 電 腦 翻 譯 書 平 行 語 料 庫 本 身 就 是 電 腦 類 的 繁 簡 體 語 料 庫, 而 中 研 院 平 衡 語 料 庫 劃 分 為 一 般 類 與 雜 訊 類 的 繁 體 語 料 庫, 搜 狗 語 料 庫 劃 分 為 一 般 類 與 雜 訊 類 的 簡 體 語 料 庫 : 39

翻 譯 書 平 行 語 料 庫 繁 體 語 料 庫 簡 體 語 料 庫 電 腦 類 - 繁 體 語 料 庫 電 腦 類 - 簡 體 語 料 庫 中 研 院 平 衡 語 料 庫 繁 體 語 料 庫 一 般 類 - 繁 體 語 料 庫 一 般 類 - 簡 體 語 料 庫 搜 狗 語 料 庫 簡 體 語 料 庫 圖 3-3: 語 料 庫 模 型 架 構 圖 雜 訊 類 - 繁 體 語 料 庫 雜 訊 類 - 簡 體 語 料 庫 在 一 般 類 語 料 庫 上, 原 本 想 要 利 用 spider 同 時 擷 取 台 灣 與 陸 同 時 共 有 的 網 頁 資 料, 例 如 新 聞 書 籍 期 刊 等 翻 譯 資 料, 因 為 這 些 資 料 會 在 某 一 方 先 撰 寫 完 成 後, 再 翻 譯 成 另 一 方 的 語 言 再 放 到 網 路 上, 像 台 灣 的 網 頁 上 的 繁 體 新 聞 也 會 被 翻 譯 成 簡 體 放 到 陸 的 網 頁 中, 因 為 收 集 上 比 較 困 難, 再 加 上 需 要 過 濾 的 雜 質 很 多, 最 後 收 集 到 的 資 料 非 常 的 少, 所 以 最 後 直 接 採 用 中 研 院 與 搜 狗 的 語 料 庫 作 為 一 般 類 語 料 庫 的 來 源 3.2.1 建 電 腦 類 繁 簡 體 語 料 庫 在 本 研 究 的 電 腦 類 繁 簡 體 語 料 庫 屬 於 平 行 語 料 庫 的 一 種, 而 平 行 語 料 庫 最 常 見 的 就 是 翻 譯 書, 因 此 向 出 版 社 取 得 簡 體 翻 譯 為 繁 體 的 書 籍 原 稿 作 為 電 腦 類 繁 簡 體 語 料 庫 的 基 礎 早 期 台 灣 電 腦 書 籍 品 質 好 水 準 高, 所 以 被 翻 譯 成 簡 體 後 在 陸 銷 售, 但 近 年 來 陸 的 電 腦 書 越 來 越 多, 加 上 台 灣 作 者 成 本 與 利 潤 不 符 比 例, 所 以 引 進 陸 較 好 之 電 腦 書 籍 翻 譯 成 繁 體 版, 在 台 灣 市 場 上 銷 售 電 腦 翻 譯 書 的 語 料 是 由 15 本 簡 體 翻 譯 成 繁 體 的 書 籍 所 收 集 而 成, 內 容 包 含 40

軟 體 程 式 設 計 網 路 程 式 設 計 晶 片 程 式 開 發 應 用 程 式 和 驅 動 程 式 等, 所 以 內 容 集 中 在 許 多 常 見 的 電 腦 相 關 用 語 以 下 是 簡 體 翻 譯 成 繁 體 電 腦 書 的 清 單 : Windows 程 式 設 計 基 礎 VisualC++ 網 路 通 信 編 程 動 手 寫 最 小 的 操 作 系 統 ASP.NET2.0 開 發 指 南 8051 單 晶 片 精 通 Spring2.0 VB 程 序 開 發 範 例 寶 典 Ruby on Rails 快 速 Web 應 用 開 發 實 戰 自 己 動 手 寫 嵌 入 式 操 作 系 統 - 範 例 程 式 JAVA 課 程 設 計 案 例 精 編 VisualBasic C# 資 料 庫 系 統 開 發 VB 函 數 參 考 全 Google_API J2ME 簡 體 電 腦 書 在 翻 譯 成 繁 體 電 腦 書 的 過 程, 會 先 將 編 碼 轉 換 成 繁 體, 再 對 照 繁 簡 辭 典, 修 正 兩 岸 不 同 的 用 語, 部 份 的 句 子 和 台 灣 使 用 的 結 構 不 同, 也 可 能 再 修 飾 成 台 灣 習 慣 的 文 法 結 構, 而 且 因 為 陸 文 化 的 關 係, 少 部 份 在 書 寫 上 很 文 言 文, 有 時 不 太 像 是 一 般 的 白 話 文, 若 感 覺 太 難 懂 會 適 當 將 句 子 改 的 較 白 話 一 些 電 腦 翻 譯 書 的 語 料 庫 會 先 取 出 文 字 的 部 份, 去 除 程 式 碼 及 不 相 干 文 字 後, 分 成 繁 簡 體 兩 個 純 文 字 檔, 繁 簡 體 合 計 各 59,800 句 左 右, 並 且 轉 入 資 料 庫 之 中 使 用 電 腦 翻 譯 書 在 作 為 語 料 庫 前 要 先 作 一 個 整 理, 包 含 人 工 的 篩 選 及 轉 換 的 步 驟, 建 置 的 架 構 如 下, 先 收 集 所 有 的 電 腦 類 翻 譯 書, 這 些 翻 譯 書 稿 都 是 Word 或 PDF 檔, 先 匯 整 合 成 繁 / 簡 體 文 字 檔, 然 後 人 工 篩 選 出 可 用 的 詞 句, 將 所 有 詞 句 排 列 成 一 行 一 行 的 文 字, 再 轉 入 資 料 庫, 並 且 去 除 字 數 長 度 小 於 10 的 詞 句, 並 依 逗 號 再 分 割 成 子 段 落 : 41

Start 電 腦 類 翻 譯 書 整 合 成 繁 / 簡 體 文 字 檔 是 否 為 可 用 詞 句 Yes 轉 入 資 料 庫 No 刪 除 去 除 長 度 小 於 10 的 詞 句 分 割 子 段 落 ( 逗 號 ) End 圖 3-4: 電 腦 類 繁 簡 體 語 料 庫 建 置 架 構 圖 建 電 腦 類 語 料 庫 時 是 使 用 電 腦 類 翻 譯 書, 電 腦 書 最 常 見 問 題 是 許 多 的 句 子 長 度 不 長, 在 說 明 上 會 較 簡 略, 而 且 在 許 多 說 明 都 很 雷 同, 因 此 有 的 用 語 使 用 頻 率 很 高, 有 的 英 文 用 語 因 翻 譯 不 同 而 產 生 兩 個 以 上 的 翻 譯 詞, 例 如 "Server" 在 繁 體 可 稱 為 " 主 機 " " 伺 服 器 ", 但 在 簡 體 中 幾 乎 皆 稱 為 " 服 務 器 ", 這 時 就 可 能 會 有 多 對 一 或 多 對 多 的 情 形 產 生 3.2.2 建 一 般 類 繁 簡 體 語 料 庫 一 般 類 繁 體 語 料 庫 : 在 本 研 究 中 的 一 般 類 繁 體 語 料 庫 使 用 的 是 中 研 院 平 衡 語 料 庫, 它 包 含 新 聞 報 章 雜 誌 等 資 料, 中 研 院 平 衡 語 料 庫 是 中 研 院 資 訊 所 和 語 言 所 於 民 七 十 五 年 成 一 個 跨 所 合 作 的 中 文 計 算 語 言 研 究 小 組 共 同 合 作 建 構 中 文 自 然 語 言 處 理 的 資 源 與 研 究 環 境, 為 內 外 中 文 自 然 語 言 處 理 及 其 相 關 研 究 42

提 供 基 本 的 研 究 資 料 與 知 識 架 構 代 表 性 研 究 成 果 包 括 中 文 詞 知 識 庫 語 料 庫 及 中 文 處 理 技 術 等 中 央 研 究 院 平 衡 語 料 庫 簡 稱 中 研 院 平 衡 語 料 庫 (Sinica Corpus), 是 世 界 上 第 一 個 有 完 整 詞 類 標 記 的 漢 語 平 衡 語 料 庫 由 於 加 詞 類 標 記 的 漢 語 語 料 庫 是 史 無 前 例 的 嚐 試, 第 一 步 先 以 較 小 規 模 ( 但 仍 於 較 早 英 語 語 料 庫 的 一 百 萬 詞 規 模 ), 於 一 九 九 四 年 公 開 提 供 給 內 外 術 研 究 使 用, 以 期 在 使 用 過 程 中 得 到 回 饋, 在 完 成 目 標 規 模 前 可 以 做 必 要 的 修 正 1997 年 開 放 的 研 究 院 語 料 庫 3.0 版 已 達 到 五 百 萬 目 詞 的 預 計 規 模, 目 前 正 朝 向 一 千 萬 詞 的 目 標 邁 進 建 構 一 個 平 衡 帶 詞 類 標 記 的 語 料 庫, 收 集 語 料 只 不 過 是 第 一 個 起 步 工 作 接 下 來 是 語 料 整 理 的 工 作, 包 括 語 料 清 潔 為 語 料 分 類 加 詞 類 標 記 等 等 (Chen, 1994) 此 語 料 庫 是 世 界 上 第 一 個 有 完 整 詞 類 標 記 的 漢 語 平 衡 語 料 庫 而 使 用 的 語 料 庫 3.0 版 已 達 到 五 百 萬 目 詞 的 預 計 規 模, 資 料 收 集 是 以 台 灣 主 要 報 章 雜 誌 為 主, 其 內 容 分 佈 以 社 會 類 佔 35% 最 多, 藝 術 類 5%, 其 他 類 別 則 佔 平 均 比 例, 平 衡 語 料 的 分 類 標 準 以 及 各 類 的 比 例 各 類 分 配 比 例 如 下 : 主 題 哲 科 社 會 藝 術 生 活 文 總 計 平 衡 語 料 庫 百 分 比 10% 10% 35% 5% 20% 20% 100% 表 3-1: 中 央 研 究 院 平 衡 語 料 庫 3.0 版 各 主 題 分 佈 比 例 根 據 本 研 究 目 的, 使 用 中 央 研 究 院 平 衡 語 料 庫 作 為 一 般 類 的 繁 體 語 料 庫, 並 取 只 取 出 合 適 及 與 正 確 詞 有 關 之 語 料, 但 不 區 分 其 類 別 建 一 般 類 繁 體 語 料 庫 比 較 沒 有 太 多 問 題, 因 為 它 提 供 的 是 純 文 字 檔, 每 一 個 句 子 都 是 一 行, 僅 需 將 句 子 稍 作 整 理, 即 可 斷 詞 並 匯 入 資 料 庫 之 中 一 般 類 簡 體 語 料 庫 : 使 用 的 是 搜 狗 網 頁 語 料 庫, 它 包 含 在 網 頁 上 的 新 聞 內 容 等 資 料, 陸 搜 狗 的 語 料 庫 (http://www.sogou.com/labs/dl/t.html) 搜 狗 是 搜 狐 公 司 於 2004 年 8 月 3 日 推 出 的 全 球 首 個 第 三 代 互 動 式 中 文 搜 尋 引 擎, 網 域 名 稱 為 www.sogou.com 搜 狗 以 搜 索 技 術 為 核 心, 致 力 於 中 文 互 聯 網 資 訊 的 深 度 挖 掘, 43

搜 狗 的 產 品 線 包 括 了 網 頁 應 用 和 桌 面 應 用 兩 部 分 網 頁 應 用 以 網 頁 搜 索 為 核 心, 在 音 樂 圖 片 新 聞 地 圖 領 域 提 供 垂 直 搜 索 服 務, 並 建 搜 索 型 用 戶 的 社 區 網 路, 並 有 許 多 應 用 程 式 提 供 下 載, 例 如 搜 狗 Tool Bar 拼 音 輸 入 法 幫 PXP 加 速 引 擎 線 上 影 音 直 播 點 播 服 務 等 搜 狗 語 料 庫 稱 為 互 聯 網 (Internet) 語 料 庫 2.0, 內 容 包 含 Web 頁 面 及 網 路 語 料, 互 聯 網 語 料 庫 2.0 版 本 是 一 個 包 含 了 約 1 億 (100,054,692) 網 頁 資 料, 原 始 語 料 規 模 超 過 1TB 的 海 量 網 路 頁 面 語 料 庫 在 一 定 程 度 上 反 映 了 中 網 際 網 路 中 網 頁 語 料 的 整 體 概 廓 因 為 搜 狗 語 料 庫 相 當, 所 以 實 驗 的 資 料 是 辨 識 部 份 的 資 料, 數 量 和 中 研 院 的 語 料 庫 接 近, 避 免 在 數 量 上 不 平 衡 搜 狗 語 料 庫 本 身 也 提 供 原 始 網 頁 的 原 始 純 文 字 檔, 包 含 tag 等 最 原 始 的 檔 案 內 容, 也 另 外 附 上 僅 網 頁 內 容 的 文 字 檔, 並 且 已 經 將 句 子 作 好 斷 行 的 工 作 但 首 先 遇 到 的 問 題 是 必 需 使 用 能 編 輯 簡 體 的 編 輯 器, 因 為 在 繁 體 的 作 業 系 統 中 若 開 啟 非 繁 體 文 字 的 檔 案 會 有 亂 碼, 所 以 需 要 將 文 字 轉 換 為 unicode, 然 後 再 存 入 資 料 庫, 而 資 料 庫 的 欄 位 也 必 需 能 接 受 unicode 的 資 料 3.2.3 建 正 確 詞 組 本 研 究 在 實 驗 後 會 由 電 腦 辨 識 出 繁 簡 等 義 詞, 為 了 能 計 算 出 辨 識 出 之 繁 簡 等 義 詞 是 否 正 確, 必 需 要 有 繁 簡 等 義 詞 正 確 詞 組, 作 為 實 驗 結 果 比 對 之 用 由 於 目 前 世 界 上 並 沒 有 所 謂 繁 簡 等 義 詞 的 標 準 辭 典 或 公 認 的 繁 簡 等 義 詞 對 照 表, 一 般 繁 簡 等 義 詞 會 繁 體 使 用 者 或 簡 體 使 用 者 在 同 時 使 用 繁 簡 體 文 字 時, 由 人 工 辨 識 而 整 理 出 的 對 照 詞 組, 因 此 實 驗 中 所 使 用 的 繁 簡 等 義 詞 正 確 詞 組 是 從 這 整 理 出 來 的 詞 組 正 確 詞 組 挑 選 的 方 法 是 將 翻 譯 書 平 行 語 料 庫 中 研 院 平 衡 語 料 庫 與 搜 狗 語 料 庫 作 為 繁 簡 對 映 正 確 詞 組 的 基 礎, 從 中 找 出 繁 簡 不 同 的 對 映 詞 組, 並 且 挑 選 出 最 明 顯 不 同 的 對 映 詞 組 對 映 正 確 詞 組 挑 選 的 架 構 如 下 : 44

翻 譯 書 平 行 語 料 庫 中 研 院 平 衡 語 料 庫 搜 狗 語 料 庫 人 工 檢 視 詞 組 放 入 繁 簡 正 確 詞 組 圖 3-5: 繁 簡 對 映 正 確 詞 組 模 型 架 構 圖 因 為 利 用 人 工 檢 視 整 個 語 料 庫 需 花 費 一 些 時 間, 在 多 次 實 驗 後, 發 現 電 腦 也 自 動 辨 識 出 許 多 繁 簡 等 義 詞 正 確 詞 組, 這 些 詞 組 是 原 本 沒 被 人 工 挑 選 出 來, 經 觀 察 後 發 現 也 是 繁 簡 等 義 詞 正 確 詞 組, 所 以 放 入 繁 簡 等 義 詞 正 確 詞 組 中, 而 實 驗 過 程 中 會 經 過 幾 次 累 積, 所 以 實 驗 的 語 料 庫 與 繁 簡 正 確 詞 組 基 本 上 是 相 互 對 映 的, 也 就 是 繁 簡 正 確 詞 組 必 定 會 在 實 驗 的 語 料 庫 中 出 現 為 了 讓 實 驗 可 以 確 認 固 定 的 範 圍, 因 此 設 定 繁 簡 等 義 詞 正 確 詞 組 有 在 實 驗 之 語 料 庫 出 現, 全 部 共 425 組 一 般 中 斷 碳 粉 介 面 支 援 列 印 字 元 字 型 存 取 當 機 作 業 即 時 尾 碼 批 次 更 新 協 定 呼 叫 衍 生 首 碼 在 辨 識 出 對 映 正 確 詞 組 後, 正 確 詞 組 舉 例 如 下 : 常 规 断 开 色 粉 接 口 支 持 打 印 字 符 字 体 访 问 死 机 操 作 实 时 后 缀 批 量 刷 新 协 议 调 用 派 生 前 缀 原 始 碼 源 代 码 桌 上 型 台 式 机 桌 面 案 头 格 式 形 式 訊 息 信 息 迴 圈 循 环 偵 測 检 测 動 作 操 作 參 照 引 用 唯 讀 只 读 堆 疊 堆 栈 執 行 运 行 宿 主 容 器 巢 狀 嵌 套 常 式 例 程 常 數 常 量 捲 動 滚 动 接 腳 引 脚 捷 徑 快 捷 設 定 軟 體 連 結 連 線 單 字 復 原 插 斷 換 行 晶 片 游 標 測 試 焦 點 登 出 硬 碟 硬 體 程 式 結 構 視 訊 註 釋 配 置 软 件 链 接 连 接 单 词 撤 销 中 断 回 车 芯 片 光 标 调 试 热 点 注 销 硬 盘 硬 件 代 码 架 构 视 频 注 释 進 位 進 階 開 啟 開 機 亂 數 傳 送 匯 入 新 增 滑 鼠 解 碼 資 料 資 訊 預 設 圖 示 實 作 對 映 旗 標 網 路 遠 端 进 制 高 级 打 开 引 导 随 机 发 送 导 入 添 加 鼠 标 译 码 数 据 信 息 默 认 图 标 实 现 映 射 旗 语 网 络 远 程 數 位 数 码 暫 存 缓 存 模 組 模 块 範 本 模 板 範 例 示 例 螢 幕 屏 幕 選 單 菜 单 頻 寬 带 宽 備 份 后 备 多 緒 序 线 程 非 同 步 异 步 運 算 子 运 算 符 電 腦 计 算 机 印 表 機 打 印 机 回 收 筒 回 收 站 副 檔 名 扩 展 名 單 晶 片 单 片 机 視 覺 化 可 视 化 駭 客 黑 客 45

儲 存 檔 案 離 線 雜 訊 類 比 變 數 小 費 內 銷 分 散 手 錶 捐 血 日 班 月 台 水 準 代 班 出 貨 失 業 目 前 示 範 列 舉 向 量 回 應 保 存 文 件 脱 机 噪 声 模 拟 变 量 小 账 本 销 分 布 腕 表 献 血 白 班 站 台 水 平 替 班 出 库 下 岗 当 前 演 示 枚 举 矢 量 响 应 曳 引 西 曆 冷 門 冷 盤 批 價 傷 口 使 用 夜 校 定 居 盲 點 便 當 品 質 契 約 建 指 派 指 標 相 簿 套 裝 射 門 氣 管 迴 轉 樂 拖 拉 公 历 冷 背 凉 菜 划 价 创 面 调 用 夜 学 户 误 区 盒 饭 质 量 合 同 创 建 分 配 指 针 相 册 套 服 打 门 气 道 掉 头 民 乐 常 態 排 休 涼 麵 清 單 軟 片 通 訊 透 過 陷 阱 備 註 智 慧 塑 膠 意 外 感 測 資 優 過 期 雷 射 電 壓 零 錢 網 友 審 查 影 印 憂 鬱 正 态 歇 班 冷 面 列 表 胶 卷 通 信 通 过 猫 腻 备 注 智 能 塑 料 异 常 传 感 超 智 超 储 激 光 电 平 散 钱 网 民 审 批 打 印 抑 郁 撞 球 台 球 樣 式 模 式 標 記 标 志 潮 流 浪 头 膠 帶 胶 卷 髮 廊 发 屋 整 合 集 成 機 率 概 率 諧 星 笑 星 錄 影 录 像 優 格 酸 奶 智 囊 團 脑 库 奇 異 果 猕 猴 桃 利 樂 包 软 包 装 泡 麵 方 便 面 保 特 瓶 可 乐 瓶 保 麗 隆 泡 沫 穿 越 道 横 道 計 程 車 出 租 车 重 考 班 复 读 班 狗 隻 犬 只 迷 你 裙 超 短 裙 號 誌 信 号 灯 馬 鈴 薯 土 豆 語 普 通 話 條 碼 条 形 码 黃 牛 票 贩 子 引 擎 发 动 机 幼 稚 園 幼 儿 园 電 漿 等 离 子 管 線 流 水 线 口 香 糖 口 胶 糖 壓 克 力 有 机 玻 璃 繁 瑣 冗 长 聯 集 联 合 隱 形 眼 鏡 无 形 眼 镜 空 中 巴 士 空 中 客 车 公 共 汽 車 公 交 车 太 空 梭 航 天 飞 机 鎖 定 绑 定 識 別 标 识 菜 單 菜 谱 表 3-2:: 繁 簡 等 義 詞 正 確 詞 組 範 例 在 整 個 語 料 庫 中, 當 然 有 更 多 可 以 作 為 繁 簡 等 義 詞 正 確 詞 組, 但 是 許 多 的 對 映 並 不 明 顯, 例 如 " 後 來 " 和 " 后 来 ", 雖 然 字 是 完 全 不 同, 但 發 音 相 同, 因 此 較 不 明 顯 例 如 " 雪 黎 " 和 " 悉 尼 " 是 屬 地 名, 因 為 地 名 或 人 名 這 方 面 光 是 同 一 地 區 就 可 能 有 很 多 種 翻 譯 結 果, 所 以 這 類 的 也 都 不 納 入 在 確 定 繁 簡 等 義 詞 正 確 詞 組 的 內 容 後, 並 確 定 這 些 詞 組 至 少 會 在 實 驗 之 繁 簡 語 料 庫 某 一 詞 句 中 出 現, 確 定 之 繁 簡 等 義 詞 正 確 詞 組 數 量 為 425 組, 這 個 繁 簡 等 義 詞 正 確 詞 組 數 量 如 果 都 已 經 確 保 含 在 繁 簡 語 料 庫 中, 便 會 利 用 此 範 圍 作 為 評 估 Precision 與 Recall 之 標 準 3.2.4 建 雜 訊 資 料 使 用 N-gram 辨 識 資 料 時, 會 依 照 前 後 詞 組 對 映 的 關 係 來 找 出 等 義 詞, 但 是 對 於 平 行 語 料 庫 來 說, 因 為 文 法 結 構 與 內 容 幾 乎 雷 同, 所 以 要 辨 識 出 相 同 結 構 的 詞 組 是 很 容 易 的, 為 了 試 圖 讓 N-gram 在 辨 識 資 料 後, 觀 察 是 否 會 因 為 雜 訊 資 料 而 有 不 同 的 結 46

果, 因 此 要 加 入 不 同 比 例 的 雜 訊 資 料 雜 訊 類 的 資 料 是 由 一 般 類 的 語 料 庫 所 篩 選 出 來 的, 其 中 的 內 容 百 分 之 百 不 含 任 何 正 確 詞 組 的 詞 將 整 個 語 料 庫 複 製 成 三 份, 第 一 份 不 含 任 何 雜 訊 資 料 (1:0), 第 二 份 加 入 與 原 語 料 庫 資 料 等 比 例 之 雜 訊 (1:1), 最 後 一 份 加 入 與 原 語 料 庫 資 料 三 倍 比 例 之 雜 訊 (1:3), 圖 示 如 下 : 電 腦 類 - 繁 體 語 料 庫 電 腦 類 - 簡 體 語 料 庫 電 腦 類 - 繁 體 語 料 庫 1:0 電 腦 類 - 簡 體 語 料 庫 1:0 一 般 類 - 繁 體 語 料 庫 1:0 一 般 類 - 繁 體 語 料 庫 一 般 類 - 簡 體 語 料 庫 一 般 類 - 簡 體 語 料 庫 1:0 電 腦 類 - 繁 體 語 料 庫 1:1 電 腦 類 - 簡 體 語 料 庫 1:1 一 般 類 - 繁 體 語 料 庫 1:1 一 般 類 - 簡 體 語 料 庫 1:1 電 腦 類 - 繁 體 語 料 庫 1:3 電 腦 類 - 簡 體 語 料 庫 1:3 一 般 類 - 繁 體 語 料 庫 1:3 一 般 類 - 簡 體 語 料 庫 1:3 圖 3-6: 雜 訊 資 料 比 例 示 意 圖 雜 訊 類 - 繁 體 語 料 庫 雜 訊 類 - 簡 體 語 料 庫 加 入 雜 訊 的 數 量 必 需 是 依 照 語 料 庫 現 有 的 數 量 比 例 加 入, 因 為 在 實 驗 過 程 中 會 不 時 調 整 語 料 庫, 例 如 每 重 新 實 驗 一 次 就 可 能 會 稍 微 增 減 現 有 語 料 庫 的 數 量, 例 如 電 腦 類 - 繁 體 語 料 庫 現 在 是 6,155 筆, 那 要 加 入 1:1 的 雜 訊 時, 即 是 加 入 6,155 筆 和 電 腦 類 - 繁 體 語 料 庫 完 全 無 關 之 語 料 3.2.5 虛 詞 Stop Word 實 驗 的 語 料 庫 在 辨 識 後 的 結 果, 會 包 含 許 多 詞 頻 很 高 的 詞, 稱 為 虛 詞 (Stop word), 47

也 可 以 是 具 有 特 定 語 言 意 義 的 字 詞, 或 者 也 可 以 是 不 具 有 語 言 意 義 的 Token, 文 章 中 的 介 係 詞 代 名 詞 語 助 詞 等 等 例 如 英 文 中 出 現 頻 率 超 高 的 "a" "and" "is" 及 "the" 等 字 都 會 排 除 在 全 文 檢 索 之 外, 因 為 一 般 而 言 這 些 字 都 無 助 於 搜 尋, 這 些 捨 棄 的 字 就 稱 為 虛 詞 利 用 詞 彙 共 現 之 資 訊 進 行 詞 彙 之 分 群, 若 一 些 出 現 頻 率 較 高 但 不 具 檢 索 價 值 的 詞 彙 亦 加 入 相 關 詞 彙 的 判 斷, 將 會 混 淆 正 確 詞 彙 的 Precision, 因 此 必 須 於 實 驗 進 行 前, 把 不 具 檢 索 價 值 的 詞 彙 先 行 剔 除 本 研 究 使 用 中 研 院 建 構 的 詞 頻 表 作 為 虛 詞, 以 提 供 更 多 相 關 詞 彙 輔 助 檢 索, 並 依 據 實 驗 資 料 庫 中 出 現 頻 率 極 高 的 詞 彙, 進 行 人 工 篩 選 建 中 文 虛 詞 表 虛 詞 表 含 中 研 院 建 構 的 詞 頻 表 與 符 號 等, 因 為 數 量 較 多, 僅 簡 單 列 出 符 號 及 虛 詞 約 八 十 組 左 右 ( 以 比 劃 為 順 序, 並 非 出 現 頻 率 排 序 ): # $ % ( ),. : ;? @ _ ~ 一 了 人 下 上 也 子 小 工 不 中 之 天 心 文 以 他 出 去 可 只 台 它 本 生 用 示 交 同 各 因 地 在 多 好 如 年 成 有 而 自 何 佑 但 你 我 沒 那 並 來 其 到 和 或 所 於 果 法 的 者 表 信 前 則 很 後 表 3-3: 虛 詞 表 在 實 驗 過 程 中, 虛 詞 是 不 先 作 作 處 理 的, 例 如 " 你 的 花 好 漂 亮 ", 若 事 先 將 " 你 " " 的 " 和 " 好 " 這 些 虛 詞 去 除, 則 整 個 句 子 會 變 成 " 花 漂 亮 ", 這 會 和 原 先 句 子 要 表 達 的 意 思 不 盡 相 同 因 此 在 處 理 斷 詞 及 比 對 的 過 程 中 都 暫 不 處 理 虛 詞 問 題, 而 是 在 比 對 出 結 果 後 再 進 行 去 除 虛 詞 的 動 作, 例 如 找 出 的 等 義 詞 為 " 你 " 這 個 字, 則 不 列 入 等 義 詞 的 候 選 詞 之 中 3.2.6 中 文 的 內 碼 每 個 符 號 在 每 個 電 腦 系 統 中 都 有 制 定 所 對 應 的 代 碼, 這 套 規 則 稱 為 電 腦 的 內 碼 (code) 而 一 般 電 腦 最 常 用 的 美 標 準 資 訊 交 換 碼 ASCII(American Standard Code for 48

Information Interchange), 每 個 常 用 的 符 號 都 有 對 應 的 數 字, 這 套 內 碼 從 數 字 0~127, 只 使 用 七 個 位 元, 最 高 效 位 元 並 不 使 用 一 般 PC 常 用 的 內 碼 ASCII(Extended ASCII) 是 其 延 伸, 將 最 高 的 一 個 位 元 也 編 入, 成 為 八 個 位 元 再 加 上 了 許 多 外 文 和 表 格 符 號 在 繁 體 視 窗 中, 一 的 內 碼 是 42048( 十 六 進 制 是 A440), 乙 的 內 碼 是 42049 在 簡 體 視 窗 中, 一 的 內 碼 則 是 53947( 十 六 進 制 是 d2bb), 乙 的 內 碼 則 是 53970 ( 十 六 進 制 是 d2d2) 常 見 的 中 文 內 碼 指 中 文 在 資 訊 處 理 系 統 內 部 最 基 本 一 種 表 達 形 式, 做 為 儲 存 處 理 等 用 途 例 如 : 臺 灣 業 界 標 準 內 碼 -BIG-5 五 碼, 目 前 通 用 於 個 人 電 腦 終 端 機 印 表 機 等 相 對 地, 中 文 交 換 碼 的 定 義, 即 為 中 文 資 訊 處 理 系 統 之 間, 或 是 資 訊 處 理 系 統 與 通 信 系 統 之 間, 進 行 中 文 資 訊 交 換 時 所 使 用 的 一 種 代 碼 介 如 下 : 繁 簡 體 在 電 腦 中 所 儲 存 的 編 碼 不 同, 分 為 繁 體 BIG-5 碼 和 簡 體 GB 通 用 碼, 簡 一 BIG-5 碼 : BIG-5 碼 是 針 對 繁 體 漢 字 的 漢 字 編 碼, 目 前 在 台 灣 香 港 的 電 腦 系 統 中 普 遍 應 用 BIG-5 碼 由 資 策 會 策 劃 制 定, 宗 旨 原 是 儘 量 不 使 用 到 控 制 碼 範 圍, 並 配 合 人 自 製 的 五 (BIG-5) 套 裝 軟 體 由 於 委 託 民 間 設 計, 因 此 目 前 市 面 上 絕 多 數 的 套 裝 軟 體 都 是 在 BIG-5 內 碼 系 統 發 展 出 來 的 BIG-5 碼 是 由 兩 個 Bytes 組 成 : 第 一 個 Byte 稱 為 High Byte, 第 二 個 Byte 稱 為 Low Byte, 分 常 用 字 次 常 用 字 符 號 使 用 者 造 字 等,BIG-5 碼 系 統 為 兩 位 元 組 之 內 碼 系 統, 共 可 定 義 19782 個 字 碼, 其 高, 低 位 元 組 的 範 圍 如 下 : A1H~FEH(*126) 高 位 元 組 8EH~A0H 81H 8DH 低 位 元 組 40H~7EH(*157) A1H~FEH 表 3-4: 中 文 BIG-5 碼 範 圍 ( 倚 天 ) 二 GB 通 用 碼 : 49

GB 碼 是 1980 年 陸 府 公 布 的 簡 體 漢 字 編 碼 方 案, 在 陸 新 加 坡 得 到 廣 泛 的 使 用, 也 稱 標 碼 標 碼 對 6763 個 漢 字 集 進 行 了 編 碼, 涵 蓋 了 多 數 正 在 使 用 的 漢 字 GB 碼 ( 標 碼 ) 為 中 陸 使 用 之 中 文 內 碼 系 統, 目 前 通 用 之 內 碼 分 為 GB 2312-1980 及 GB 18030-1990 兩 種 前 者 收 字 6768 字, 後 者 則 為 23940 字 為 全 球 使 用 簡 體 中 文 系 統 之 標 準 GBK 碼 是 GB 碼 的 擴 展 字 符 編 碼, 對 多 達 2 萬 多 的 簡 繁 漢 字 進 行 了 編 碼, 簡 體 版 的 Win95 和 Win98 都 是 使 用 GBK 作 系 統 內 碼 類 別 區 名 編 碼 範 圍 類 型 符 號 區 漢 字 區 雙 字 節 1 區 A1A1~A9FE 圖 形 符 號 雙 字 節 5 區 A840~A9A0 圖 形 符 號 雙 字 節 2 區 B0A1~F7FE 漢 字 雙 字 節 3 區 8140~A0FE 漢 字 雙 字 節 4 區 AA40~FEA0 漢 字 月 戶 自 定 義 區 3.2.7 繁 簡 體 編 碼 的 轉 換 雙 字 節 用 戶 區 1 AAA1~AFFE 雙 字 節 用 戶 區 2 F8A1~FEFE 雙 字 節 用 戶 區 3 A140~A7A0 表 3-5: 中 文 GBK 碼 範 圍 ( 朱 邦 復 工 作 室 ) 實 驗 中 的 語 料 庫 含 繁 簡 兩 種 編 碼 的 字 體, 所 以 繁 簡 互 轉 的 功 能 相 當 重 要, 繁 簡 互 轉 分 為 兩 類, 一 個 是 unicode 簡 體 轉 unicode 繁 體, 一 個 是 gb 簡 體 轉 big5 繁 體, 這 兩 者 是 有 許 多 不 同 的 unicode 本 身 的 編 碼 是 同 時 符 合 兩 種 字 體 存 在 的, 所 以 接 著 利 用 一 些 編 碼 轉 換 工 具, 例 如 訓 碼 快 手, 它 能 將 unicode 簡 體 互 轉 unicode 繁 體, 也 能 gb 簡 體 互 轉 big5 繁 體, 或 是 利 用 XP 本 身 的 記 事 本 就 能 另 存 成 unicode 格 式 的 功 能, 盡 量 一 次 先 把 所 有 big5 繁 體 與 gb 簡 體 全 部 轉 成 unicode 繁 體 與 unicode 簡 體, 這 是 針 對 初 期 語 料 庫 還 是 純 文 字 檔 時 先 作 的 工 作 在 轉 換 的 過 程 中, 會 遇 到 一 些 小 問 題, 例 如 " 敩 " 的 繁 體 字 是 " 斆 ", 但 這 個 字 並 不 50

出 現 在 big5 字 集 中, 也 沒 有 適 當 的 對 應 big5 字. 又 如 " 讻 " 的 繁 體 字 是 " 訩 ", 這 個 字 也 不 在 big5 字 集 中, 但 " 讻 " 的 音 義 與 " 哅 " 相 同, 而 " 哅 " 是 big5 字 集 的 字, 因 此 若 要 轉 成 big5 字 集, 便 應 該 轉 成 " 哅 " 字 ( 微 軟 本 身 尚 未 處 理 到 此 一 層 次 ). 其 他 此 類 狀 況 頗 多, 例 如 " 叿 哄 "," 讹 訛 "," 飻 餮 " 等 等, 一 般 這 類 的 字 幾 乎 都 是 不 轉 換 簡 體 字 除 了 字 形 簡 化 類 之 外, 還 有 借 字 代 用 與 一 字 多 用 等 兩 個 情 況 例 如 " 後 " 的 簡 體 字 為 " 后 ", 這 是 借 字 代 用, 因 為 " 后 " 的 本 義 並 非 " 後 " 又 例 如 " 發 " 與 " 髮 " 的 簡 體 字 都 是 " 发 " 因 此 在 前 期 僅 先 針 對 字 碼 作 轉 換 的 工 作, 並 不 對 文 字 內 容 作 改 變 另 外 針 對 純 文 字 資 料 要 轉 入 資 料 庫 時 必 需 使 用 程 式, 而 本 實 驗 使 用 的 是 Visual Studio C#, 其 中 C# 作 繁 簡 轉 換 時 有 兩 個 定 義 如 下 : VbStrConv.SimplifiedChinese 將 繁 體 中 文 字 元 轉 換 成 簡 體 中 文 VbStrConv.TraditionalChinese 將 簡 體 中 文 字 元 轉 換 成 繁 體 中 文 若 需 要 將 文 字 轉 換 成 簡 體, 只 要 執 行 指 令 S = Strings.StrConv(S1, VbStrConv.SimplifiedChinese, 2052); 若 需 要 將 文 字 轉 換 成 繁 體, 只 要 執 行 以 下 指 令 S = Strings.StrConv(S2, VbStrConv.TraditionalChinese, 2052); 另 外 繁 簡 互 換 還 有 一 個 簡 單 好 用 的 利 器, 就 是 使 用 Word 作 繁 簡 轉 換, 微 軟 的 Office Word 有 個 繁 簡 轉 換 的 功 能, 轉 換 後 不 只 文 字 的 寫 法 改 變, 若 用 語 不 同 也 會 更 正, 但 微 軟 的 Word 並 非 建 有 完 整 的 等 義 詞 庫, 所 以 僅 對 較 常 見 的 字 作 等 義 詞 轉 換 : 圖 3-7:Word 校 閱 繁 簡 體 轉 換 功 能 其 他 還 有 一 些 小 工 具, 例 如 Dr.eye 譯 典 通 南 極 星 等, 都 是 一 些 轉 換 的 好 幫 手, 不 過 這 類 工 具 沒 有 提 供 等 義 詞 功 能, 幾 乎 都 是 轉 換 繁 簡 體 碼 而 已 在 繁 簡 比 對 的 過 程, 51

仍 需 要 使 用 繁 簡 體 轉 換 編 碼, 原 因 在 於 繁 簡 體 要 比 對 時, 簡 體 也 要 附 帶 一 份 繁 體 碼, 例 如 下 表, 當 繁 簡 體 本 身 編 碼 就 不 同 時,A 與 B 怎 麼 比 對 就 一 定 是 不 同 的, 只 有 A 去 比 對 C 才 有 機 會 去 比 對 到 相 同 或 同 義 的 詞 句, 而 整 個 N-gram 的 比 對 過 程 也 是 如 此, S1 S2 S3 S5 S6 S7 在 A 與 C 比 對 時 都 相 同, 只 有 S4 不 相 同, 所 以 就 能 用 此 方 法 比 對 出 其 中 一 組 可 能 為 等 義 詞 的 候 選 詞 : S1 S2 S3 S4 S5 S6 S7 繁 體 (A) 都 按 照 純 二 進 位 格 式 進 行 編 譯 S1 S2 S3 S4 S5 S6 S7 簡 體 (B) 都 按 照 纯 二 进 制 格 式 进 行 编 译 簡 體 ( 繁 體 碼 C) 都 按 照 純 二 進 制 格 式 進 行 編 譯 表 3-6: 繁 簡 體 與 附 帶 繁 體 碼 比 對 方 式 3.3 文 字 斷 詞 處 理 中 文 的 單 一 的 字 並 不 能 完 全 代 表 一 個 意 思, 而 詞 是 一 個 字 以 上 所 組 成, 詞 是 最 小 有 意 義 且 可 以 自 由 使 用 的 語 言 單 位 中 文 比 英 文 更 困 難 的 地 方 在 斷 詞, 因 為 英 語 中 每 個 字 之 間 都 有 空 格, 但 中 文 必 需 靠 前 後 的 字 來 判 斷 進 而 斷 詞 但 任 何 語 言 處 理 的 系 統 都 必 須 先 能 分 辨 文 本 中 的 詞 才 能 進 行 進 一 步 的 處 理, 例 如 利 用 機 器 翻 譯 語 言 分 析 了 解 語 意 資 訊 抽 取 等 而 本 研 究 中 的 中 文 斷 詞 只 是 一 個 過 程, 但 也 是 不 可 或 缺 的 步 驟, 原 則 上 自 動 分 詞 多 利 用 詞 典 中 收 錄 的 詞 和 文 本 做 比 對, 找 出 可 能 包 含 的 詞 組 由 於 中 文 詞 集 是 一 個 開 放 集 合, 並 不 會 存 在 任 何 一 個 詞 典 或 方 法 可 以 列 出 所 有 的 中 文 詞 組 例 如 不 同 領 域 的 文 章 斷 詞 的 方 法 不 同, 因 為 有 太 多 的 專 有 名 詞, 尤 其 是 科 技 類 的 文 章, 會 因 為 有 更 多 新 的 專 有 名 詞 而 造 成 錯 誤 的 斷 詞 雖 然 只 要 不 斷 的 補 充 新 的 專 有 名 詞 就 可 以 解 決 這 個 問 題, 但 終 究 無 法 完 全 補 足 因 此 可 以 使 用 抽 取 關 鍵 詞 方 式, 高 頻 率 的 關 鍵 詞 比 較 容 易 抽 取, 少 數 低 頻 率 的 新 詞 不 容 易 事 先 搜 集, 利 用 線 上 辨 識 構 詞 律 詞 素 詞 彙 52

及 詞 彙 共 現 訊 息, 作 為 線 上 新 詞 辨 識 依 據 3.3.1 繁 體 斷 詞 的 處 理 本 研 究 繁 體 採 用 中 研 院 的 斷 詞 系 統 的 中 文 詞 知 識 庫 小 組 提 供, 因 此 斷 詞 程 式 使 用 之 詞 典 包 含 許 多 文 件 資 料 庫 專 門 的 詞 彙, 能 克 服 各 科 領 域 專 門 詞 彙 的 辨 識 問 題, 提 升 斷 詞 品 質, 並 幅 降 低 等 義 詞 典 中 的 雜 訊, 等 義 詞 典 的 詞 彙 資 源 更 豐 富 且 正 確 中 研 院 的 斷 詞 系 統 提 供 的 是 WebService 的 型 式, 因 此 只 要 將 句 子 依 照 規 定 組 合 成 XML, 將 送 至 中 研 院 的 斷 詞 系 統 伺 服 器, 然 後 會 回 傳 斷 好 詞 的 XML, 再 依 規 則 去 解 析 即 可 : 完 整 句 子 語 料 庫 Read C# : 取 出 句 子 組 合 成 XML Internet 斷 詞 後 詞 庫 Write C# : 解 析 XML 去 除 詞 性 圖 3-8: 繁 體 斷 詞 架 構 圖 中 研 院 斷 詞 Server 傳 送 的 格 式 為 XML, 其 中 的 username 及 password 為 用 戶 端 所 申 請 之 帳 號 及 密 碼,<text> 區 段 內 包 含 文 本, 請 注 意 此 文 本 不 應 包 含 會 使 XML 格 式 錯 誤 之 字 元 如 "<" 及 ">", 請 預 先 加 以 適 當 處 理 ( 例 如 轉 換 為 全 形 符 號 ), 以 免 造 成 處 理 錯 誤 的 結 果 文 本 不 需 預 先 進 行 斷 句, 伺 服 器 會 自 行 判 斷 句 子 的 邊 界 例 如 傳 送 資 料 之 XML 格 式 如 下 : <?xml version="1.0"?> <wordsegmentation version="0.1"> <option showcategory="1" /> <authentication username="iis" password="iis" /> <text> 台 新 金 控 12 月 3 日 將 召 開 股 東 臨 時 會 進 行 董 監 改 選 </text> </wordsegmentation> 53

利 用 TCP Socket(http 的 Get 或 Post) 送 出 後, 中 研 院 的 斷 詞 系 統 會 回 應 處 理 結 果, 伺 服 器 傳 回 的 處 理 結 果 XML 如 下 : <?xml version="1.0"?> <wordsegmentation version="0.1"> <processstatus code="0">success</processstatus> <result> <sentence> 台 新 (N) 金 控 (N) 12 月 (N) 3 日 (N) 將 (ADV) 召 開 (Vt) 股 東 (N) 臨 時 會 (N) 進 行 (Vt) 董 監 (N) 改 選 (Vt) </sentence> </result> </wordsegmentation> 其 中 <processstatus> 區 段 為 處 理 的 結 果, code=0 表 示 成 功 外,code=1 表 示 伺 服 器 內 部 發 生 錯 誤, 可 能 是 由 不 預 期 的 字 元 或 是 過 於 複 雜 的 句 子 結 構 所 造 成 ;code=2 表 示 接 收 到 的 XML 格 式 有 錯 誤 ;code=3 表 示 帳 號 或 密 碼 錯 誤 斷 詞 過 的 所 有 句 子 包 含 在 <result> 區 段 內, 每 一 句 儲 存 於 <sentence> 區 段 中, 每 個 詞 以 全 形 空 白 隔 開 所 以 若 處 理 錯 誤 的 三 種 回 傳 碼 如 下 : <processstatus code="1">service internal error</processstatus> <processstatus code="2">xml format error</processstatus> <processstatus code="3">authentication failed</processstatus> 接 著 將 <sentence> 標 記 內 的 字 串 取 出, 其 中 以 全 型 空 白 分 格 每 一 個 詞, 例 如 台 新 (N), 也 就 是 一 個 詞 會 包 含 1: 詞 2: 詞 性 3: 全 型 空 白, 所 以 將 詞 性 和 全 型 空 白 刪 除, 再 依 序 將 每 一 個 詞 當 作 一 筆 record 存 入 資 料 庫 之 中 流 水 號 字 詞 1 台 新 2 金 控 3 12 月 4 3 日 5 將 6 召 開 7 股 東 8 臨 時 會 54

9 進 行 10 董 監 11 改 選 表 3-7: 斷 詞 後 儲 存 方 式 表 在 資 料 庫 中 儲 存 的 是 7 個 欄 位 為 一 組, 每 一 個 詞 放 在 一 個 欄 位, 因 此 若 以 上 面 例 子 斷 成 11 個 詞, 就 必 需 11 個 記 錄 才 能 將 一 段 句 子 儲 存 完 畢 如 此 可 以 利 用 資 料 表 格 作 為 window 的 工 具, 例 如 3-gram 就 可 以 將 S1~S5 從 第 1 筆 記 錄 觀 察 到 第 11 記 錄 : S1 S2 S3 S4 S5 S6 S7 1 台 新 金 控 12 月 3 日 將 召 開 股 東 2 金 控 12 月 3 日 將 召 開 股 東 臨 時 會 3 12 月 3 日 將 召 開 股 東 臨 時 會 進 行 4 3 日 將 召 開 股 東 臨 時 會 進 行 董 監 5 將 召 開 股 東 臨 時 會 進 行 董 監 改 選 6 召 開 股 東 臨 時 會 進 行 董 監 改 選 7 股 東 臨 時 會 進 行 董 監 改 選 8 臨 時 會 進 行 董 監 改 選 9 進 行 董 監 改 選 10 董 監 改 選 11 改 選 表 3-8:7-gam 之 繁 體 資 料 庫 儲 存 斷 詞 方 式 ( 使 用 3-gram 作 判 斷 ) 依 照 此 方 法, 可 以 只 使 用 一 個 表 格 從 3-gram 作 到 7-gram, 但 以 上 會 有 不 需 作 比 對 的 記 錄, 要 先 作 資 料 篩 選, 例 如 第 10~11 筆 記 錄 只 有 兩 組 詞, 根 本 不 符 合 3-gram 的 標 準, 因 此 要 在 作 N-gram 之 前 要 先 前 除 長 度 小 於 等 於 2 的 資 料 列, 但 在 作 4-gram 時, 也 要 不 去 比 對 S4 為 空 白 區 域 的 記 錄, 同 理 5-gram 不 去 比 對 S5 為 空 白 區 域 的 記 錄 繁 體 斷 詞 是 使 用 中 研 院 的 斷 詞 系 統, 使 用 這 套 系 統 必 需 先 申 請 帳 號 密 碼, 雖 然 不 需 要 費 用, 但 使 用 上 仍 需 要 小 心 使 用, 若 量 快 速 去 要 求 主 機 處 理 斷 詞, 就 可 能 會 55

讓 系 統 當 機, 再 加 上 會 不 斷 重 覆 實 驗, 所 以 會 一 直 有 量 資 料 要 斷 詞 最 好 的 方 法 是 一 次 斷 好 詞, 先 將 斷 詞 結 果 先 儲 存 起 來, 之 後 要 重 覆 利 用 斷 詞 結 果 就 不 需 要 再 使 用 斷 詞 系 統, 不 但 可 以 減 少 斷 詞 系 統 的 負 載, 也 可 以 將 結 果 重 覆 利 用, 減 少 時 間 上 的 損 耗 3.3.2 簡 體 斷 詞 的 處 理 簡 體 的 斷 詞 系 統 使 用 的 是 Q.Yuhen 雨 痕 斷 詞 系 統, 它 內 置 數 十 萬 優 選 基 本 詞 組, 包 括 行 業 專 業 詞 彙 及 新 興 網 路 用, 並 且 有 多 模 式 複 合 識 別 演 算 法, 能 有 效 識 別 中 英 文 特 殊 語 法 習 慣, 有 多 元 歧 義 自 動 識 別, 有 效 提 高 分 詞 的 準 確 性 具 有 中 文 人 名 ( 漢 族 ) 識 別 演 算 法, 自 動 過 濾 無 效 字 元, 支 援 全 半 形 和 萬 用 字 元 等 搜 尋 引 擎 分 詞 習 慣 支 援 外 掛 擴 展 詞 庫, 支 援 擴 展 敏 感 詞 過 濾, 並 且 使 用 簡 單, 只 需 一 個 DLL 檔, 無 需 任 何 額 外 的 系 統 支 援 Q.Yuhen 雨 痕 斷 斷 詞 系 統 提 供 的 是 C# 原 始 碼 及 DLL 元 件, 因 此 直 接 用 C# 改 寫 程 式, 將 字 串 直 接 送 入 斷 詞 元 件 就 會 直 接 回 傳 斷 好 詞 的 字 串, 再 依 他 的 的 規 則 去 解 析 即 可 : 完 整 句 子 語 料 庫 Read C# : 取 出 句 子 Q.Yuhen 斷 詞 元 件 斷 詞 後 詞 庫 Write C# : 解 析 字 串 圖 3-9: 簡 體 斷 詞 架 構 圖 在 取 出 簡 體 句 子 的 字 串 後, 例 如 下 面 的 原 文, 斷 詞 好 後 會 將 每 一 個 斷 詞 用 / 作 分 隔, 將 去 解 析 成 一 個 個 詞 組, 接 著 將 分 隔 符 號 和 空 白 刪 除, 再 依 序 將 每 一 個 詞 當 作 一 筆 record 存 入 資 料 庫 之 中, 方 法 和 繁 體 相 同 : 原 文 : 即 可 将 图 片 和 其 他 信 息 一 同 保 存 在 数 据 中 56

斷 词 : 即 可 / 将 / 图 片 / 和 / 其 他 / 信 息 / 一 同 / 保 存 / 在 / 数 据 / 中 / 在 資 料 庫 中 儲 存 的 是 7 個 欄 位 為 一 組, 每 一 個 詞 放 在 一 個 欄 位, 因 此 若 以 上 面 例 子 斷 成 11 個 詞, 就 必 需 11 個 記 錄 才 能 將 一 段 句 子 儲 存 完 畢 如 此 一 來, 可 以 利 用 資 料 表 格 作 為 window 的 工 具, 例 如 5-gram 就 可 以 將 S1~S5 從 第 1 筆 記 錄 觀 察 到 第 11 記 錄 : S1 S2 S3 S4 S5 S6 S7 1 即 可 将 图 片 和 其 他 信 息 一 同 2 将 图 片 和 其 他 信 息 一 同 保 存 3 图 片 和 其 他 信 息 一 同 保 存 在 4 和 其 他 信 息 一 同 保 存 在 数 据 5 其 他 信 息 一 同 保 存 在 数 据 中 6 信 息 一 同 保 存 在 数 据 中 7 一 同 保 存 在 数 据 中 8 保 存 在 数 据 中 9 在 数 据 中 10 数 据 中 11 中 表 3-9:7-gam 之 繁 體 資 料 庫 儲 存 斷 詞 方 式 ( 使 用 5-gram 作 判 斷 ) 簡 體 和 繁 體 有 一 樣 有 不 需 作 比 對 的 記 錄, 例 如 第 10~11 筆 記 錄 只 有 兩 組 詞, 根 本 不 符 合 3-gram 的 標 準, 因 此 要 在 作 N-gram 之 前 要 先 前 除 長 度 小 於 等 於 2 的 資 料 列 簡 體 斷 詞 要 注 意 在 斷 詞 後, 仍 要 儲 存 相 同 一 份 繁 體 編 碼 的 資 料, 在 前 述 繁 簡 體 轉 換 及 編 碼 的 轉 換 說 明 中 有 提 到, 所 以 原 先 斷 好 的 表 格 應 會 變 成 下 表, 除 了 原 有 的 簡 體 斷 詞 資 料, 也 會 有 一 組 單 純 為 繁 體 碼 的 對 應 資 料 : S1 S2 S3 S4 S5 S6 S7 T1 T2 T3 T4 T5 T6 T7 1 即 可 将 图 片 和 其 他 信 息 一 同 即 可 將 圖 片 和 其 他 信 息 一 同 2 将 图 片 和 其 他 信 息 一 同 保 存 將 圖 片 和 其 他 信 息 一 同 保 存 3 图 片 和 其 他 信 息 一 同 保 存 在 圖 片 和 其 他 信 息 一 同 保 存 在 57

4 和 其 他 信 息 一 同 保 存 在 数 据 和 其 他 信 息 一 同 保 存 在 數 據 5 其 他 信 息 一 同 保 存 在 数 据 中 其 他 信 息 一 同 保 存 在 數 據 中 6 信 息 一 同 保 存 在 数 据 中 信 息 一 同 保 存 在 數 據 中 7 一 同 保 存 在 数 据 中 一 同 保 存 在 數 據 中 8 保 存 在 数 据 中 保 存 在 數 據 中 9 在 数 据 中 在 數 據 中 10 数 据 中 數 據 中 11 中 中 表 3-10:7-gam 之 簡 體 與 繁 體 之 斷 詞 表 格 3.3.3 標 點 符 號 的 處 理 在 文 章 中 不 同 的 標 點 符 號 對 文 句 有 不 同 程 度 的 區 隔, 例 如 句 號 驚 歎 號 問 號 等 符 號 前 後 的 文 句 為 比 較 完 整 的 句 子, 因 此 可 以 直 接 做 為 區 隔 的 標 記 由 於 文 章 的 詞 彙 的 共 現 資 訊 是 利 用 逐 字 移 動 的 文 字 框 辨 識, 而 辨 識 的 範 圍 以 句 子 為 單 位, 句 子 中 會 使 用 逗 號 及 句 號 等 作 為 分 隔, 因 此 文 字 框 不 跨 越 句 子 本 研 究 的 文 章 使 用 逗 號 及 句 號 視 為 句 子 之 區 隔 符 號, 原 因 是 中 文 常 有 短 句 的 現 象, 而 如 頓 號 冒 號 等 符 號, 則 有 例 舉 包 含 等 意 義, 故 其 前 後 的 文 句 為 不 完 整 的 句 子, 因 此 不 做 為 區 隔 句 子 的 標 記, 並 加 以 刪 除 所 以 於 辨 識 共 現 資 訊 之 前 必 需 先 對 不 同 的 標 點 符 號 做 適 當 的 處 理, 若 遇 以 下 所 列 標 點 符 號, 頓 號 ; 分 號 : 冒 號 (. 各 式 引 號 1.2.3. (1)(2)(3). 各 式 項 目 符 號 直 接 刪 除 其 符 號, 並 且 刪 除 英 文 及 數 字 部 份, 因 為 英 文 及 數 字 並 不 會 去 作 比 對 : 原 文 :" 台 南 訊 AT&T 已 於 已 於 上 週 四 ( 七 月 十 一 ) 日 正 式 獲 得 財 部 證 管 會 核 准, 在 台 經 由 關 係 企 業 [ 霸 菱 證 券 投 資 顧 問 公 司 ], 提 供 旗 下 十 一 重 基 金 在 台 投 資 的 五 %~ 一 0% 顧 問 服 務 電 話 :(0 七 ) 六 二 一 一 二 二 八 " 處 理 後 :" 台 南 訊 已 於 已 於 上 週 四 七 月 十 一 日 正 式 獲 得 財 部 證 管 會 核 准, 在 台 經 由 關 係 企 業 霸 菱 證 券 投 資 顧 問 公 司, 提 供 旗 下 十 一 重 基 金 在 台 投 資 的 五 一 顧 問 服 務 電 話 七 六 二 一 一 二 二 八 " 58

接 著 再 將 文 句 之 詞 彙 之 標 點 符 號, 逗 號 句 號! 驚 歎 號? 問 號 等, 一 一 作 斷 行 中 文 也 因 短 句 較 多, 因 此 並 把 句 子 長 度 過 小 作 刪 除 如 下 : 第 1 段 :" 台 南 訊 已 於 已 於 上 週 四 七 月 十 一 日 正 式 獲 得 財 部 證 管 會 核 准," 第 2 段 :" 在 台 經 由 關 係 企 業 霸 菱 證 券 投 資 顧 問 公 司," 第 3 段 :" 提 供 旗 下 十 一 重 基 金 在 台 投 資 的 五 一 顧 問 服 務 " 語 料 庫 來 源 可 能 是 四 面 八 方, 因 為 語 料 之 中 最 雜 亂 的 就 是 符 號 的 部 份, 尤 其 網 頁 型 的 語 料 必 需 先 將 html 語 法 消 除, 或 是 有 些 空 格 或 斷 行 都 可 能 會 影 響 到 句 子 的 完 整 性 所 以 收 集 語 料 庫 時 要 先 注 意 標 點 符 號 的 處 理, 確 定 為 完 整 的 句 子 後 才 能 匯 入 正 式 的 語 料 庫 之 中 3.4 建 N-gram 模 組 N-gram 是 本 研 究 的 第 一 個 實 驗 方 法, 但 N-gram 在 實 作 上 為 了 方 便, 會 經 過 幾 個 步 驟, 包 含 建 三 個 資 料 表 格, 每 一 個 資 料 表 格 都 需 要 經 過 幾 個 步 驟 的 處 理, 以 下 是 架 構 圖 : 1. 建 斷 詞. 表 格 2. 斷 詞 存 入 斷 詞 表 格 3. 刪 除 不 需 比 對 記 錄 4. 建 N-Gram. 表 格 5. 斷 詞 比 對 不 同 則 存 入 N-Gram 表 格 6. 去 除 StopWord 7. 篩 選 N-Gram. 等 義 詞 候 選 詞 組 8. 與 正 確 詞 組 比 對 建 精 準 度 及 召 回 度 報 表 資 料 表 格 1( 繁, 簡 ) 資 料 表 格 2( 繁, 簡 ) 資 料 表 格 3( 繁 + 簡 ) 圖 3-10: 建 候 選 詞 模 型 架 構 圖 資 料 表 格 1 指 的 就 是 斷 詞 表 格,(1) 先 建 一 個 空 的 斷 詞 表 格,(2) 接 著 將 繁 體 與 簡 體 斷 詞 結 果 儲 存 至 此 表 格, 以 直 的 來 看 表 3-11 的 S1 就 是 一 個 完 整 的 句 子, 因 此 這 個 表 格 的 記 錄 就 是 所 有 斷 詞 後 的 數 量 先 前 的 斷 詞 說 明, 此 表 格 共 有 7 個 欄 位 作 為 7-gram 之 用, 所 以 橫 向 來 看, 可 以 看 作 一 個 句 子 的 window, 也 就 是 第 一 列 是 一 個 句 59

子 的 其 中 7 個 詞, 所 以 想 作 3-gram 時 只 要 取 S1~S3, 若 想 作 5-gram 時 則 取 S1~S5, 最 多 可 作 到 7-gram (3) 最 後 將 長 度 過 短 的 資 料 刪 除, 原 有 的 11 列 會 縮 短 為 9 列 : S1 S2 S3 S4 S5 S6 S7 1 台 新 金 控 12 月 3 日 將 召 開 股 東 2 金 控 12 月 3 日 將 召 開 股 東 臨 時 會 3 12 月 3 日 將 召 開 股 東 臨 時 會 進 行 4 3 日 將 召 開 股 東 臨 時 會 進 行 董 監 5 將 召 開 股 東 臨 時 會 進 行 董 監 改 選 6 召 開 股 東 臨 時 會 進 行 董 監 改 選 7 股 東 臨 時 會 進 行 董 監 改 選 8 臨 時 會 進 行 董 監 改 選 9 進 行 董 監 改 選 10 董 監 改 選 11 改 選 表 3-11: 刪 除 無 法 比 對 紀 錄 資 料 表 格 2 指 的 就 是 N-gram 表 格,(4) 先 建 空 的 N-gram 表 格, 清 單 如 下 表, 例 如 3-gram 會 比 對 三 個 詞, 所 以 會 在 三 個 詞 ABC 中 各 一 組 取 一 個 x, 例 如 xbc 代 表 繁 簡 兩 組 詞 的 第 一 個 詞 不 同 但 第 二 三 詞 相 同,AxC 代 表 繁 簡 兩 組 詞 的 第 二 個 詞 不 同 但 第 一 三 詞 相 同, 因 此 會 作 3~7-gram, 所 以 N-gram 表 格 共 有 25 組 : TB_3gram_xBC TB_3gram_AxC TB_3gram_ABx TB_4gram_xBCD TB_4gram_AxCD TB_4gram_ABxD TB_4gram_ABCx TB_5gram_xBCDE TB_5gram_AxCDE TB_5gram_ABxDE TB_5gram_ABCxE TB_5gram_ABCDx TB_6gram_xBCDEF TB_6gram_AxCDEF TB_6gram_ABxDEF 60

TB_6gram_ABCxEF TB_6gram_ABCDxF TB_6gram_ABCDEx TB_7gram_xBCDEFG TB_7gram_AxCDEFG TB_7gram_ABxDEFG TB_7gram_ABCxEFG TB_7gram_ABCDxFG TB_7gram_ABCDExG TB_7gram_ABCDEFx 接 著 將 繁 簡 的 斷 詞 表 格 作 比 對 (5), 例 如 以 7gram_ABCxEFG 為 例, 在 比 對 時 是 第 四 個 詞 不 同 則 篩 選 出 來 作 另 存, 以 下 面 的 例 子 就 是 相 同 的 兩 組 詞, 但 只 有 第 四 個 詞 (S4) 不 同, 所 以 就 被 儲 存 至 7gram_ABCxEFG 這 個 表 格 : 斷 詞 比 對 T1 T2 T3 T4 T5 T6 T7 繁 體 都 按 照 純 二 進 位 格 式 進 行 編 譯 S1 S2 S3 S4 S5 S6 S7 簡 體 都 按 照 纯 二 进 制 格 式 进 行 编 译 7gram ABCxEFG T1 T2 T3 T4 T5 T6 T7 S1 S2 S3 S4 S5 S6 S7 都 按 照 純 二 進 位 格 式 進 行 編 譯 都 按 照 纯 二 进 制 格 式 进 行 编 译 表 3-12: 繁 簡 斷 詞 合 併 前 之 儲 存 表 格 接 著 去 除 比 對 出 來 的 StopWord(6), 以 下 列 7gram_ABCxEFG 這 個 表 格 為 例,S4 欄 中 是 被 篩 選 出 來 的 等 義 詞, 但 是 第 4 列 的 " 中 " 是 StopWord 的 字, 所 以 它 會 被 去 除, 但 是 像 第 2 列 的 S7" 的 " 雖 也 是 StopWord 的 字, 但 它 是 用 來 判 斷 N-gram 前 後 句 子 的 結 構 關 係, 並 不 是 被 辨 識 出 的 等 義 詞, 所 以 第 2 列 並 不 會 被 刪 除 : 7gram ABCxEFG T1 T2 T3 T4 T5 T6 T7 S1 S2 S3 S4 S5 S6 S7 1 都 按 照 純 二 進 位 格 式 進 行 編 譯 都 按 照 纯 二 进 制 格 式 进 行 编 译 2 結 構 包 含 本 地 電 腦 上 運 行 的 结 构 包 含 本 地 计 算 机 上 运 行 的 3 電 路 主 要 由 單 晶 片 和 外 部 計 數 电 路 主 要 由 单 片 机 和 外 部 计 数 4 按 鈕 的 事 件 中 完 成 的 模 式 按 钮 的 事 件 下 完 成 的 模 式 表 3-13: 繁 簡 斷 詞 合 併 後 之 儲 存 表 格 61

最 後 篩 選 出 N-gram 等 義 詞 候 選 詞 組 (7), 將 上 述 辨 識 出 的 等 義 詞 依 照 實 驗 評 估 方 法, 依 3~7-gram 及 雜 訊 比 (1:0~1:3) 及 類 別 ( 電 腦 和 一 般 類 ), 建 Precision 及 Recall 報 表 建 N-gram 較 麻 煩 的 問 題 是 資 料 表 格 較 難 整 理, 一 組 3~7-gram 需 要 25 個 資 料 表 格, 無 雜 訊 1:1 與 1:3 雜 訊 就 需 要 3 個 類 別, 其 中 又 分 繁 簡 體, 所 以 需 要 25*3*2 共 150 個 資 料 表 格, 其 中 又 分 為 已 完 成 配 對 ( 剛 斷 詞 後 ) 和 完 成 配 對 ( 繁 簡 比 對 後 ), 所 以 會 高 達 300 個 資 料 表 格, 但 本 研 究 尚 未 針 對 方 法 先 作 改 進, 因 而 使 用 較 多 的 資 料 表 格, 所 以 在 資 料 處 理 上 就 需 要 寫 好 迴 圈 模 組, 每 次 的 作 業 都 會 去 處 理 到 每 個 表 格, 不 致 於 會 發 生 漏 處 理 現 象 3.5 建 PMI-IR&LC-IR 模 組 PMI-IR&LC-IR 是 作 為 第 二 階 段 的 篩 選 方 法, 將 N-gram 結 果 中 有 一 個 繁 體 對 映 到 兩 個 以 上 的 簡 體 時, 使 用 PMI-IR&LC-IR 方 法 去 找 出 一 個 可 能 性 最 高 的 對 映 關 係, 這 樣 可 以 減 少 因 為 過 多 的 對 映 使 精 準 對 降 低 PMI-IR 和 LC-IR 很 像, 先 確 定 固 定 組 數 的 等 義 詞, 然 後 利 用 搜 尋 引 擎 的 方 式 來 比 對 每 一 組 等 義 詞, 並 且 加 以 統 計 出 現 的 次 數, 利 用 以 下 公 式 來 計 算 值, 來 求 出 哪 一 組 等 義 詞 最 為 可 能 是 正 解 將 N-gram 實 驗 後 的 結 果, 再 加 入 PMI-IR&LC-IR 公 式, 公 式 如 下 : Similarity w1,w2 = Similarity w1,w2 = p w1 & 2 p w1 P w2 hits w1 NEAR w2 hits w1 hits w2 min hits w1 w2,hits w2 w1 hits w1 hits w2 首 先 辨 識 出 N-gram 結 果 值 存 入 斷 詞 表 格 (1), 讓 PMI-IR&LC-IR 作 為 第 二 階 段 的 篩 選, 接 著 將 N-gram 結 果 值 作 歸 類, 若 一 個 繁 體 對 映 到 兩 個 以 上 的 簡 體 時, 則 呼 叫 Google API 找 出 在 網 頁 上 出 現 的 次 數, 然 後 用 PMI-IR&LC-IR 方 法 去 決 定 哪 一 組 最 可 能 是 等 義 詞 (2), 將 其 他 不 可 能 的 詞 組 刪 除 後, 重 新 與 正 確 詞 組 比 對 並 建 Precision 及 Recall 報 表 : 62

. 1. 辨 識 出 N-gram 結 果 值 存 入 斷 詞 表 格 2. 呼 叫 Google API 計 算 PMI-IR&LC-IR 值 3. 與 正 確 詞 組 比 對 建 精 準 度 及 召 回 度 報 表 圖 3-11: 第 二 階 段 使 用 PMI-IR&LC-IR 方 法 之 流 程 首 先 辨 識 出 N-gram 結 果 詞 組 含 一 般 類 電 腦 類 雜 訊 比 1:0~1:3 共 150 組 複 製 成 新 的 一 份 表 格 接 著 規 劃 每 個 詞 組 各 有 以 下 的 欄 位, 包 含 N-gram 辨 識 出 的 繁 簡 詞 組, 和 Google API 的 T 繁 體 網 頁 數 (HT) S 簡 體 網 頁 數 (HS) T 繁 體 與 S 簡 體 Near 出 現 的 網 頁 數 (HTSN) T 繁 體 與 S 簡 體 同 時 出 現 的 網 頁 數 (HTSP), 最 後 再 利 用 PMI-IR&LC-IR 方 法 計 算 出 N 和 P 值 : T( 繁 體 ) ST( 簡 體 ) HT HS HTSN HTSP N P 1 記 憶 體 内 存 2,870,000 1,620,000 220,000 38 0.00473 0.00000 2 記 憶 體 数 据 文 件 2,870,000 39,200,000 247,000 2,140 0.00022 0.00000 3 記 憶 體 字 符 串 2,870,000 4,550,000 42,700 42,800 0.00033 0.00033 4 記 憶 體 文 件 2,870,000 172,000,000 968,000 1,870 0.00020 0.00000 表 3-14:PMI-IR&LC-IR 儲 存 繁 簡 體 N 值 和 P 值 表 最 後 將 與 正 確 詞 組 使 用 N 和 P 值 比 對, 例 如 以 N 值 來 看, 第 1 組 的 0.00473 最 高, 但 以 P 值 來 看 是 第 3 組 的 0.00033 最 高, 因 此 使 用 N 值 作 基 準 時, 則 保 留 第 1 組 且 去 除 2,3,4 組, 若 使 用 P 值 作 基 準 時 則 保 留 第 3 組 且 去 除 1,2,4 組, 最 後 留 下 的 詞 組 再 建 Precision 及 Recall 報 表 這 階 段 會 呼 叫 Google API, 雖 然 使 用 Google API 不 需 付 費, 但 非 常 要 注 意 的 是 這 屬 於 量 呼 叫 的 客 戶 端, 光 本 研 究 中 的 實 驗 至 少 呼 叫 數 百 萬 次, 會 被 Google 當 作 63

不 正 常 使 用 的 來 源, 因 此 要 盡 量 利 用 一 些 方 法 先 將 重 覆 的 詞 只 作 一 次 呼 叫, 可 量 減 少 呼 叫 次 數 和 時 間 3.6 建 Context Vector 模 組 Context Vector 也 是 作 為 第 二 階 段 的 篩 選 方 法, 將 N-gram 結 果 中 有 一 個 繁 體 對 映 到 兩 個 以 上 的 簡 體 時, 使 用 Context Vector 方 法 去 找 出 一 個 可 能 性 最 高 的 對 映 關 係, 使 用 方 法 和 PMI-IR 和 LC-IR 類 似, 先 確 定 固 定 組 數 的 等 義 詞, 計 算 Context Vector 求 出 哪 一 組 等 義 詞 最 為 可 能 是 正 解 Context Vector 的 方 法 是 計 算 A 與 B 的 夾 角 向 量, 公 式 如 下 : cos(a,b) = 首 先 辨 識 出 N-gram 結 果 值 存 入 斷 詞 表 格 (1), 讓 Context Vector 作 為 第 二 階 段 的 篩 選, 接 著 將 N-gram 結 果 值 作 歸 類, 若 一 個 繁 體 對 映 到 兩 個 以 上 的 簡 體 時, 則 用 Context Vector 計 算 每 一 個 詞 組 的 值, 決 定 哪 一 組 最 可 能 是 等 義 詞 (2), 將 其 他 不 可 能 的 詞 組 刪 除 後, 重 新 與 正 確 詞 組 比 對 並 建 Precision 及 Recall 報 表 : 1. 辨 識 出 N-gram. 結 果 值 存 入 斷 詞 表 格 2. 呼 叫 Context Vector Function 計 算 cosine 值 3. 與 正 確 詞 組 比 對 建 精 準 度 及 召 回 度 報 表 圖 3-12: 第 二 階 段 使 用 Context Vector 方 法 之 流 程 首 先 將 含 一 般 類 電 腦 類 語 料 庫 使 用 N-gram 辨 識 出 等 義 詞 組, 依 照 雜 訊 比 例 不 64

同 (1:0 1:1 1:3) 共 150 個 等 義 詞 組 複 製 成 新 的 一 份 表 格 接 著 規 劃 每 個 詞 組 各 有 以 下 的 欄 位, 包 含 N-gram 辨 識 出 的 繁 簡 詞 組, 和 Context Vector 結 果 值, 利 用 Context Vector Function 方 法 計 算 出 V 值 : T( 繁 體 ) S( 簡 體 ) V 1 記 憶 體 内 存 0.188982236504614 2 記 憶 體 数 据 文 件 0.5 3 記 憶 體 字 符 串 0.176776695296637 4 記 憶 體 文 件 0.208514414057075 表 3-15:Context Vector 計 算 繁 簡 體 之 V 值 最 後 將 與 正 確 詞 組 使 V 值 比 對, 第 2 組 的 V 值 0.5 最 高, 所 以 保 留 第 2 組 且 去 除 1,3,4 組, 再 建 Precision 及 Recall 報 表 Context Vector 在 實 作 上 可 先 作 好 一 個 模 組, 存 入 要 計 算 的 繁 簡 詞 組 字 集, 即 可 得 到 V 值, 但 是 在 未 完 成 比 對 前 不 能 先 計 算 V 值, 因 為 它 計 算 出 的 V 值 會 和 現 有 字 集 有 關, 因 此 必 需 要 在 最 後 所 有 候 選 詞 都 篩 選 出 來 後 才 能 計 算 3.7 小 結 原 本 的 研 究 方 法 至 少 至 少 反 覆 作 過 十 多 次 才 決 定 致 上 的 架 構, 語 料 庫 從 最 基 本 的 兩 組, 延 伸 到 較 完 整 的 電 腦 書 的 繁 簡 體 語 料 庫, 進 而 擴 展 至 中 研 院 平 衡 語 料 庫 及 搜 狗 的 語 料 庫, 並 且 都 從 相 當 的 數 萬 筆 或 數 百 萬 筆 詞 句 慢 慢 收 歛 至 一 萬 筆 上 下 句 含 正 確 詞 組 虛 詞 及 雜 訊 資 料, 必 需 經 由 人 工 篩 選 出 更 精 確 的 資 料 原 本 是 每 一 次 實 驗 會 進 行 的 步 驟 都 需 要 量 的 執 行 時 間, 例 如 斷 詞 的 架 構 原 本 是 一 個 語 料 庫 每 次 都 會 進 行 的 步 驟, 經 過 幾 次 的 改 進 改 為 預 先 執 行, 也 就 是 語 料 庫 本 身 就 已 經 先 行 斷 詞, 在 進 行 語 料 庫 分 類 或 比 對 時, 等 於 是 帶 著 斷 詞 結 果 進 行, 而 不 用 在 每 次 比 對 時 都 重 新 斷 詞, 可 以 節 省 斷 詞 的 時 間 與 加 強 效 能 另 外 本 章 的 研 究 方 式 需 要 經 過 許 多 步 驟, 因 此 每 次 改 進 都 需 要 重 跑 一 次 相 同 步 65

驟, 每 個 步 驟 都 會 加 上 編 號, 如 同 早 期 Basic 程 式 的 行 號 一 般, 讓 實 驗 在 改 進 方 法 後 可 依 編 號 中 插 入 步 驟, 就 不 會 浪 費 時 間 重 整 並 且 三 種 方 法 都 使 用 不 同 代 號, 以 方 便 區 隔 其 資 料 及 結 果 66