Microsoft Word - Preface_1_14.doc

Similar documents
58 特 殊 教 育 與 復 健 學 報 壹 研 究 動 機 與 背 景 教 育 成 敗, 繫 於 師 資 之 良 窳 教 育 部 於 2010 年 8 月 召 開 第 八 次 全 國 教 育 會 議 中, 師 資 培 育 與 專 業 發 展 為 一 項 重 要 的 討 論 議 題, 其 中 研 修

标题

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

Microsoft Word - chnInfoPaper6

44(1) (1) (4) (4) 63-88TSSCI Liu, W. Y., & Teele S. (2009). A study on the intelligence profile

1 引 言 大 陆 与 台 湾 两 地 之 间 的 交 流 与 日 剧 增, 大 量 与 台 湾 有 关 的 信 息 进 入 了 大 陆 居 民 的 生 活 随 着 交 流 的 不 断 深 入, 我 们 发 现 台 湾 国 语 和 我 们 所 使 用 的 普 通 话 存 在 一 定 的 差 别 台

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

交流活动

Microsoft Word - 31空中大學校稿檔.doc

<4D F736F F D20B169B74FC5EF2020A8E2A9A4B0EABB79B1D0ACECAED1A56AA8E5B8D6BA71BFEFBFFDA4A7ACE3A8732E646F63>

1對外華語文詞彙教學的策略研究_第三次印).doc

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

MIT 4 MIT 2014 / MIT 30% MIT 2 MIT 20% Investor's Business Daily MIT MIT 3 CNKI

相 關 技 術, 在 裝 置 上 創 造 出 一 個 令 人 驚 豔 虛 擬 的 幻 境 ; 除 此 之 外, 還 能 與 虛 擬 出 來 的 物 件 進 行 互 動, 已 陸 陸 續 續 被 應 用 在 教 育 研 究 娛 樂 生 活 等 各 個 方 面 認 知 風 格 (Cognitive St

第 2 頁 中 華 民 國 科 學 教 育 學 會 e-news 且 學 會 亦 將 於 今 年 (2009) 科 學 教 育 學 術 研 討 會 中 公 告 欲 爭 取 辦 理 第 27 屆 ( 2011 年 ) 科 學 教 育 研 討 會 者, 須 於 2010 年 2 月 15 日 前 提 出

資訊教育總藍圖(公聽會草案)

(單位名稱)大事記---96學年度(96


Your Paper's Title Starts Here: Please Center

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

元培科技大學 年度「傑出校友」推薦表

穨423.PDF

2008 3,,,,,,,( ), (),,,??,,,?,,,, ; (2003, 2005, 2006), ; (2006),,?,,?,,,,,,(, : http :/ / p oe m. guoxue. com :8080/ ), 2, 3,4, ,,,,,,,,,, : (

計 畫 案, 本 系 預 計 三 場 校 外 參 訪 活 動, 簡 述 如 下 : 參 訪 日 期 :3 月 28 日 ( 三 ), 參 訪 地 點 : 暨 南 大 學 集 集 小 鎮 參 訪 日 期 :4 月 27 日 ( 五 ), 參 訪 地 點 : 大 里 國 際 兒 童 英 語 村 國 立

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

台 灣 人 權 學 刊 第 三 卷 第 三 期 他 還 接 受 教 育 部 的 委 託, 長 年 擔 任 中 央 層 級 的 人 權 教 育 輔 善 團 的 指 導 教 授, 至 今 已 有 多 年 我 雖 然 不 是 很 了 解 為 什 麼 他 可 以 一 邊 承 擔 教 育 部 賦 予 的 任

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

考試學刊第10期-內文.indd

论文集10.12.doc

1

作 主 动 追 求 知 识 获 取 技 能, 在 心 理 和 生 理 上 都 非 常 积 极 的 个 体 (Zimmerman & Pons, 1986) 在 此 期 间, 自 我 效 能 感 (self-efficacy) 自 我 控 制 (self-control) 自 我 管 理 (self-

166 (2005.6) ( ) [1] [ 1 ]

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

240 ( )

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

现代汉语语料库基本加工规格说明书

Microsoft Word tb 谢涛.doc

Integration of English-Chinese Word Segmentation and Word Alignment

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

2016 年 第 3 期 夏 咏 梅 : 农 村 初 中 数 学 区 域 性 资 源 与 教 材 资 源 的 有 效 整 合 研 究 65 一 题 的 提 出 1. 程 改 革 形 势 的 需 要 程 资 源 是 新 程 改 革 所 提 出 的 一 个 重 要 概 念, 没 有 程 资 源 的 广

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

(1) ( ) : (3), (12) (7) (10)

Microsoft Word doc

2011_1_核红.indd

MOTC-IOT-103-H1DB001a 臺 灣 港 務 公 司 之 監 督 與 公 司 治 理 績 效 評 估 研 究 (2/2) 著 者 : 謝 幼 屏 吳 榮 貴 朱 金 元 吳 朝 升 孫 儷 芳 王 克 尹 林 玲 煥 張 淑 滿 陳 銓 楊 世 豪 陳 秋 玲

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

~ Capability Maturity Model Integration, CMMI CMMI

第一章

2005硕士论文模版

ADIS_S(5):Microsoft Word - ¥X°e3o§i_A4_.doc

1.第二卷第二期p1

<4D F736F F D D332DBBB7AA46B371C3D1BEC7B3F85F F32A8F731B4C15F30365FB2F8AEDBAD5EB169A9BEB4BC5FB3B0B4E5C3D8A7C7A4E5AA52BDD72E646F63>

Microsoft Word - A doc

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci

Microsoft Word 記錄附件

Microsoft Word - A doc

與 所 長 有 約 座 談 會 之 師 生 合 影 與 所 長 有 約 座 談 會 之 生 分 組 討 論 五 103 年 6 月 9 日 ( 一 ) 舉 辦 新 生 座 談 會, 並 將 新 編 印 完 成 之 新 生 手 冊 發 予 新 生 與 本 所 教 師 新 生 座 談 會 之 師 生 合

(七)教職員編排

豐佳燕.PDF

開展國際交流,進入進入世界舞台

PowerPoint 演示文稿

Fig. 1 Frame calculation model 1 mm Table 1 Joints displacement mm

~m~li~* ~ ± ~ 1Jz. IDfU Y:.. a~~.~.oor.~~b~.~fi~~p A Study of Developing a Mobile APP for Supporting the Chinese Medicine Pulse Diagnosis Based on Pul

并非没有必要的一些宏观思考

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

untitled

《中文信息学报》投稿模版

,,,,, 1970,,, ( ), ( ),,, ( ) ( ),,, ( ) ( ),,,,,,,,,, ( ),,,,,, (, ),,, :,,,,,,,, 64, 1970,,

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

國立中山大學學位論文典藏.PDF

社科网-论文在线

1 引言

南華大學數位論文

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

174 Analysis of Yao Bat le between Cin and Jin --also its Application on Chinese Teaching Kuang-Ming Chien* Abstract <Yao Battle between Cin and Jin>

. STEM OER STEM 600 STEM CCSS STEM CCSS STEM ISTE Indiana Department of STEM Education 2013 STEM STEM STEM STEM STEM 10 STEM 2017 S

Avision


Microsoft Word - 05 許雪姬3校稿0123.doc

2013国际营销科学与信息技术大会(MSIT2013)

(Microsoft Word - \244\300\255\266--\256\325\257\305.doc)

104 學 年 度 第 2 學 期 第 1 次 院 務 會 議 紀 錄 開 會 時 間 :105 年 5 月 11 日 ( 三 ) 中 午 12 時 至 下 午 1 時 30 分 開 會 地 點 : 社 管 大 樓 5 樓 533 會 議 室 主 持 人 : 王 院 長 精 文 紀

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

<4D F736F F D205F FB942A5CEA668B443C5E9BB73A740B5D8A4E5B8C9A552B1D0A7F75FA6BFB1A4ACFC2E646F63>

Microsoft Word - 01李惠玲ok.doc

<4D F736F F D20A4FDBEE5C27BB1D0B1C2B0D1A6D2B8EAAEC65F E646F6378>

new Taiwanese children etc., it is imperative to build a new system of Primary Teachers training program, which is the system. It is the t

Microsoft Word - 起首六頁.doc

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Microsoft Word - 1-編者的話

CHIPS Oaxaca - Blinder % Sicular et al CASS Becker & Chiswick ~ 2000 Becker & Chiswick 196

題目:把大法官帶進教室-以解釋文為核心之言論自由觀念與教案

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

(Microsoft Word Linux\272\364\270\364\264\372\305\347\250t\262\316\244\247\254\343\250s.doc)

44 深 圳 信 息 职 业 技 术 学 院 学 报 第 10 卷 业 实 际 进 出 口 单 证 样 本 的 演 示 与 讲 解, 导 致 学 生 在 学 校 看 到 的 都 是 过 时 的 单 据 演 练 的 陈 旧 的 工 作 流 程, 走 上 工 作 岗 位 后, 一 旦 遇 到 实 际 问

Microsoft Word - 982導師輔導知能研習會議資料(彙整).doc

Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi

Transcription:

中 文 混 淆 字 集 應 用 於 別 字 偵 錯 模 板 自 動 產 生 Chinese Confusion Word Set for Automatic Generation of Spelling Error Detecting Template 陳 勇 志 Yong-Zhi Chen, 吳 世 弘 Shih-Hung Wu 朝 陽 科 技 大 學 資 訊 工 程 系 Department of Computer Science and Information Engineering Chaoyang University of Technology {9727602, shwu}@cyut.edu.tw 盧 家 慶 Chia-Ching Lu, 谷 圳 Tsun Ku 資 訊 工 業 策 進 會 Institute for information industry {gaty, cujing}@iii.org.tw 摘 要 本 研 究 透 過 常 用 字 來 產 生 混 淆 字 集, 自 動 產 生 能 夠 幫 助 錯 別 字 偵 測 的 模 板, 發 展 華 語 文 錯 別 字 偵 測 技 術 本 系 統 利 用 辭 典 為 基 礎, 使 用 辭 典 中 的 詞 彙 做 為 正 面 用 詞, 透 過 混 淆 字 集 自 動 產 生 含 別 字 的 反 面 模 板, 能 夠 偵 測 的 別 字 包 含 同 音 字 同 部 首 字, 並 且 透 過 斷 詞 軟 體 輔 助 擷 取 更 正 確 的 反 面 模 板, 用 以 協 助 華 文 教 師 進 行 大 量 華 文 作 文 的 錯 別 字 批 改 甚 至 輔 助 學 生 進 行 寫 作, 最 後 達 到 提 昇 寫 作 能 力 之 成 效 關 鍵 詞.. 模 板 產 生 模 板 探 勘 正 反 面 用 語 知 識 庫 Abstract In this research, we proposed a system that can use automatically generated templates for detecting Chinese spelling error. At first, we use frequently used Chinese characters to produce the Chinese confusion set. Based on a dictionary, our system automatically generated negative vocabulary template with the help of Chinese confusion set. Error types include pronunciation-related errors and radical-related errors. And our system uses word segment to capture more accurately the negative template. We hope that such a system can help the teachers on the checking of students essays, and also can help students learn to write effectively. Consequently, the students would improve their writing skill. Keywords: Template generation, Template mining, Pragmatics Knowledge Base. 359

一 緒 論 自 民 國 95 年 起, 教 育 部 在 國 中 基 本 學 力 測 驗 中 加 辦 寫 作 測 驗 隨 後 列 入 升 學 計 分, 計 分 標 準 依 據 立 意 取 材 結 構 組 織 遣 詞 造 句 錯 別 字 給 予 6 個 等 第 的 級 分, 華 語 學 習 中 的 作 文 能 力 備 受 重 視 國 中 基 本 學 力 測 驗 每 年 約 有 三 十 萬 學 生 應 試, 因 此 我 們 可 以 預 見 未 來 將 有 大 量 的 作 文 輔 助 批 改 與 輔 助 教 學 的 需 求, 如 何 應 用 數 位 學 習 的 技 術 來 輔 助 教 師 批 改 作 文 並 且 幫 助 學 生 學 習 寫 作, 為 目 前 普 遍 研 究 之 議 題 根 據 寫 作 測 驗 的 評 分 依 據, 錯 別 字 是 個 重 要 的 評 分 標 準, 回 顧 以 往 中 文 錯 別 字 的 輔 助 學 生 系 統 的 相 關 文 獻 有 [1] 與 [2], 這 兩 篇 文 獻 都 是 針 對 中 文 文 章 中 進 行 偵 錯 與 訂 正 的 系 統, 其 中 [1] 是 利 用 替 換 五 筆 字 型 編 碼 來 產 生 可 能 的 別 字, 透 過 每 次 替 換 一 個 編 碼 即 可 達 到 產 生 多 個 可 能 的 別 字, 而 五 筆 字 型 輸 入 法 主 要 用 於 使 用 簡 體 中 文 的 中 國 大 陸, 五 筆 字 型 完 全 依 據 筆 畫 和 字 形 特 徵 對 漢 字 進 行 編 碼, 將 漢 字 筆 劃 分 為 橫 豎 撇 捺 折 五 種, 把 字 根 或 編 碼 按 一 定 規 律 分 佈 在 25 個 英 文 按 鍵 上 教 育 部 也 針 對 錯 別 字 推 出 由 人 工 編 寫 的 常 用 國 字 辨 似 [3], 但 是 常 用 國 字 辨 似 只 含 有 1477 筆 模 板, 並 不 敷 大 量 的 作 文 偵 錯 使 用, 而 我 們 從 書 上 蒐 集 常 用 的 正 反 面 用 語 模 板 含 有 6,701 筆, 並 且 在 2008 年 發 表 中 文 作 文 的 訂 正 與 更 正 建 議 系 統 [4], 該 系 統 利 用 學 生 所 書 寫 的 作 文 蒐 集 偵 錯 用 模 板 藉 以 建 立 模 板 偵 錯 技 術 的 正 反 面 模 板 偵 錯, 並 且 透 過 統 計 Corpus 的 uni-gram bi-gram 建 立 語 言 模 型 做 為 常 用 語 偵 錯, 由 於 人 工 蒐 集 模 板 費 時 耗 力 且 成 本 過 高, 所 以 隨 後 我 們 根 據 QA 系 統 中 的 自 動 模 板 產 生 概 念 [5] [6], 利 用 機 器 學 習 之 技 術 並 且 大 量 探 勘 Corpus 中 可 能 的 反 面 用 語 模 板, 最 後 利 用 學 生 所 書 寫 得 作 文 做 為 Training data, 於 2009 年 5 月 發 表 了 中 文 作 文 錯 別 字 偵 錯 模 板 自 動 產 生 [7], 該 系 統 使 用 模 板 擴 展 演 算 法 來 取 得 大 量 的 模 板, 並 且 透 過 卡 方 檢 定 做 為 收 納 模 板 的 檢 定 公 式, 但 是 自 動 模 板 產 生 還 是 依 賴 人 工 蒐 集 模 板 中 之 種 子, 於 是 我 們 使 用 混 淆 字 集 來 大 量 產 生 蒐 集 模 板 用 的 種 子, 混 淆 字 集 為 一 般 人 容 易 混 用 的 字 之 集 合, 混 淆 字 可 能 為 同 音 字 同 形 字 同 部 首 字 等 等 混 淆 字 集 是 學 生 容 易 將 正 確 的 字 書 寫 成 錯 誤 的 字 之 集 合, 根 據 劉 昭 麟 教 授 的 統 計 學 生 作 文 [8] [9], 學 生 書 寫 的 錯 別 字 中 同 形 字 佔 30.70% 同 音 字 佔 79.88% 同 形 同 音 字 佔 20.91% 非 同 形 同 音 字 佔 2.43%, 統 計 結 果 指 出 學 生 書 寫 的 的 錯 別 字 大 部 分 來 自 於 同 音 字 錯 誤, 同 音 字 的 混 淆 字 集 可 以 透 過 字 典 收 集 取 得 而 同 形 字 則 較 不 易 取 得, 不 過 劉 教 授 依 據 倉 頡 輸 入 法 發 表 [10], 利 用 替 換 倉 頡 輸 入 法 字 碼 來 取 得 同 形 字 與 [1] 的 替 換 五 筆 字 型 編 碼 相 似 之 處 二 系 統 設 計 與 方 法 ( 一 ) 錯 別 字 自 動 模 板 產 生 系 統 回 顧 我 們 於 2008 於 所 發 表 的 錯 別 字 偵 錯 與 訂 正 建 議 系 統 [4] 是 透 過 一 個 Web 介 面, 讓 學 生 輸 入 他 們 所 書 寫 的 作 文 而 文 章 可 能 含 有 若 干 個 別 字 如 圖 一 左 邊 方 塊, 經 過 我 們 系 統 兩 項 功 能 常 用 語 偵 錯 與 正 反 面 模 板 偵 錯 診 斷 後, 常 用 語 偵 錯 會 提 供 學 生 的 錯 誤 字 必 須 更 正 的 字 錯 誤 字 位 置 和 更 正 建 議 的 資 訊, 正 反 面 用 語 偵 錯 除 了 常 用 語 偵 錯 提 供 的 建 議 之 外 還 會 提 供 詞 語 的 說 明 如 圖 一 右 邊 方 塊, 我 們 的 系 統 可 以 偵 測 出 常 見 的 錯 別 字, 並 且 明 確 指 出 學 生 錯 別 字 在 文 章 的 何 處, 並 且 給 予 適 當 的 建 議 與 說 明, 讓 學 生 瞭 解 自 己 何 處 寫 錯 字 並 且 從 錯 誤 中 學 習 360

我 們 在 2009 年 5 月 所 發 表 的 自 動 模 板 產 生 系 統 [7] 是 改 進 2008 年 發 表 [4] 的 系 統, 2008 年 的 系 統 所 使 用 的 模 板 必 須 經 由 人 工 蒐 集, 由 人 工 蒐 集 模 板 費 時 耗 力 且 成 本 過 高, 自 動 模 板 產 生 系 統 確 實 能 夠 自 動 產 生 大 量 的 偵 錯 模 板 不 過 卻 有 兩 個 缺 點,1. 產 生 模 板 的 正 別 字 種 子 必 須 經 由 人 工 蒐 集 2. 其 自 動 產 生 的 部 份 模 板 不 具 可 讀 性 且 不 符 合 詞 彙 的 概 念, 如 圖 二 圖 二 中 我 們 可 以 看 出 某 些 詞 彙 如 辯 護 律 視 辯 論 電 視 辯 等 並 不 是 完 整 的 詞 彙, 如 辯 護 律 可 能 是 從 辯 護 律 師 擷 取, 這 些 不 完 整 的 詞 彙 並 不 適 合 當 作 更 正 建 議 資 訊 給 使 用 者 參 考, 因 此 下 面 我 們 根 據 以 上 兩 個 缺 點 進 行 改 進 常 用 語 偵 錯 錯 誤 字 : 石 更 正 字 : 時 錯 誤 字 位 置 : 80 更 正 建 議 : 時 時 刻 刻 珍 愛 地 球, 從 我 家 做 起... 浪 費 資 源, 讓 環 保 人 士 不 禁 大 聲 急 呼 : 地 球 只 有 一 個, 要 愛 護 地 球, 就 要 從 居 家 做 起 從 小, 我 的 爸 爸 媽 媽 就 常 常 告 訴 我, 要 珍 愛 地 球, 不 要 使 用 過 多 不 必 要 浪 費 的 資 源, 要 時 石 刻 刻 的 節 約 為 了 讓 年 幼 的 我 能 深 刻 明 白, 爸 爸 媽 媽 總 是 以 身 作 責, 一 有 空 就 去 蒐 集 相 關 的 資 料 媽 媽 常 告 訴 我 : 地 球 上 的 資 料 已 經 越 來 越 少, 就 像 你 時 常 抽 取 衛 生 紙, 一 抽 就 是 四 五 張, 而 且 你 用 一 次 就 扔 進 垃 圾 筒 中, 豪 不 珍 惜, 但 是 你 知 道 嗎? 衛 生 紙 是 樹 木 所 製 成 的, 如 果 所 有 的 樹 都 被 砍 閥 當 衛 生 紙 的 原 料, 那 麼 地 球 就 會 變 得 一 片 黃 沙,... 錯 誤 字 : 黃 更 正 字 : 散 錯 誤 字 位 置 : 354 更 正 建 議 : 一 片 散 沙 正 反 面 模 板 偵 錯 錯 誤 字 : 責 更 正 字 : 則 錯 誤 字 位 置 : 109 錯 誤 類 型 : 同 音 字 說 明 : 則 是 規 範 榜 樣 的 意 思 ; 責 有 負 責 責 備 責 成 等 意 思 以 身 作 則 指 以 自 己 的 言 行 舉 止 做 為 他 人 的 榜 樣, 所 以 當 用 則 而 非 責 更 正 建 議 : 以 身 作 則 文 章 字 數 : 232 成 語 數 : 2 錯 字 數 : 3 一 共 花 了 1.782 秒 偵 錯 圖 一 2008 年 所 發 表 系 統 之 偵 錯 功 能 圖 二 舊 系 統 所 產 生 的 部 份 模 板 ( 二 ) 混 淆 字 集 我 們 發 表 過 的 偵 錯 系 統 所 使 用 的 正 別 字 種 子 是 經 由 我 們 所 蒐 集 正 反 面 用 語 中 擷 取 其 中 的 正 別 字 所 產 生, 例 如.. 正 反 面 用 語 為 芭 蕉 笆 蕉, 而 正 別 字 種 子 則 為 芭 笆, 由 於 正 別 字 種 子 也 是 必 須 經 由 人 工 蒐 集, 同 樣 也 具 有 費 時 耗 力 361

成 本 過 高 的 缺 點 根 據 劉 教 授 的 統 計 [8] [9], 同 音 同 形 字 的 別 字 在 學 生 所 寫 的 錯 別 字 中 佔 有 89.67%, 其 中 同 音 錯 別 字 高 達 79.88% 我 們 從 字 典 蒐 集 所 有 用 字 的 注 音 並 且 將 同 音 同 調 視 為 同 音 字, 如 動 的 注 音 為 ㄉㄨㄥˋ, 因 此 凍 ㄉㄨㄥˋ 視 為 同 音 字, 東 ㄉㄨㄥ 視 為 不 同 音 字, 而 我 們 所 蒐 集 的 同 音 字 表 共 有 1,351 音 15,160 字, 如 圖 三 漢 字 字 形 的 構 成 要 素 是 由 筆 劃 筆 順 偏 旁 六 書 部 首 所 構 成, 其 中 部 首 是 東 漢 文 字 學 家 許 慎 所 著 之 說 文 解 字 所 創, 此 後 漢 字 的 檢 字 方 式 一 般 皆 使 用 部 首, 而 同 部 首 字 含 有 高 相 似 度, 因 此 我 們 使 用 部 首 資 訊 來 產 生 同 形 字, 根 據 康 熙 字 典 漢 字 的 部 首 一 共 有 214 個, 我 們 利 用 214 個 部 首 蒐 集 了 9,752 個 漢 字 並 且 產 生 同 部 首 字 表, 如 圖 四 最 後 自 動 產 生 混 淆 字 集 方 法 則 是 使 用 正 字 檢 索 同 音 字 表 同 部 首 字 表, 如 圖 五 概 念 圖 利 用 兇 即 可 找 出 同 部 首 的 兄 光 兆 先 兌 克 免 與 同 音 字 的 凶 兄 匈 洶 恟 胸 等 字 圖 三 部 份 同 音 字 表 圖 四 部 份 同 部 首 字 表 正 字 同 部 首 字 同 音 字 兇 兄 光 兆 先 兌 克 免 凶 兄 匈 洶 恟 胸 圖 五 自 動 產 生 混 淆 字 概 念 圖 ( 三 ) 自 動 化 收 集 模 板 系 統 流 程 362

圖 六 為 我 們 自 動 模 板 產 生 系 統 流 程 圖, 我 們 的 自 動 模 板 產 生 系 統 是 基 於 正 面 用 詞 非 常 頻 繁 使 用, 而 含 別 字 的 反 面 用 語 則 會 被 使 用 很 少 的 條 件 下, 首 先 我 們 蒐 集 由 國 語 推 行 委 員 會 所 公 佈 的 八 十 七 年 常 用 語 詞 調 查 報 告 書 [11] 中 的 常 用 字 共 4,998 字 作 為 正 字 種 子, 接 著 利 用 這 些 常 用 字 自 動 產 生 同 音 同 部 首 的 別 字, 最 後 將 混 淆 字 集 輸 入 至 我 們 的 自 動 模 板 產 生 系 統 我 們 發 表 過 的 偵 錯 系 統 是 使 用 演 算 法 來 產 生 正 面 用 語 模 板 但 會 有 稍 早 所 提 之 缺 點, 於 是 我 們 使 用 現 有 詞 彙 的 基 礎 作 為 正 面 用 語 模 板, 當 系 統 取 得 正 字 後 會 去 檢 索 辭 典 是 否 有 包 含 該 正 字 之 詞 彙, 其 中 辭 典 為 教 育 部 所 公 佈 之 教 育 部 重 編 國 語 辭 典 修 訂 本 [12], 經 由 我 們 濾 掉 單 字 詞 彙 共 145,608 詞, 接 著 我 們 將 檢 索 之 詞 彙 的 正 字 替 換 成 別 字 做 為 正 反 面 用 語 模 板, 接 著 到 Corpus 進 行 頻 率 統 計, 統 計 頻 率 如 果 符 合 門 檻 值 的 模 板 則 收 集 起 來 進 行 Close test, 如 果 符 合 Close test 誤 判 門 檻 值 的 模 板 最 後 則 將 此 模 板 收 入 正 反 面 語 料 庫, 而 自 動 模 板 產 生 的 概 念 如 圖 七 5000 常 用 字 計 算 正 反 面 詞 彙 門 檻 值 自 動 產 生 混 淆 字 集 是 否 符 合 門 檻 值 N Y 辭 典 利 用 正 字 搜 尋 含 正 面 字 之 詞 彙 將 模 板 進 行 Close test 捨 棄 不 符 合 條 件 之 模 板 將 詞 彙 中 的 正 字 由 反 面 字 取 代 是 否 符 合 誤 判 門 檻 值 N Y Corpus 從 Corpus 中 搜 尋 取 代 後 的 反 面 詞 彙 頻 率 將 模 板 收 入 正 反 面 語 料 庫 正 字 官 圖 六 系 統 流 程 圖 正 面 用 語 文 武 百 官 官 商 勾 結 一 官 半 職 翻 譯 官 考 官 別 字 倌 反 面 用 語 文 武 百 倌 倌 商 勾 結 一 倌 半 職 翻 譯 倌 考 倌 文 武 百 官 翻 譯 官 計 算 門 檻 值 文 武 百 倌 翻 譯 倌 圖 七 自 動 模 板 產 生 概 念 圖 363

檢 定 公 式 方 面, 我 們 在 2009 年 5 月 所 發 表 的 自 動 模 板 產 生 系 統 [7] 是 使 用 卡 方 檢 定 來 檢 定 是 否 收 納 模 板 如 (1), 其 中 E 為 正 面 用 語 模 板 的 出 現 頻 率 O 為 反 面 用 語 模 板 的 出 現 頻 率, 而 中 文 中 常 有 積 非 成 是 的 用 語 或 通 用 詞 詞 彙, 為 了 避 免 這 樣 的 情 況 我 們 會 限 定 E > O O E 2 2 ( ) X = E (1) 隨 後 我 們 觀 察 學 生 作 文 中 學 生 所 使 用 的 反 面 用 語 與 教 師 訂 正 後 的 正 面 用 語, 發 現 正 面 用 語 的 頻 率 遠 大 於 反 面 用 語 如 圖 八, 而 卡 方 檢 定 公 式 特 性 卻 只 學 生 正 反 面 用 語 的 頻 率 分 佈 不 同 其 卡 方 檢 定 特 性 圖 如 圖 九 卡 方 檢 定 的 門 檻 值 範 圍, 在 門 檻 值 設 定 為 100 的 條 件 下, 隨 著 正 面 用 語 頻 率 的 提 昇 而 反 面 用 語 也 呈 線 性 的 提 昇, 也 就 是 圖 九 上 方 線 段 以 內 的 反 面 頻 率 皆 會 通 過 卡 方 檢 定 測 試, 這 與 我 們 從 學 生 所 使 用 的 正 反 面 用 語 有 著 非 常 大 的 差 異, 所 以 卡 方 檢 定 並 不 適 合 用 來 檢 定 模 板 是 否 收 納 正 面 用 語 反 面 用 語 正 反 面 用 語 頻 率 300000 250000 200000 150000 100000 50000 0 1 89 177 265 353 441 529 617 705 793 881 969 1057 1145 1233 1321 1409 1497 1585 1673 1761 1849 1937 2025 2113 2201 2289 2377 學 生 正 反 面 用 語 編 號 圖 八 正 反 面 用 語 頻 率 分 佈 圖 卡 方 檢 定 通 過 門 檻 值 100 之 範 圍 通 過 根 號 檢 定 門 檻 值 之 範 圍 反 面 用 語 頻 率 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 500 450 400 350 300 250 200 150 100 50 0 1 386 771 1156 1541 1926 2311 2696 3081 3466 3851 4236 4621 5006 5391 5776 6161 6546 6931 7316 7701 8086 8471 8856 9241 9626 正 面 用 語 頻 率 圖 九 卡 方 檢 定 與 根 號 檢 定 門 檻 值 分 佈 圖 364

因 此 我 們 將 否 採 納 該 模 板 的 公 式 修 改 如 (2) (3),Cfeq 為 正 面 用 語 的 頻 率 Wfeq 為 反 面 用 語 的 頻 Threshold 為 所 有 正 面 用 語 頻 率 之 平 均, 而 採 納 模 板 的 條 件 是 正 面 用 語 的 頻 率 經 過 開 根 號 的 計 算 之 後 必 須 大 於 反 面 用 語 的 頻 率, 且 正 面 用 語 必 須 大 於 門 檻 值 使 用 此 公 式 是 依 據 圖 八 學 生 使 用 的 正 反 面 用 語 之 特 性 所 設 計, 依 照 每 個 正 面 用 語 得 頻 率 取 得 相 對 之 反 面 用 語 頻 率, 並 且 必 須 符 合 正 面 用 詞 非 常 頻 繁 使 用, 反 面 用 語 則 被 使 用 很 少 的 條 件, 根 號 檢 定 的 特 性 圖 如 圖 九 下 方 線 段, 根 號 檢 定 能 夠 針 對 每 一 個 正 面 用 語 頻 率 去 取 得 他 的 最 佳 反 面 用 語 頻 率 之 門 檻 值, 最 後 我 們 將 學 生 正 反 面 用 語 頻 率 共 2455 筆 利 用 (2) 公 式 做 頻 率 分 佈 分 析, 其 中 共 有 90.46% 的 模 板 符 合 根 號 檢 定 之 測 試, 不 符 合 此 檢 定 測 試 的 模 板 有 未 來 為 來, 已 經 以 經, 但 是 但 事 等 模 板, 這 些 模 板 的 前 後 文 資 訊 不 足 如 果 用 來 當 作 錯 別 字 訂 正 模 板, 則 會 非 常 容 易 引 入 雜 訊 Cfreq > Wfreq, Cfreq > Threshold (2) Threshold n Cvocabulary( i) i= = 1 n (3) ( 四 ) 斷 詞 軟 體 應 用 上 述 檢 定 公 式 與 Close test 處 理 根 據 我 們 實 驗 與 觀 察,2 個 字 的 詞 彙 仍 然 非 常 容 易 造 成 False alarm, 這 個 原 因 是 2 字 的 詞 彙 過 短 容 易 與 其 他 詞 彙 發 生 重 疊 的 現 象 範 例 如 圖 十, 如 果 用 一 個 正 面 詞 彙 如 擁 有 去 擷 取 反 面 用 語, 則 會 如 圖 十 般 將 雍 有 以 有 都 收 入, 但 在 一 個 人 可 以 有 很 多 快 樂 這 句 範 例 中, 以 有 中 的 以 字 應 屬 於 可 以 這 個 詞 彙 一 個 人 可 雍 有 很 多 快 樂 擁 有 一 個 人 可 以 有 很 多 快 樂 圖 十 詞 彙 重 疊 現 象 範 例 斷 詞 軟 體 能 夠 將 正 確 的 詞 彙 斷 詞, 而 含 有 別 字 的 詞 彙 則 無 法 正 確 斷 出 詞 彙 如 圖 十 一, 因 此 我 們 使 用 這 個 特 性 將 Corpus 利 用 斷 詞 軟 體 [13] 斷 詞, 藉 以 用 來 擷 取 更 正 確 的 2 字 詞 彙 模 板, 我 們 會 將 正 確 斷 詞 的 詞 彙 移 除 接 著 將 剩 餘 單 字 詞 合 併 用 來 擷 取 模 板 用 最 後 由 我 們 系 統 自 動 產 生 的 模 板 如 圖 十 二 一 個 人 可 雍 有 很 多 快 樂 人 可 雍 有 擁 有 一 個 人 可 以 有 很 多 快 樂 圖 十 一 應 用 斷 詞 擷 取 反 面 用 語 模 板 範 例 365

三 實 驗 結 果 與 分 析 圖 十 二 經 由 我 們 系 統 所 產 生 的 部 份 模 板 ( 一 )Corpus 與 學 生 作 文 由 於 統 計 模 板 頻 率 需 要 大 量 的 語 料 資 料, 因 此 我 們 蒐 集 新 聞 語 料 庫 做 為 我 們 的 Corpus, 資 料 整 理 如 表 一 表 一 Corpus 資 料 整 理 資 料 年 份 新 聞 社 文 件 數 檔 案 大 小 Chinatimes 38,163 Chinatimes Commercial 25,812 1998-1999 Chinatimes Express 5,747 209MB Central Daily News 27,770 China Daily News 34,728 1998-1999 United Daily News 249,508 320MB United Daily News 172,421 2000-2001 United Express 91,958 Ming Hseng News 168,807 1.03GB Economic Daily News 463,873 測 試 集 是 從 學 生 作 文 中 拆 成 兩 個 部 份, 一 個 部 份 做 為 Close test 用, 另 一 部 份 則 是 用 來 Open test 用, 學 生 作 文 我 們 使 用 台 北 市 某 國 中 七 八 年 級 考 試 作 文 並 且 由 教 師 校 訂 過 錯 別 字 共 3264 篇, 每 篇 文 章 皆 輸 入 成 電 腦 可 處 理 的 格 式 如 圖 十 三, 而 我 們 的 系 統 並 不 處 理 注 音 文 以 及 不 存 在 於 Unicode 編 碼 中 之 錯 字 最 後 我 們 將 蒐 集 到 的 作 文 做 資 料 分 析 如 表 二, 從 表 格 中 我 們 可 以 看 出 約 94% 的 作 文 用 字 皆 為 常 用 字 的 範 圍, 而 表 三 則 為 學 生 作 文 的 正 別 字 分 析 同 部 首 的 正 別 字 約 在 15% 同 音 正 別 字 約 68%, 而 非 同 部 首 同 音 字 約 為 19%, 我 們 的 作 文 統 計 分 析 結 果 與 劉 教 授 的 分 析 結 果 [8] [9] 相 近 另 外 我 們 也 統 計 學 生 常 犯 錯 誤 之 Top 10 模 板 如 表 四 366

圖 十 三 作 文 電 子 檔 的 格 式 表 二 學 生 作 文 基 本 分 析 作 文 數 平 均 級 分 作 文 平 均 字 數 平 均 別 字 數 常 用 字 比 例 Close test essay 2241 3.62 367.12 1.74 94.23% Open test essay 1023 3.61 420.02 1.94 94.33% 表 三 學 生 作 文 正 別 字 分 析 正 別 字 同 部 首 比 例 正 別 字 同 音 比 例 兩 者 皆 有 兩 者 皆 非 Close test essay 13.82% 70.27% 4.92% 20.81% Open test essay 16.96% 66.31% 2.85% 19.58% 表 四 常 犯 錯 誤 之 Top 10 模 板 Close essay 正 面 用 語 已 經 變 得 自 己 景 象 一 旦 寄 託 已 經 畢 竟 而 已 根 本 反 面 用 語 己 經 變 的 自 已 景 像 一 但 寄 托 以 經 必 竟 而 己 跟 本 Open essay 正 面 用 語 自 己 一 旦 已 經 選 擇 煩 惱 應 該 已 經 而 已 選 擇 後 悔 反 面 用 語 自 已 一 但 己 經 選 則 煩 腦 因 該 以 經 而 己 撰 擇 後 侮 ( 二 ) 實 驗 設 計 與 評 估 我 們 實 驗 的 比 較 對 象 為 [4] 所 人 工 蒐 集 的 模 板 與 發 表 過 的 偵 錯 系 統 [7] 所 產 生 的 模 板, 由 於 二 字 詞 三 字 詞 四 字 以 上 的 詞 彙 出 現 頻 率 差 異 非 常 大, 因 為 我 們 針 對 這 三 組 分 別 計 算 全 部 詞 彙 的 平 均 頻 率, 依 照 平 均 頻 率 門 檻 值 分 別 設 定 為..2300 500 100, 而 Close test 的 過 濾 門 檻 值 經 由 我 們 反 覆 實 驗 得 到 0 為 最 佳 的 設 定 評 估 的 方 式 是 使 用 Precision 與 Recall 公 式 定 義 如 下 : dr dr ( ) ( ) Micro Recall = r (4) sd Micro Precision = N N (5) (dr) Macro Recall = (6) (r) (dr) Macro Precision = (7) (sd) False alarm rate = 1 Precision (8) dr 為 每 篇 文 章 中 偵 錯 正 確 的 字 數,r 為 每 篇 文 章 中 真 正 的 錯 字 數,sd 為 每 篇 文 章 中 系 統 偵 測 出 的 錯 字 數,N 為 所 有 文 章 的 篇 數 Micro Precision 與 Micro Recall 是 以 接 近 現 實 生 活 的 偵 錯 情 形, 也 就 是 以 文 章 為 單 位 偵 錯 效 能 如 何 除 此 之 外 還 必 須 考 量 較 367

多 的 樣 本, 也 就 是 將 所 有 的 資 料 視 為 整 個 大 集 合, 所 以 我 們 使 用 Macro Recall 與 Macro Precision 來 檢 視 系 統 的 效 能 最 後 我 們 系 統 要 求 的 是 在 維 持 高 Precision 的 情 況 下 來 提 高 Recall 值, 因 為 我 們 不 希 望 給 使 用 者 太 多 False alarm ( 三 ) 實 驗 結 果 我 們 設 計 四 組 實 驗 第 一 組 實 驗 為 混 淆 字 集 應 用 於 卡 方 檢 定 時 的 實 驗 結 果, 第 二 組 為 混 淆 字 集 應 用 於 根 號 檢 定 的 實 驗 結 果, 第 三 組 為 根 號 檢 定 加 入 斷 詞 後 的 實 驗 結 果, 第 四 組 為 根 號 檢 定 所 自 動 產 生 的 模 板 加 入 人 工 蒐 集 模 板 之 後 的 實 驗 結 果 實 驗 一.. 混 淆 字 集 應 用 於 卡 方 檢 定 A: 人 工 收 集 模 板 B: 舊 系 統 自 動 產 生 模 板 C: 混 淆 字 集 應 用 於 卡 方 檢 定 100% 80% 60% 40% 20% 0% 89.21% 84.31% 80.10% 69.94% 49.55% 38.32% 32.07% 33.95% 28.10% 17.62% 10.52% 6.05% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 四 卡 方 檢 定 實 驗 結 果 實 驗 結 果 如 圖 十 四, 其 中 A 組 為 人 工 蒐 集 的 模 板 共 6,701 筆,B 組 為 我 們 發 表 過 系 統 所 產 生 的 模 板 共 19,402 筆,C 組 為 應 用 混 淆 字 集 後 使 用 卡 方 檢 定 之 系 統 產 生 的 新 模 板 共 54,253 筆, 其 中 混 淆 字 採 取 [11] 中 的 常 用 字, 不 在 常 用 範 圍 的 字 則 不 在 此 範 圍 Precision 方 面 以 人 工 蒐 集 的 模 板 為 最 佳, 而 Recall 方 面 應 用 混 淆 字 集 卡 方 檢 定 所 自 動 產 生 的 模 板 優 於 過 去 我 們 所 發 表 的 系 統, 整 體 來 說 則 還 是 以 人 工 蒐 集 的 模 板 為 最 佳, 不 過 自 動 產 生 的 模 板 在 Recall 皆 都 逼 近 人 工 蒐 集 模 板 的 數 值 實 驗 二.. 混 淆 字 集 應 用 於 根 號 檢 定 D: 人 工 收 集 模 板 E: 舊 系 統 自 動 產 生 模 板 F: 混 淆 字 集 應 用 於 根 號 檢 定 100% 80% 60% 40% 20% 0% 91.27% 89.21% 80.10% 69.94% 62.60% 38.32% 32.69% 33.95% 28.10% 17.62% 10.08% 6.05% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 五 根 號 檢 定 實 驗 結 果 368

實 驗 結 果 如 圖 十 五,D E 組 與 實 驗 一 的 A B 相 同,F 組 為 應 用 混 淆 字 集 後 使 用 根 號 檢 定 之 後 系 統 產 生 的 新 模 板 共 50,467 筆 與 實 驗 一 最 大 的 不 同 處 是 根 號 檢 定 在 Precision 方 面 皆 比 卡 方 檢 定 來 得 優 異 許 多 其 中 以 Macro 提 昇 最 多, 在 Recall 方 面 Micro 些 微 提 昇 Macro 則 是 些 微 下 降 由 此 實 驗 可 以 得 知 過 去 卡 方 檢 定 的 檢 定 模 板 方 式 讓 許 多 noise 進 入 造 成 Precision 的 下 降, 改 用 根 號 檢 定 的 檢 定 方 式 可 以 改 善 以 往 的 缺 點 實 驗 三.. 加 入 斷 詞 系 統 100% 80% 60% 40% 20% 0% G: 混 淆 字 集 + 卡 方 檢 定 H: 混 淆 字 集 + 根 號 檢 定 I: 混 淆 字 集 與 斷 詞 系 統 + 根 號 檢 定 95.55% 91.27% 84.31% 73.58% 62.60% 49.55% 32.69% 32.07% 29.24% 10.08% 10.52% 7.43% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 六 應 用 斷 詞 之 檢 定 比 較 實 驗 結 果 如 圖 十 六,G 組 為 實 驗 一 C 組 之 卡 方 檢 定 模 板,H 組 為 實 驗 二 F 組 之 根 號 檢 定 模 板,I 組 為 H 組 應 用 斷 詞 軟 體 後 自 動 產 生 的 新 模 板 共 9,013 筆 由 於 斷 詞 軟 體 的 使 用 讓 斷 詞 更 準 確, 因 此 模 板 產 生 數 跟 前 面 兩 個 實 驗 相 比 較 降 低 不 少, 在 Precision 方 面 可 以 發 現 不 論 Micro 或 Macro 都 比 使 用 斷 詞 軟 體 前 的 模 板 在 準 確 度 有 更 進 一 步 的 提 昇, 但 是 在 Recall 部 份 則 是 下 降 3% 左 右, 這 是 追 求 Precision 所 犧 牲 的 地 方 實 驗 四.. 混 合 人 工 蒐 集 模 板 J: 人 工 收 集 模 板 K: J 組 +F 組 L: J 組 +I 組 100% 80% 60% 40% 20% 89.21% 87.63% 84.14% 43.31% 38.32% 40.01% 69.94% 68.73% 65.86% 23.63% 17.62% 19.48% 0% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 七 比 較 混 合 人 工 蒐 集 模 板 之 效 能 實 驗 結 果 如 圖 十 七,J 組 為 實 驗 一 A 組 人 工 蒐 集 的 模 板 共 6,701 筆,K 組 為 實 驗 二 F 組 根 號 檢 定 模 板 與 J 組 人 工 蒐 集 的 模 板 混 合 使 用 共 57,167 筆,L 組 為 實 驗 三 I 組 應 用 斷 詞 軟 體 之 根 號 檢 定 模 板 與 J 組 人 工 蒐 集 的 模 板 混 合 使 用 共 15,713 筆 Precision 方 面 混 合 人 工 蒐 集 模 板 後 的 自 動 產 生 模 板 皆 下 降 到 人 工 蒐 集 模 板 水 平 附 近, 而 跟 實 驗 三 比 較 369

Recall 方 面 在 Micro 與 Macro 部 份 皆 有 大 幅 度 的 提 昇, 這 也 表 示 我 們 的 系 統 具 有 可 擴 充 性, 如 果 加 入 適 當 的 模 板 能 夠 使 用 系 統 的 偵 錯 範 圍 更 進 一 步 的 提 昇 以 混 淆 字 為 基 礎 來 產 生 模 板 的 新 系 統 理 當 可 以 掌 握 70~80% 的 錯 別 字, 但 是 經 由 我 們 的 實 驗 卻 發 現 自 動 產 生 的 模 板 在 Recall 值 方 面 的 提 昇 非 常 有 限, 這 個 現 象 我 們 將 在 下 節 做 數 據 分 析 ( 四 ) 實 驗 結 果 分 析 用 來 分 析 的 模 板 我 們 使 用 實 驗 三 中 的 應 用 斷 詞 軟 體 之 根 號 檢 定 自 動 產 生 的 新 模 板 共 9,013 筆 做 為 分 析 模 板, 因 為 這 組 模 板 比 較 符 合 我 們 當 初 所 預 期 之 在 維 持 高 Precision 的 情 況 下 來 提 高 Recall 值 1 Precision 方 面 利 用 反 面 模 板 來 偵 測 錯 誤 理 當 能 夠 讓 Precision 達 成 100%, 但 是 經 由 我 們 實 驗 結 果 發 現 卻 不 是 如 此, 我 們 將 Open test 中 系 統 偵 錯 部 份 造 成 False alarm 提 出 討 論 如 表 五 根 據 [12] 垃 圾 桶 垃 圾 筒 奇 蹟 奇 跡 電 線 桿 電 線 杆 銷 聲 匿 跡 消 聲 匿 跡, 可 以 得 知 此 四 組 模 板 為 通 用 詞, 而 一 再 一 在 則 牽 涉 到 語 意 層 面 再 這 邊 並 不 適 合 使 用 模 板 的 方 式 來 偵 錯, 放 聲 大 哭 放 聲 大 叫 不 用 說 不 用 講 讀 書 人 讀 書 做 則 是 我 們 系 統 收 納 到 不 適 合 的 模 板,Precision 無 法 達 到 100% 就 是 上 述 原 因 所 導 致 表 五 部 份 False alarm 模 板 正 面 用 語 垃 圾 桶 奇 蹟 電 線 桿 銷 聲 匿 跡 一 再 放 聲 大 哭 不 用 說 讀 書 人 反 面 用 語 垃 圾 筒 奇 跡 電 線 杆 消 聲 匿 跡 一 在 放 聲 大 叫 不 用 講 讀 書 做 2 Recall 方 面 我 們 將 學 生 所 書 寫 正 反 面 用 語 模 板 與 我 們 系 統 所 產 生 的 模 板 做 個 分 析 如 表 六 其 中 沒 產 生 到 的 模 板 為 我 們 系 統 所 沒 有 產 生 到 的 模 板, 不 在 辭 典 為 在 沒 有 產 生 到 的 模 板 中 其 正 面 用 語 不 在 辭 典 中, 不 在 Corpus 為 在 沒 有 產 生 到 的 模 板 中 其 反 面 用 語 不 在 Corpus 中, 兩 者 皆 是 為 正 面 用 語 不 再 辭 典 中 同 時 相 對 應 反 面 用 語 也 不 在 Corpus 中 從 沒 產 生 到 的 模 板 數 值 可 以 發 現, 絕 大 部 分 學 生 所 書 寫 得 模 板 並 沒 有 被 我 們 自 動 產 生, 再 從 不 在 辭 典 與 不 在 Corpus 數 值 中 相 加 並 且 扣 除 兩 者 皆 有 的 部 份, 可 得 知 Close test essay 有 53.17% 的 模 板 與 Open test essay 有 32.97%, 是 我 們 的 系 統 無 法 自 動 產 生 出 來, 因 為 我 們 的 系 統 自 動 產 生 模 板 是 基 於 正 確 詞 彙 與 Corpus 曾 經 有 人 使 用 過 該 反 面 用 語 至 於 不 存 於 辭 典 的 詞 彙 如 表 七, 可 以 將 這 些 詞 彙 加 入 辭 典 這 樣 便 可 以 克 服 此 問 題, 而 不 存 在 於 Corpus 的 反 面 用 語 則 必 須 蒐 集 更 大 量 的 Corpus 語 料 庫, 以 便 能 夠 蒐 集 到 此 類 的 反 面 模 板 370

表 六 學 生 模 板 與 系 統 模 板 分 析 沒 產 生 到 的 模 板 不 在 辭 典 不 在 Corpus 兩 者 皆 是 Close test essay 91.53% 37.73% 35.64% 20.20% Open test essay 93.15% 16.27% 23.94% 7.24% 表 七 部 份 未 收 入 辭 典 之 詞 彙 佈 告 欄 蒸 飯 機 值 日 生 作 業 本 辦 派 對 睡 午 覺 全 班 齊 心 勤 加 練 習 羞 恥 心 無 厘 頭 重 拾 信 心 莽 莽 撞 撞 淘 汱 漆 彈 場 偶 像 劇 積 陰 德 融 入 團 體 芬 多 精 燒 炭 拉 筋 四 結 論 及 未 來 工 作 根 據 我 們 應 用 混 淆 字 集 根 號 檢 定 公 式 與 斷 詞 軟 體, 我 們 能 夠 省 去 人 工 蒐 集 產 生 模 板 用 種 子 的 流 程, 並 且 能 夠 產 生 以 詞 彙 為 基 礎 的 模 板 如 圖 十 二, 改 進 過 去 發 表 過 的 系 統 模 板 如 圖 二 非 詞 彙 基 礎 的 模 板, 給 予 使 用 者 更 明 確 的 訂 正 資 訊 使 用 根 號 檢 定 公 式 也 經 由 實 驗 得 知 確 實 能 夠 比 卡 方 檢 定 所 自 動 產 生 的 模 板 有 較 佳 的 Precision, 最 後 藉 由 斷 詞 軟 體 斷 詞 後 的 Corpus 也 經 由 實 驗 證 實 能 夠 更 進 一 步 提 昇 系 統 的 Precision, 而 Recall 部 份 也 能 透 過 持 續 增 加 適 合 的 模 板 來 增 加 偵 測 率 在 未 來 我 們 會 蒐 集 混 淆 字 集 所 沒 辦 法 產 生 的 模 板 產 生 種 子, 也 會 持 續 蒐 集 更 符 合 學 生 作 文 的 文 章 來 取 代 新 聞 語 料 庫, 詞 彙 方 面 則 會 透 過 大 型 詞 彙 庫 或 線 上 資 源 如.. 維 基 百 科, 來 增 加 我 們 辭 典 的 詞 彙 數, 最 後 我 們 預 計 使 用 學 生 的 作 文 產 生 含 別 字 之 語 言 模 型, 利 用 該 語 言 模 型 來 智 慧 偵 錯 以 輔 助 模 板 偵 錯 所 沒 有 蒐 集 到 的 錯 誤 模 板 致 謝 本 研 究 依 經 濟 部 補 助 財 團 法 人 資 訊 工 業 策 進 會 98 年 度 智 慧 型 網 路 服 務 技 術 與 應 用 計 畫 (2/4) 辦 理 參 考 文 獻 [1] Lei Zhang, Chang ning Huang, Ming Zhou, Haihua Pan, Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm, Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, pp: 248-254, 2000. [2] Ren, F., Shi, H., Zhou, Q., A hybrid approach to automatic Chinese text checking and error correction, In Proceedings of the ARPA Work shop on Human Language Technology, pp: 76-81, March 1994. [3] MOE, Common Errors in Chinese Writings ( 常 用 國 字 辨 似 ), Ministry of Education, Taiwan, 1996. [4] Ta-Hung Hung., & Shih-Hung Wu, Chinese Essay Error Detection and Suggestion System. Taiwan E-Learning Forum, 2008. 371

[5] Cheng-Lung Sung., Cheng-Wei Lee., Hsu-Chun Yen., Wen-Lian Hsu, An Alignment-based Surface Pattern for a Question Answering System, the IEEE International Conference on Information Reuse and Integration, pages pp. 172-177, 2008. [6] D. Ravichandran., & E. Hovy, Learning surface text patterns for a Question Answering system, in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pp. 41-47, 2001. [7] 陳 勇 志, 吳 世 弘, 盧 家 慶, 谷 圳, 中 文 作 文 錯 別 字 偵 錯 模 板 自 動 產 生, The 13th Global Chinese Conference on Computer in Education, pp. 402-408, 2009. [8] Chao-Lin Liu, Kan-Wen Tien, Min-Hua Lai, Yi-Hsuan Chuang, Shih-Hung Wu, Phonological and logographic influences on errors in written Chinese words, Proceedings of the Seventh Workshop on Asian Language Resources, the Forty Seventh Annual Meeting of the Association for Computational Linguistics, August 2009. [9] Chao-Lin Liu, Kan-Wen Tien, Min-Hua Lai, Yi-Hsuan Chuang, Shih-Hung Wu, Capturing errors in written Chinese words, Proceedings of the Forty Seventh Annual Meeting of the Association for Computational Linguistics, August 2009. [10] Chao-Lin Liu and Jen-Hsiang Lin, Using structural information for identifying similar Chinese characters, Proceedings of the Forty Sixth Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, June 2008. [11] 國 語 推 行 委 員 會, 八 十 七 年 常 用 語 詞 調 查 報 告 書, National Languages Committee, Taiwan, 1998. [12] MOE, 教 育 部 重 編 國 語 辭 典 修 訂 本, Ministry of Education, Taiwan, 2007. [12] CKIP, "Autotag," Academia Sinica, 1999. 372