中 文 混 淆 字 集 應 用 於 別 字 偵 錯 模 板 自 動 產 生 Chinese Confusion Word Set for Automatic Generation of Spelling Error Detecting Template 陳 勇 志 Yong-Zhi Chen, 吳 世 弘 Shih-Hung Wu 朝 陽 科 技 大 學 資 訊 工 程 系 Department of Computer Science and Information Engineering Chaoyang University of Technology {9727602, shwu}@cyut.edu.tw 盧 家 慶 Chia-Ching Lu, 谷 圳 Tsun Ku 資 訊 工 業 策 進 會 Institute for information industry {gaty, cujing}@iii.org.tw 摘 要 本 研 究 透 過 常 用 字 來 產 生 混 淆 字 集, 自 動 產 生 能 夠 幫 助 錯 別 字 偵 測 的 模 板, 發 展 華 語 文 錯 別 字 偵 測 技 術 本 系 統 利 用 辭 典 為 基 礎, 使 用 辭 典 中 的 詞 彙 做 為 正 面 用 詞, 透 過 混 淆 字 集 自 動 產 生 含 別 字 的 反 面 模 板, 能 夠 偵 測 的 別 字 包 含 同 音 字 同 部 首 字, 並 且 透 過 斷 詞 軟 體 輔 助 擷 取 更 正 確 的 反 面 模 板, 用 以 協 助 華 文 教 師 進 行 大 量 華 文 作 文 的 錯 別 字 批 改 甚 至 輔 助 學 生 進 行 寫 作, 最 後 達 到 提 昇 寫 作 能 力 之 成 效 關 鍵 詞.. 模 板 產 生 模 板 探 勘 正 反 面 用 語 知 識 庫 Abstract In this research, we proposed a system that can use automatically generated templates for detecting Chinese spelling error. At first, we use frequently used Chinese characters to produce the Chinese confusion set. Based on a dictionary, our system automatically generated negative vocabulary template with the help of Chinese confusion set. Error types include pronunciation-related errors and radical-related errors. And our system uses word segment to capture more accurately the negative template. We hope that such a system can help the teachers on the checking of students essays, and also can help students learn to write effectively. Consequently, the students would improve their writing skill. Keywords: Template generation, Template mining, Pragmatics Knowledge Base. 359
一 緒 論 自 民 國 95 年 起, 教 育 部 在 國 中 基 本 學 力 測 驗 中 加 辦 寫 作 測 驗 隨 後 列 入 升 學 計 分, 計 分 標 準 依 據 立 意 取 材 結 構 組 織 遣 詞 造 句 錯 別 字 給 予 6 個 等 第 的 級 分, 華 語 學 習 中 的 作 文 能 力 備 受 重 視 國 中 基 本 學 力 測 驗 每 年 約 有 三 十 萬 學 生 應 試, 因 此 我 們 可 以 預 見 未 來 將 有 大 量 的 作 文 輔 助 批 改 與 輔 助 教 學 的 需 求, 如 何 應 用 數 位 學 習 的 技 術 來 輔 助 教 師 批 改 作 文 並 且 幫 助 學 生 學 習 寫 作, 為 目 前 普 遍 研 究 之 議 題 根 據 寫 作 測 驗 的 評 分 依 據, 錯 別 字 是 個 重 要 的 評 分 標 準, 回 顧 以 往 中 文 錯 別 字 的 輔 助 學 生 系 統 的 相 關 文 獻 有 [1] 與 [2], 這 兩 篇 文 獻 都 是 針 對 中 文 文 章 中 進 行 偵 錯 與 訂 正 的 系 統, 其 中 [1] 是 利 用 替 換 五 筆 字 型 編 碼 來 產 生 可 能 的 別 字, 透 過 每 次 替 換 一 個 編 碼 即 可 達 到 產 生 多 個 可 能 的 別 字, 而 五 筆 字 型 輸 入 法 主 要 用 於 使 用 簡 體 中 文 的 中 國 大 陸, 五 筆 字 型 完 全 依 據 筆 畫 和 字 形 特 徵 對 漢 字 進 行 編 碼, 將 漢 字 筆 劃 分 為 橫 豎 撇 捺 折 五 種, 把 字 根 或 編 碼 按 一 定 規 律 分 佈 在 25 個 英 文 按 鍵 上 教 育 部 也 針 對 錯 別 字 推 出 由 人 工 編 寫 的 常 用 國 字 辨 似 [3], 但 是 常 用 國 字 辨 似 只 含 有 1477 筆 模 板, 並 不 敷 大 量 的 作 文 偵 錯 使 用, 而 我 們 從 書 上 蒐 集 常 用 的 正 反 面 用 語 模 板 含 有 6,701 筆, 並 且 在 2008 年 發 表 中 文 作 文 的 訂 正 與 更 正 建 議 系 統 [4], 該 系 統 利 用 學 生 所 書 寫 的 作 文 蒐 集 偵 錯 用 模 板 藉 以 建 立 模 板 偵 錯 技 術 的 正 反 面 模 板 偵 錯, 並 且 透 過 統 計 Corpus 的 uni-gram bi-gram 建 立 語 言 模 型 做 為 常 用 語 偵 錯, 由 於 人 工 蒐 集 模 板 費 時 耗 力 且 成 本 過 高, 所 以 隨 後 我 們 根 據 QA 系 統 中 的 自 動 模 板 產 生 概 念 [5] [6], 利 用 機 器 學 習 之 技 術 並 且 大 量 探 勘 Corpus 中 可 能 的 反 面 用 語 模 板, 最 後 利 用 學 生 所 書 寫 得 作 文 做 為 Training data, 於 2009 年 5 月 發 表 了 中 文 作 文 錯 別 字 偵 錯 模 板 自 動 產 生 [7], 該 系 統 使 用 模 板 擴 展 演 算 法 來 取 得 大 量 的 模 板, 並 且 透 過 卡 方 檢 定 做 為 收 納 模 板 的 檢 定 公 式, 但 是 自 動 模 板 產 生 還 是 依 賴 人 工 蒐 集 模 板 中 之 種 子, 於 是 我 們 使 用 混 淆 字 集 來 大 量 產 生 蒐 集 模 板 用 的 種 子, 混 淆 字 集 為 一 般 人 容 易 混 用 的 字 之 集 合, 混 淆 字 可 能 為 同 音 字 同 形 字 同 部 首 字 等 等 混 淆 字 集 是 學 生 容 易 將 正 確 的 字 書 寫 成 錯 誤 的 字 之 集 合, 根 據 劉 昭 麟 教 授 的 統 計 學 生 作 文 [8] [9], 學 生 書 寫 的 錯 別 字 中 同 形 字 佔 30.70% 同 音 字 佔 79.88% 同 形 同 音 字 佔 20.91% 非 同 形 同 音 字 佔 2.43%, 統 計 結 果 指 出 學 生 書 寫 的 的 錯 別 字 大 部 分 來 自 於 同 音 字 錯 誤, 同 音 字 的 混 淆 字 集 可 以 透 過 字 典 收 集 取 得 而 同 形 字 則 較 不 易 取 得, 不 過 劉 教 授 依 據 倉 頡 輸 入 法 發 表 [10], 利 用 替 換 倉 頡 輸 入 法 字 碼 來 取 得 同 形 字 與 [1] 的 替 換 五 筆 字 型 編 碼 相 似 之 處 二 系 統 設 計 與 方 法 ( 一 ) 錯 別 字 自 動 模 板 產 生 系 統 回 顧 我 們 於 2008 於 所 發 表 的 錯 別 字 偵 錯 與 訂 正 建 議 系 統 [4] 是 透 過 一 個 Web 介 面, 讓 學 生 輸 入 他 們 所 書 寫 的 作 文 而 文 章 可 能 含 有 若 干 個 別 字 如 圖 一 左 邊 方 塊, 經 過 我 們 系 統 兩 項 功 能 常 用 語 偵 錯 與 正 反 面 模 板 偵 錯 診 斷 後, 常 用 語 偵 錯 會 提 供 學 生 的 錯 誤 字 必 須 更 正 的 字 錯 誤 字 位 置 和 更 正 建 議 的 資 訊, 正 反 面 用 語 偵 錯 除 了 常 用 語 偵 錯 提 供 的 建 議 之 外 還 會 提 供 詞 語 的 說 明 如 圖 一 右 邊 方 塊, 我 們 的 系 統 可 以 偵 測 出 常 見 的 錯 別 字, 並 且 明 確 指 出 學 生 錯 別 字 在 文 章 的 何 處, 並 且 給 予 適 當 的 建 議 與 說 明, 讓 學 生 瞭 解 自 己 何 處 寫 錯 字 並 且 從 錯 誤 中 學 習 360
我 們 在 2009 年 5 月 所 發 表 的 自 動 模 板 產 生 系 統 [7] 是 改 進 2008 年 發 表 [4] 的 系 統, 2008 年 的 系 統 所 使 用 的 模 板 必 須 經 由 人 工 蒐 集, 由 人 工 蒐 集 模 板 費 時 耗 力 且 成 本 過 高, 自 動 模 板 產 生 系 統 確 實 能 夠 自 動 產 生 大 量 的 偵 錯 模 板 不 過 卻 有 兩 個 缺 點,1. 產 生 模 板 的 正 別 字 種 子 必 須 經 由 人 工 蒐 集 2. 其 自 動 產 生 的 部 份 模 板 不 具 可 讀 性 且 不 符 合 詞 彙 的 概 念, 如 圖 二 圖 二 中 我 們 可 以 看 出 某 些 詞 彙 如 辯 護 律 視 辯 論 電 視 辯 等 並 不 是 完 整 的 詞 彙, 如 辯 護 律 可 能 是 從 辯 護 律 師 擷 取, 這 些 不 完 整 的 詞 彙 並 不 適 合 當 作 更 正 建 議 資 訊 給 使 用 者 參 考, 因 此 下 面 我 們 根 據 以 上 兩 個 缺 點 進 行 改 進 常 用 語 偵 錯 錯 誤 字 : 石 更 正 字 : 時 錯 誤 字 位 置 : 80 更 正 建 議 : 時 時 刻 刻 珍 愛 地 球, 從 我 家 做 起... 浪 費 資 源, 讓 環 保 人 士 不 禁 大 聲 急 呼 : 地 球 只 有 一 個, 要 愛 護 地 球, 就 要 從 居 家 做 起 從 小, 我 的 爸 爸 媽 媽 就 常 常 告 訴 我, 要 珍 愛 地 球, 不 要 使 用 過 多 不 必 要 浪 費 的 資 源, 要 時 石 刻 刻 的 節 約 為 了 讓 年 幼 的 我 能 深 刻 明 白, 爸 爸 媽 媽 總 是 以 身 作 責, 一 有 空 就 去 蒐 集 相 關 的 資 料 媽 媽 常 告 訴 我 : 地 球 上 的 資 料 已 經 越 來 越 少, 就 像 你 時 常 抽 取 衛 生 紙, 一 抽 就 是 四 五 張, 而 且 你 用 一 次 就 扔 進 垃 圾 筒 中, 豪 不 珍 惜, 但 是 你 知 道 嗎? 衛 生 紙 是 樹 木 所 製 成 的, 如 果 所 有 的 樹 都 被 砍 閥 當 衛 生 紙 的 原 料, 那 麼 地 球 就 會 變 得 一 片 黃 沙,... 錯 誤 字 : 黃 更 正 字 : 散 錯 誤 字 位 置 : 354 更 正 建 議 : 一 片 散 沙 正 反 面 模 板 偵 錯 錯 誤 字 : 責 更 正 字 : 則 錯 誤 字 位 置 : 109 錯 誤 類 型 : 同 音 字 說 明 : 則 是 規 範 榜 樣 的 意 思 ; 責 有 負 責 責 備 責 成 等 意 思 以 身 作 則 指 以 自 己 的 言 行 舉 止 做 為 他 人 的 榜 樣, 所 以 當 用 則 而 非 責 更 正 建 議 : 以 身 作 則 文 章 字 數 : 232 成 語 數 : 2 錯 字 數 : 3 一 共 花 了 1.782 秒 偵 錯 圖 一 2008 年 所 發 表 系 統 之 偵 錯 功 能 圖 二 舊 系 統 所 產 生 的 部 份 模 板 ( 二 ) 混 淆 字 集 我 們 發 表 過 的 偵 錯 系 統 所 使 用 的 正 別 字 種 子 是 經 由 我 們 所 蒐 集 正 反 面 用 語 中 擷 取 其 中 的 正 別 字 所 產 生, 例 如.. 正 反 面 用 語 為 芭 蕉 笆 蕉, 而 正 別 字 種 子 則 為 芭 笆, 由 於 正 別 字 種 子 也 是 必 須 經 由 人 工 蒐 集, 同 樣 也 具 有 費 時 耗 力 361
成 本 過 高 的 缺 點 根 據 劉 教 授 的 統 計 [8] [9], 同 音 同 形 字 的 別 字 在 學 生 所 寫 的 錯 別 字 中 佔 有 89.67%, 其 中 同 音 錯 別 字 高 達 79.88% 我 們 從 字 典 蒐 集 所 有 用 字 的 注 音 並 且 將 同 音 同 調 視 為 同 音 字, 如 動 的 注 音 為 ㄉㄨㄥˋ, 因 此 凍 ㄉㄨㄥˋ 視 為 同 音 字, 東 ㄉㄨㄥ 視 為 不 同 音 字, 而 我 們 所 蒐 集 的 同 音 字 表 共 有 1,351 音 15,160 字, 如 圖 三 漢 字 字 形 的 構 成 要 素 是 由 筆 劃 筆 順 偏 旁 六 書 部 首 所 構 成, 其 中 部 首 是 東 漢 文 字 學 家 許 慎 所 著 之 說 文 解 字 所 創, 此 後 漢 字 的 檢 字 方 式 一 般 皆 使 用 部 首, 而 同 部 首 字 含 有 高 相 似 度, 因 此 我 們 使 用 部 首 資 訊 來 產 生 同 形 字, 根 據 康 熙 字 典 漢 字 的 部 首 一 共 有 214 個, 我 們 利 用 214 個 部 首 蒐 集 了 9,752 個 漢 字 並 且 產 生 同 部 首 字 表, 如 圖 四 最 後 自 動 產 生 混 淆 字 集 方 法 則 是 使 用 正 字 檢 索 同 音 字 表 同 部 首 字 表, 如 圖 五 概 念 圖 利 用 兇 即 可 找 出 同 部 首 的 兄 光 兆 先 兌 克 免 與 同 音 字 的 凶 兄 匈 洶 恟 胸 等 字 圖 三 部 份 同 音 字 表 圖 四 部 份 同 部 首 字 表 正 字 同 部 首 字 同 音 字 兇 兄 光 兆 先 兌 克 免 凶 兄 匈 洶 恟 胸 圖 五 自 動 產 生 混 淆 字 概 念 圖 ( 三 ) 自 動 化 收 集 模 板 系 統 流 程 362
圖 六 為 我 們 自 動 模 板 產 生 系 統 流 程 圖, 我 們 的 自 動 模 板 產 生 系 統 是 基 於 正 面 用 詞 非 常 頻 繁 使 用, 而 含 別 字 的 反 面 用 語 則 會 被 使 用 很 少 的 條 件 下, 首 先 我 們 蒐 集 由 國 語 推 行 委 員 會 所 公 佈 的 八 十 七 年 常 用 語 詞 調 查 報 告 書 [11] 中 的 常 用 字 共 4,998 字 作 為 正 字 種 子, 接 著 利 用 這 些 常 用 字 自 動 產 生 同 音 同 部 首 的 別 字, 最 後 將 混 淆 字 集 輸 入 至 我 們 的 自 動 模 板 產 生 系 統 我 們 發 表 過 的 偵 錯 系 統 是 使 用 演 算 法 來 產 生 正 面 用 語 模 板 但 會 有 稍 早 所 提 之 缺 點, 於 是 我 們 使 用 現 有 詞 彙 的 基 礎 作 為 正 面 用 語 模 板, 當 系 統 取 得 正 字 後 會 去 檢 索 辭 典 是 否 有 包 含 該 正 字 之 詞 彙, 其 中 辭 典 為 教 育 部 所 公 佈 之 教 育 部 重 編 國 語 辭 典 修 訂 本 [12], 經 由 我 們 濾 掉 單 字 詞 彙 共 145,608 詞, 接 著 我 們 將 檢 索 之 詞 彙 的 正 字 替 換 成 別 字 做 為 正 反 面 用 語 模 板, 接 著 到 Corpus 進 行 頻 率 統 計, 統 計 頻 率 如 果 符 合 門 檻 值 的 模 板 則 收 集 起 來 進 行 Close test, 如 果 符 合 Close test 誤 判 門 檻 值 的 模 板 最 後 則 將 此 模 板 收 入 正 反 面 語 料 庫, 而 自 動 模 板 產 生 的 概 念 如 圖 七 5000 常 用 字 計 算 正 反 面 詞 彙 門 檻 值 自 動 產 生 混 淆 字 集 是 否 符 合 門 檻 值 N Y 辭 典 利 用 正 字 搜 尋 含 正 面 字 之 詞 彙 將 模 板 進 行 Close test 捨 棄 不 符 合 條 件 之 模 板 將 詞 彙 中 的 正 字 由 反 面 字 取 代 是 否 符 合 誤 判 門 檻 值 N Y Corpus 從 Corpus 中 搜 尋 取 代 後 的 反 面 詞 彙 頻 率 將 模 板 收 入 正 反 面 語 料 庫 正 字 官 圖 六 系 統 流 程 圖 正 面 用 語 文 武 百 官 官 商 勾 結 一 官 半 職 翻 譯 官 考 官 別 字 倌 反 面 用 語 文 武 百 倌 倌 商 勾 結 一 倌 半 職 翻 譯 倌 考 倌 文 武 百 官 翻 譯 官 計 算 門 檻 值 文 武 百 倌 翻 譯 倌 圖 七 自 動 模 板 產 生 概 念 圖 363
檢 定 公 式 方 面, 我 們 在 2009 年 5 月 所 發 表 的 自 動 模 板 產 生 系 統 [7] 是 使 用 卡 方 檢 定 來 檢 定 是 否 收 納 模 板 如 (1), 其 中 E 為 正 面 用 語 模 板 的 出 現 頻 率 O 為 反 面 用 語 模 板 的 出 現 頻 率, 而 中 文 中 常 有 積 非 成 是 的 用 語 或 通 用 詞 詞 彙, 為 了 避 免 這 樣 的 情 況 我 們 會 限 定 E > O O E 2 2 ( ) X = E (1) 隨 後 我 們 觀 察 學 生 作 文 中 學 生 所 使 用 的 反 面 用 語 與 教 師 訂 正 後 的 正 面 用 語, 發 現 正 面 用 語 的 頻 率 遠 大 於 反 面 用 語 如 圖 八, 而 卡 方 檢 定 公 式 特 性 卻 只 學 生 正 反 面 用 語 的 頻 率 分 佈 不 同 其 卡 方 檢 定 特 性 圖 如 圖 九 卡 方 檢 定 的 門 檻 值 範 圍, 在 門 檻 值 設 定 為 100 的 條 件 下, 隨 著 正 面 用 語 頻 率 的 提 昇 而 反 面 用 語 也 呈 線 性 的 提 昇, 也 就 是 圖 九 上 方 線 段 以 內 的 反 面 頻 率 皆 會 通 過 卡 方 檢 定 測 試, 這 與 我 們 從 學 生 所 使 用 的 正 反 面 用 語 有 著 非 常 大 的 差 異, 所 以 卡 方 檢 定 並 不 適 合 用 來 檢 定 模 板 是 否 收 納 正 面 用 語 反 面 用 語 正 反 面 用 語 頻 率 300000 250000 200000 150000 100000 50000 0 1 89 177 265 353 441 529 617 705 793 881 969 1057 1145 1233 1321 1409 1497 1585 1673 1761 1849 1937 2025 2113 2201 2289 2377 學 生 正 反 面 用 語 編 號 圖 八 正 反 面 用 語 頻 率 分 佈 圖 卡 方 檢 定 通 過 門 檻 值 100 之 範 圍 通 過 根 號 檢 定 門 檻 值 之 範 圍 反 面 用 語 頻 率 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 500 450 400 350 300 250 200 150 100 50 0 1 386 771 1156 1541 1926 2311 2696 3081 3466 3851 4236 4621 5006 5391 5776 6161 6546 6931 7316 7701 8086 8471 8856 9241 9626 正 面 用 語 頻 率 圖 九 卡 方 檢 定 與 根 號 檢 定 門 檻 值 分 佈 圖 364
因 此 我 們 將 否 採 納 該 模 板 的 公 式 修 改 如 (2) (3),Cfeq 為 正 面 用 語 的 頻 率 Wfeq 為 反 面 用 語 的 頻 Threshold 為 所 有 正 面 用 語 頻 率 之 平 均, 而 採 納 模 板 的 條 件 是 正 面 用 語 的 頻 率 經 過 開 根 號 的 計 算 之 後 必 須 大 於 反 面 用 語 的 頻 率, 且 正 面 用 語 必 須 大 於 門 檻 值 使 用 此 公 式 是 依 據 圖 八 學 生 使 用 的 正 反 面 用 語 之 特 性 所 設 計, 依 照 每 個 正 面 用 語 得 頻 率 取 得 相 對 之 反 面 用 語 頻 率, 並 且 必 須 符 合 正 面 用 詞 非 常 頻 繁 使 用, 反 面 用 語 則 被 使 用 很 少 的 條 件, 根 號 檢 定 的 特 性 圖 如 圖 九 下 方 線 段, 根 號 檢 定 能 夠 針 對 每 一 個 正 面 用 語 頻 率 去 取 得 他 的 最 佳 反 面 用 語 頻 率 之 門 檻 值, 最 後 我 們 將 學 生 正 反 面 用 語 頻 率 共 2455 筆 利 用 (2) 公 式 做 頻 率 分 佈 分 析, 其 中 共 有 90.46% 的 模 板 符 合 根 號 檢 定 之 測 試, 不 符 合 此 檢 定 測 試 的 模 板 有 未 來 為 來, 已 經 以 經, 但 是 但 事 等 模 板, 這 些 模 板 的 前 後 文 資 訊 不 足 如 果 用 來 當 作 錯 別 字 訂 正 模 板, 則 會 非 常 容 易 引 入 雜 訊 Cfreq > Wfreq, Cfreq > Threshold (2) Threshold n Cvocabulary( i) i= = 1 n (3) ( 四 ) 斷 詞 軟 體 應 用 上 述 檢 定 公 式 與 Close test 處 理 根 據 我 們 實 驗 與 觀 察,2 個 字 的 詞 彙 仍 然 非 常 容 易 造 成 False alarm, 這 個 原 因 是 2 字 的 詞 彙 過 短 容 易 與 其 他 詞 彙 發 生 重 疊 的 現 象 範 例 如 圖 十, 如 果 用 一 個 正 面 詞 彙 如 擁 有 去 擷 取 反 面 用 語, 則 會 如 圖 十 般 將 雍 有 以 有 都 收 入, 但 在 一 個 人 可 以 有 很 多 快 樂 這 句 範 例 中, 以 有 中 的 以 字 應 屬 於 可 以 這 個 詞 彙 一 個 人 可 雍 有 很 多 快 樂 擁 有 一 個 人 可 以 有 很 多 快 樂 圖 十 詞 彙 重 疊 現 象 範 例 斷 詞 軟 體 能 夠 將 正 確 的 詞 彙 斷 詞, 而 含 有 別 字 的 詞 彙 則 無 法 正 確 斷 出 詞 彙 如 圖 十 一, 因 此 我 們 使 用 這 個 特 性 將 Corpus 利 用 斷 詞 軟 體 [13] 斷 詞, 藉 以 用 來 擷 取 更 正 確 的 2 字 詞 彙 模 板, 我 們 會 將 正 確 斷 詞 的 詞 彙 移 除 接 著 將 剩 餘 單 字 詞 合 併 用 來 擷 取 模 板 用 最 後 由 我 們 系 統 自 動 產 生 的 模 板 如 圖 十 二 一 個 人 可 雍 有 很 多 快 樂 人 可 雍 有 擁 有 一 個 人 可 以 有 很 多 快 樂 圖 十 一 應 用 斷 詞 擷 取 反 面 用 語 模 板 範 例 365
三 實 驗 結 果 與 分 析 圖 十 二 經 由 我 們 系 統 所 產 生 的 部 份 模 板 ( 一 )Corpus 與 學 生 作 文 由 於 統 計 模 板 頻 率 需 要 大 量 的 語 料 資 料, 因 此 我 們 蒐 集 新 聞 語 料 庫 做 為 我 們 的 Corpus, 資 料 整 理 如 表 一 表 一 Corpus 資 料 整 理 資 料 年 份 新 聞 社 文 件 數 檔 案 大 小 Chinatimes 38,163 Chinatimes Commercial 25,812 1998-1999 Chinatimes Express 5,747 209MB Central Daily News 27,770 China Daily News 34,728 1998-1999 United Daily News 249,508 320MB United Daily News 172,421 2000-2001 United Express 91,958 Ming Hseng News 168,807 1.03GB Economic Daily News 463,873 測 試 集 是 從 學 生 作 文 中 拆 成 兩 個 部 份, 一 個 部 份 做 為 Close test 用, 另 一 部 份 則 是 用 來 Open test 用, 學 生 作 文 我 們 使 用 台 北 市 某 國 中 七 八 年 級 考 試 作 文 並 且 由 教 師 校 訂 過 錯 別 字 共 3264 篇, 每 篇 文 章 皆 輸 入 成 電 腦 可 處 理 的 格 式 如 圖 十 三, 而 我 們 的 系 統 並 不 處 理 注 音 文 以 及 不 存 在 於 Unicode 編 碼 中 之 錯 字 最 後 我 們 將 蒐 集 到 的 作 文 做 資 料 分 析 如 表 二, 從 表 格 中 我 們 可 以 看 出 約 94% 的 作 文 用 字 皆 為 常 用 字 的 範 圍, 而 表 三 則 為 學 生 作 文 的 正 別 字 分 析 同 部 首 的 正 別 字 約 在 15% 同 音 正 別 字 約 68%, 而 非 同 部 首 同 音 字 約 為 19%, 我 們 的 作 文 統 計 分 析 結 果 與 劉 教 授 的 分 析 結 果 [8] [9] 相 近 另 外 我 們 也 統 計 學 生 常 犯 錯 誤 之 Top 10 模 板 如 表 四 366
圖 十 三 作 文 電 子 檔 的 格 式 表 二 學 生 作 文 基 本 分 析 作 文 數 平 均 級 分 作 文 平 均 字 數 平 均 別 字 數 常 用 字 比 例 Close test essay 2241 3.62 367.12 1.74 94.23% Open test essay 1023 3.61 420.02 1.94 94.33% 表 三 學 生 作 文 正 別 字 分 析 正 別 字 同 部 首 比 例 正 別 字 同 音 比 例 兩 者 皆 有 兩 者 皆 非 Close test essay 13.82% 70.27% 4.92% 20.81% Open test essay 16.96% 66.31% 2.85% 19.58% 表 四 常 犯 錯 誤 之 Top 10 模 板 Close essay 正 面 用 語 已 經 變 得 自 己 景 象 一 旦 寄 託 已 經 畢 竟 而 已 根 本 反 面 用 語 己 經 變 的 自 已 景 像 一 但 寄 托 以 經 必 竟 而 己 跟 本 Open essay 正 面 用 語 自 己 一 旦 已 經 選 擇 煩 惱 應 該 已 經 而 已 選 擇 後 悔 反 面 用 語 自 已 一 但 己 經 選 則 煩 腦 因 該 以 經 而 己 撰 擇 後 侮 ( 二 ) 實 驗 設 計 與 評 估 我 們 實 驗 的 比 較 對 象 為 [4] 所 人 工 蒐 集 的 模 板 與 發 表 過 的 偵 錯 系 統 [7] 所 產 生 的 模 板, 由 於 二 字 詞 三 字 詞 四 字 以 上 的 詞 彙 出 現 頻 率 差 異 非 常 大, 因 為 我 們 針 對 這 三 組 分 別 計 算 全 部 詞 彙 的 平 均 頻 率, 依 照 平 均 頻 率 門 檻 值 分 別 設 定 為..2300 500 100, 而 Close test 的 過 濾 門 檻 值 經 由 我 們 反 覆 實 驗 得 到 0 為 最 佳 的 設 定 評 估 的 方 式 是 使 用 Precision 與 Recall 公 式 定 義 如 下 : dr dr ( ) ( ) Micro Recall = r (4) sd Micro Precision = N N (5) (dr) Macro Recall = (6) (r) (dr) Macro Precision = (7) (sd) False alarm rate = 1 Precision (8) dr 為 每 篇 文 章 中 偵 錯 正 確 的 字 數,r 為 每 篇 文 章 中 真 正 的 錯 字 數,sd 為 每 篇 文 章 中 系 統 偵 測 出 的 錯 字 數,N 為 所 有 文 章 的 篇 數 Micro Precision 與 Micro Recall 是 以 接 近 現 實 生 活 的 偵 錯 情 形, 也 就 是 以 文 章 為 單 位 偵 錯 效 能 如 何 除 此 之 外 還 必 須 考 量 較 367
多 的 樣 本, 也 就 是 將 所 有 的 資 料 視 為 整 個 大 集 合, 所 以 我 們 使 用 Macro Recall 與 Macro Precision 來 檢 視 系 統 的 效 能 最 後 我 們 系 統 要 求 的 是 在 維 持 高 Precision 的 情 況 下 來 提 高 Recall 值, 因 為 我 們 不 希 望 給 使 用 者 太 多 False alarm ( 三 ) 實 驗 結 果 我 們 設 計 四 組 實 驗 第 一 組 實 驗 為 混 淆 字 集 應 用 於 卡 方 檢 定 時 的 實 驗 結 果, 第 二 組 為 混 淆 字 集 應 用 於 根 號 檢 定 的 實 驗 結 果, 第 三 組 為 根 號 檢 定 加 入 斷 詞 後 的 實 驗 結 果, 第 四 組 為 根 號 檢 定 所 自 動 產 生 的 模 板 加 入 人 工 蒐 集 模 板 之 後 的 實 驗 結 果 實 驗 一.. 混 淆 字 集 應 用 於 卡 方 檢 定 A: 人 工 收 集 模 板 B: 舊 系 統 自 動 產 生 模 板 C: 混 淆 字 集 應 用 於 卡 方 檢 定 100% 80% 60% 40% 20% 0% 89.21% 84.31% 80.10% 69.94% 49.55% 38.32% 32.07% 33.95% 28.10% 17.62% 10.52% 6.05% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 四 卡 方 檢 定 實 驗 結 果 實 驗 結 果 如 圖 十 四, 其 中 A 組 為 人 工 蒐 集 的 模 板 共 6,701 筆,B 組 為 我 們 發 表 過 系 統 所 產 生 的 模 板 共 19,402 筆,C 組 為 應 用 混 淆 字 集 後 使 用 卡 方 檢 定 之 系 統 產 生 的 新 模 板 共 54,253 筆, 其 中 混 淆 字 採 取 [11] 中 的 常 用 字, 不 在 常 用 範 圍 的 字 則 不 在 此 範 圍 Precision 方 面 以 人 工 蒐 集 的 模 板 為 最 佳, 而 Recall 方 面 應 用 混 淆 字 集 卡 方 檢 定 所 自 動 產 生 的 模 板 優 於 過 去 我 們 所 發 表 的 系 統, 整 體 來 說 則 還 是 以 人 工 蒐 集 的 模 板 為 最 佳, 不 過 自 動 產 生 的 模 板 在 Recall 皆 都 逼 近 人 工 蒐 集 模 板 的 數 值 實 驗 二.. 混 淆 字 集 應 用 於 根 號 檢 定 D: 人 工 收 集 模 板 E: 舊 系 統 自 動 產 生 模 板 F: 混 淆 字 集 應 用 於 根 號 檢 定 100% 80% 60% 40% 20% 0% 91.27% 89.21% 80.10% 69.94% 62.60% 38.32% 32.69% 33.95% 28.10% 17.62% 10.08% 6.05% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 五 根 號 檢 定 實 驗 結 果 368
實 驗 結 果 如 圖 十 五,D E 組 與 實 驗 一 的 A B 相 同,F 組 為 應 用 混 淆 字 集 後 使 用 根 號 檢 定 之 後 系 統 產 生 的 新 模 板 共 50,467 筆 與 實 驗 一 最 大 的 不 同 處 是 根 號 檢 定 在 Precision 方 面 皆 比 卡 方 檢 定 來 得 優 異 許 多 其 中 以 Macro 提 昇 最 多, 在 Recall 方 面 Micro 些 微 提 昇 Macro 則 是 些 微 下 降 由 此 實 驗 可 以 得 知 過 去 卡 方 檢 定 的 檢 定 模 板 方 式 讓 許 多 noise 進 入 造 成 Precision 的 下 降, 改 用 根 號 檢 定 的 檢 定 方 式 可 以 改 善 以 往 的 缺 點 實 驗 三.. 加 入 斷 詞 系 統 100% 80% 60% 40% 20% 0% G: 混 淆 字 集 + 卡 方 檢 定 H: 混 淆 字 集 + 根 號 檢 定 I: 混 淆 字 集 與 斷 詞 系 統 + 根 號 檢 定 95.55% 91.27% 84.31% 73.58% 62.60% 49.55% 32.69% 32.07% 29.24% 10.08% 10.52% 7.43% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 六 應 用 斷 詞 之 檢 定 比 較 實 驗 結 果 如 圖 十 六,G 組 為 實 驗 一 C 組 之 卡 方 檢 定 模 板,H 組 為 實 驗 二 F 組 之 根 號 檢 定 模 板,I 組 為 H 組 應 用 斷 詞 軟 體 後 自 動 產 生 的 新 模 板 共 9,013 筆 由 於 斷 詞 軟 體 的 使 用 讓 斷 詞 更 準 確, 因 此 模 板 產 生 數 跟 前 面 兩 個 實 驗 相 比 較 降 低 不 少, 在 Precision 方 面 可 以 發 現 不 論 Micro 或 Macro 都 比 使 用 斷 詞 軟 體 前 的 模 板 在 準 確 度 有 更 進 一 步 的 提 昇, 但 是 在 Recall 部 份 則 是 下 降 3% 左 右, 這 是 追 求 Precision 所 犧 牲 的 地 方 實 驗 四.. 混 合 人 工 蒐 集 模 板 J: 人 工 收 集 模 板 K: J 組 +F 組 L: J 組 +I 組 100% 80% 60% 40% 20% 89.21% 87.63% 84.14% 43.31% 38.32% 40.01% 69.94% 68.73% 65.86% 23.63% 17.62% 19.48% 0% Micro Precision Micro Recall Macro Precision Macro Recall 圖 十 七 比 較 混 合 人 工 蒐 集 模 板 之 效 能 實 驗 結 果 如 圖 十 七,J 組 為 實 驗 一 A 組 人 工 蒐 集 的 模 板 共 6,701 筆,K 組 為 實 驗 二 F 組 根 號 檢 定 模 板 與 J 組 人 工 蒐 集 的 模 板 混 合 使 用 共 57,167 筆,L 組 為 實 驗 三 I 組 應 用 斷 詞 軟 體 之 根 號 檢 定 模 板 與 J 組 人 工 蒐 集 的 模 板 混 合 使 用 共 15,713 筆 Precision 方 面 混 合 人 工 蒐 集 模 板 後 的 自 動 產 生 模 板 皆 下 降 到 人 工 蒐 集 模 板 水 平 附 近, 而 跟 實 驗 三 比 較 369
Recall 方 面 在 Micro 與 Macro 部 份 皆 有 大 幅 度 的 提 昇, 這 也 表 示 我 們 的 系 統 具 有 可 擴 充 性, 如 果 加 入 適 當 的 模 板 能 夠 使 用 系 統 的 偵 錯 範 圍 更 進 一 步 的 提 昇 以 混 淆 字 為 基 礎 來 產 生 模 板 的 新 系 統 理 當 可 以 掌 握 70~80% 的 錯 別 字, 但 是 經 由 我 們 的 實 驗 卻 發 現 自 動 產 生 的 模 板 在 Recall 值 方 面 的 提 昇 非 常 有 限, 這 個 現 象 我 們 將 在 下 節 做 數 據 分 析 ( 四 ) 實 驗 結 果 分 析 用 來 分 析 的 模 板 我 們 使 用 實 驗 三 中 的 應 用 斷 詞 軟 體 之 根 號 檢 定 自 動 產 生 的 新 模 板 共 9,013 筆 做 為 分 析 模 板, 因 為 這 組 模 板 比 較 符 合 我 們 當 初 所 預 期 之 在 維 持 高 Precision 的 情 況 下 來 提 高 Recall 值 1 Precision 方 面 利 用 反 面 模 板 來 偵 測 錯 誤 理 當 能 夠 讓 Precision 達 成 100%, 但 是 經 由 我 們 實 驗 結 果 發 現 卻 不 是 如 此, 我 們 將 Open test 中 系 統 偵 錯 部 份 造 成 False alarm 提 出 討 論 如 表 五 根 據 [12] 垃 圾 桶 垃 圾 筒 奇 蹟 奇 跡 電 線 桿 電 線 杆 銷 聲 匿 跡 消 聲 匿 跡, 可 以 得 知 此 四 組 模 板 為 通 用 詞, 而 一 再 一 在 則 牽 涉 到 語 意 層 面 再 這 邊 並 不 適 合 使 用 模 板 的 方 式 來 偵 錯, 放 聲 大 哭 放 聲 大 叫 不 用 說 不 用 講 讀 書 人 讀 書 做 則 是 我 們 系 統 收 納 到 不 適 合 的 模 板,Precision 無 法 達 到 100% 就 是 上 述 原 因 所 導 致 表 五 部 份 False alarm 模 板 正 面 用 語 垃 圾 桶 奇 蹟 電 線 桿 銷 聲 匿 跡 一 再 放 聲 大 哭 不 用 說 讀 書 人 反 面 用 語 垃 圾 筒 奇 跡 電 線 杆 消 聲 匿 跡 一 在 放 聲 大 叫 不 用 講 讀 書 做 2 Recall 方 面 我 們 將 學 生 所 書 寫 正 反 面 用 語 模 板 與 我 們 系 統 所 產 生 的 模 板 做 個 分 析 如 表 六 其 中 沒 產 生 到 的 模 板 為 我 們 系 統 所 沒 有 產 生 到 的 模 板, 不 在 辭 典 為 在 沒 有 產 生 到 的 模 板 中 其 正 面 用 語 不 在 辭 典 中, 不 在 Corpus 為 在 沒 有 產 生 到 的 模 板 中 其 反 面 用 語 不 在 Corpus 中, 兩 者 皆 是 為 正 面 用 語 不 再 辭 典 中 同 時 相 對 應 反 面 用 語 也 不 在 Corpus 中 從 沒 產 生 到 的 模 板 數 值 可 以 發 現, 絕 大 部 分 學 生 所 書 寫 得 模 板 並 沒 有 被 我 們 自 動 產 生, 再 從 不 在 辭 典 與 不 在 Corpus 數 值 中 相 加 並 且 扣 除 兩 者 皆 有 的 部 份, 可 得 知 Close test essay 有 53.17% 的 模 板 與 Open test essay 有 32.97%, 是 我 們 的 系 統 無 法 自 動 產 生 出 來, 因 為 我 們 的 系 統 自 動 產 生 模 板 是 基 於 正 確 詞 彙 與 Corpus 曾 經 有 人 使 用 過 該 反 面 用 語 至 於 不 存 於 辭 典 的 詞 彙 如 表 七, 可 以 將 這 些 詞 彙 加 入 辭 典 這 樣 便 可 以 克 服 此 問 題, 而 不 存 在 於 Corpus 的 反 面 用 語 則 必 須 蒐 集 更 大 量 的 Corpus 語 料 庫, 以 便 能 夠 蒐 集 到 此 類 的 反 面 模 板 370
表 六 學 生 模 板 與 系 統 模 板 分 析 沒 產 生 到 的 模 板 不 在 辭 典 不 在 Corpus 兩 者 皆 是 Close test essay 91.53% 37.73% 35.64% 20.20% Open test essay 93.15% 16.27% 23.94% 7.24% 表 七 部 份 未 收 入 辭 典 之 詞 彙 佈 告 欄 蒸 飯 機 值 日 生 作 業 本 辦 派 對 睡 午 覺 全 班 齊 心 勤 加 練 習 羞 恥 心 無 厘 頭 重 拾 信 心 莽 莽 撞 撞 淘 汱 漆 彈 場 偶 像 劇 積 陰 德 融 入 團 體 芬 多 精 燒 炭 拉 筋 四 結 論 及 未 來 工 作 根 據 我 們 應 用 混 淆 字 集 根 號 檢 定 公 式 與 斷 詞 軟 體, 我 們 能 夠 省 去 人 工 蒐 集 產 生 模 板 用 種 子 的 流 程, 並 且 能 夠 產 生 以 詞 彙 為 基 礎 的 模 板 如 圖 十 二, 改 進 過 去 發 表 過 的 系 統 模 板 如 圖 二 非 詞 彙 基 礎 的 模 板, 給 予 使 用 者 更 明 確 的 訂 正 資 訊 使 用 根 號 檢 定 公 式 也 經 由 實 驗 得 知 確 實 能 夠 比 卡 方 檢 定 所 自 動 產 生 的 模 板 有 較 佳 的 Precision, 最 後 藉 由 斷 詞 軟 體 斷 詞 後 的 Corpus 也 經 由 實 驗 證 實 能 夠 更 進 一 步 提 昇 系 統 的 Precision, 而 Recall 部 份 也 能 透 過 持 續 增 加 適 合 的 模 板 來 增 加 偵 測 率 在 未 來 我 們 會 蒐 集 混 淆 字 集 所 沒 辦 法 產 生 的 模 板 產 生 種 子, 也 會 持 續 蒐 集 更 符 合 學 生 作 文 的 文 章 來 取 代 新 聞 語 料 庫, 詞 彙 方 面 則 會 透 過 大 型 詞 彙 庫 或 線 上 資 源 如.. 維 基 百 科, 來 增 加 我 們 辭 典 的 詞 彙 數, 最 後 我 們 預 計 使 用 學 生 的 作 文 產 生 含 別 字 之 語 言 模 型, 利 用 該 語 言 模 型 來 智 慧 偵 錯 以 輔 助 模 板 偵 錯 所 沒 有 蒐 集 到 的 錯 誤 模 板 致 謝 本 研 究 依 經 濟 部 補 助 財 團 法 人 資 訊 工 業 策 進 會 98 年 度 智 慧 型 網 路 服 務 技 術 與 應 用 計 畫 (2/4) 辦 理 參 考 文 獻 [1] Lei Zhang, Chang ning Huang, Ming Zhou, Haihua Pan, Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm, Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, pp: 248-254, 2000. [2] Ren, F., Shi, H., Zhou, Q., A hybrid approach to automatic Chinese text checking and error correction, In Proceedings of the ARPA Work shop on Human Language Technology, pp: 76-81, March 1994. [3] MOE, Common Errors in Chinese Writings ( 常 用 國 字 辨 似 ), Ministry of Education, Taiwan, 1996. [4] Ta-Hung Hung., & Shih-Hung Wu, Chinese Essay Error Detection and Suggestion System. Taiwan E-Learning Forum, 2008. 371
[5] Cheng-Lung Sung., Cheng-Wei Lee., Hsu-Chun Yen., Wen-Lian Hsu, An Alignment-based Surface Pattern for a Question Answering System, the IEEE International Conference on Information Reuse and Integration, pages pp. 172-177, 2008. [6] D. Ravichandran., & E. Hovy, Learning surface text patterns for a Question Answering system, in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pp. 41-47, 2001. [7] 陳 勇 志, 吳 世 弘, 盧 家 慶, 谷 圳, 中 文 作 文 錯 別 字 偵 錯 模 板 自 動 產 生, The 13th Global Chinese Conference on Computer in Education, pp. 402-408, 2009. [8] Chao-Lin Liu, Kan-Wen Tien, Min-Hua Lai, Yi-Hsuan Chuang, Shih-Hung Wu, Phonological and logographic influences on errors in written Chinese words, Proceedings of the Seventh Workshop on Asian Language Resources, the Forty Seventh Annual Meeting of the Association for Computational Linguistics, August 2009. [9] Chao-Lin Liu, Kan-Wen Tien, Min-Hua Lai, Yi-Hsuan Chuang, Shih-Hung Wu, Capturing errors in written Chinese words, Proceedings of the Forty Seventh Annual Meeting of the Association for Computational Linguistics, August 2009. [10] Chao-Lin Liu and Jen-Hsiang Lin, Using structural information for identifying similar Chinese characters, Proceedings of the Forty Sixth Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, June 2008. [11] 國 語 推 行 委 員 會, 八 十 七 年 常 用 語 詞 調 查 報 告 書, National Languages Committee, Taiwan, 1998. [12] MOE, 教 育 部 重 編 國 語 辭 典 修 訂 本, Ministry of Education, Taiwan, 2007. [12] CKIP, "Autotag," Academia Sinica, 1999. 372