The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 148-163 The Association for Computational Linguistics and Chinese Language Processing 基 於 已 知 名 稱 搜 尋 結 果 的 網 路 實 體 辨 識 模 型 建 立 工 具 A Tool for Web NER Model Generation Using Search Snippets of Known Entities 黃 雅 筠 Ya-Yun Huang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University a2425320032002@gmail.com 張 嘉 惠 Chia-Hui Chang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University chia@csie.ncu.edu.tw 周 建 龍 Chia-Hui Chang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University formatc.chou@gmail.com 摘 要 在 過 去, 命 名 實 體 辨 識 (NER) 研 究 都 以 新 聞 報 導 等 正 式 文 章 中 的 人 名 地 名 組 織 名 稱 為 主, 相 對 地 以 網 路 的 非 正 式 文 章 則 著 墨 較 少 因 此, 現 有 的 辨 識 模 組 對 於 網 頁 內 容 的 辨 識 效 果 顯 得 較 差, 當 需 要 辨 識 網 頁 內 容 中 的 命 名 實 體 時, 勢 必 要 重 新 訓 練 辨 識 模 組 然 而, 訓 練 一 個 模 型 的 時 間 和 人 力 成 本 非 常 高, 包 含 前 置 的 大 量 訓 練 資 料 準 備 人 工 收 集 及 標 記 答 案, 且 為 了 提 升 模 組 辨 識 效 果, 必 須 要 為 資 料 做 適 當 切 割 符 號 統 一 正 規 化, 以 及 特 徵 值 的 設 計 準 備 已 知 關 鍵 詞 庫 (Dictionary) 等, 工 作 非 常 瑣 碎 複 雜 此 外, 對 於 不 同 語 言 或 不 同 辨 識 主 題 則 需 重 複 上 述 工 作 本 論 文 的 目 的, 期 能 解 決 上 述 命 名 實 體 辨 識 工 作 過 於 費 力 耗 時 的 問 題, 經 由 給 定 已 知 實 體 名 稱 的 搜 尋 結 果 來 自 動 標 記 訓 練 資 料, 並 結 合 Chou 及 Chang [2] 於 2014 年 在 網 頁 中 文 人 名 的 辨 識 研 究 之 Tri-training 半 監 督 式 訓 練 架 構 來 產 生 NER 模 組 實 驗 證 實, 使 用 本 工 具 可 以 套 用 在 不 同 語 言 及 類 型 的 命 名 實 體 辨 識, 在 中 文 組 織 名 稱 辨 識 的 效 能 可 達 到 86.1%, 在 日 文 組 織 名 稱 辨 識 的 效 能 可 達 到 80.3%, 在 英 文 組 織 名 稱 辨 識 的 效 能 可 達 到 83.2%, 辨 識 不 同 主 題 的 中 文 地 點 名 稱 辨 識 效 能 可 達 到 84.5%, 另 外, 辨 識 較 長 的 命 名 實 體 如 中 文 地 址 及 英 文 地 址 辨 識 效 能 也 可 達 到 97.2% 及 94.8% Abstract Named entity recognition (NER) is of vital importance in information extraction and natural language processing. Current NER models are trained mainly on journalistic documents such as news articles. Since they have not been trained to deal with informal documents, the performance drops on Web documents, which may lack sentence structure and contain colloquial expression. Therefore, the State-of-the-art NER systems do not work well on Web 148
documents. When users want to recognize named entity from Web documents, they certainly have to retrain the new model. Retraining a new model is labor intensive and time consuming. The preparatory work includes preparing a large set of training data, labeling named entity, selecting an appropriate segmentation, symbols unification, normalization, designing feature, preparing dictionary, and so on. Besides, users need to repeat the previous work for different languages or different recognition types. In this research, we propose a NER model generation tool for effective Web entity extraction. We propose a semi-supervised learning approach for NER model training via automatic labeling and tri-training, which makes use of unlabeled data and structured resources containing known named entities. Experiments confirmed that the use of this tool can be applied in different languages for various types of named entities. In the task of Chinese organization name extraction, the generated model can achieve 86.1% F1 score on the 38,692 sentences with 16,241 distinct names, while the performance for Japanese organization name, English organization name, Chinese location name extraction, Chinese address recognition and English address recognition can be reached 80.3%, 83.2%, 84.5%, 97.2% and 94.8% F1-measure, respectively. 關 鍵 詞 : 命 名 實 體 辨 識, 協 同 訓 練,Tri-Training Keywords: Named Entity Recognition, Co-Training, Tri-Training. 一 緒 論 命 名 實 體 辨 識 是 自 然 語 言 處 理 的 一 項 重 要 基 礎 工 作, 其 辨 識 正 確 率 對 後 續 的 語 意 分 析 (Semantic Analysis) 機 器 翻 譯 (Machine Translation) 等 自 然 語 言 處 理 議 題 具 重 大 的 影 響 在 大 量 文 字 資 料 中, 常 有 人 名 地 名 組 織 名 等 有 意 義 的 專 有 名 稱 出 現, 然 而 因 應 社 會 需 要 及 科 技 發 展, 這 些 不 斷 被 創 造 的 詞 彙, 難 以 被 單 一 詞 庫 所 收 藏, 因 此 需 有 命 名 實 體 辨 識 以 便 擴 充 詞 庫 不 同 類 型 的 命 名 實 體 出 現 於 語 句 中 的 位 置 規 則 或 詞 性 皆 不 相 同, 因 此 需 要 的 特 徵 值 也 都 不 同 以 中 文 組 織 名 稱 辨 識 為 例, 目 前 許 多 關 於 組 織 名 稱 辨 認 的 研 究, 主 要 是 從 新 聞 或 一 些 較 正 式 的 文 章 中 訓 練 組 織 名 稱 擷 取 模 型 [7] [11] [13], 但 是 網 路 上 商 家 組 織 名 稱 傾 向 較 不 正 式 的 命 名 方 式, 例 如 : 彼 得 公 雞 地 中 海 餐 廳 造 紙 龍 手 創 館 等, 而 新 聞 等 較 正 式 的 體 裁 則 容 易 出 現 公 司 行 號 與 正 規 的 組 織 名 稱, 如 : 伊 甸 基 金 會 國 立 中 央 大 學 高 鐵 公 司 等, 且 網 路 上 發 表 於 論 壇 或 社 群 媒 體 的 文 章 語 句 結 構 與 用 字 遣 詞 皆 與 正 式 文 章 不 同, 因 此 辨 識 效 果 不 佳 如 表 一 以 及 表 二 所 示, 我 們 利 用 2,000 筆 已 知 地 址 為 查 詢 關 鍵 字, 於 Google 搜 尋 結 果 片 段 (Search Snippets) 中 包 含 關 鍵 字 的 句 子 為 測 試 資 料, 再 使 用 Stanford NER 1 (Named Entity Recognizer) 來 做 組 織 名 稱 辨 識 實 驗,F1 效 果 只 能 達 到 54.3% 另 外, 我 們 也 利 用 200 筆 中 文 地 點 名 稱 為 查 詢 關 鍵 字, 利 用 Google search snippets 包 含 關 鍵 字 的 句 子 為 測 試 資 料, 同 樣 利 用 Stanford NER 來 做 地 點 名 稱 辨 識 實 驗,F1 效 果 僅 達 20.1% 顯 示 現 有 的 公 開 NER 工 具 對 於 Web 上 非 正 式 文 章 的 命 名 實 體 辨 識 效 果 有 限, 並 導 致 後 續 的 相 關 研 究 效 能 有 限 命 名 實 體 辨 識 可 視 為 序 列 標 記 (Sequence Labeling) 的 問 題, 故 通 常 使 用 Conditional Random Field(CRF) 來 解 決 此 問 題,CRF 為 一 機 率 架 構 的 無 向 圖 (Undirected Graphical) 模 型, 常 用 於 標 注 序 列 資 料 我 們 利 用 開 放 的 CRF++[3] 程 式 進 行 實 驗, 為 了 使 CRF 標 記 能 有 好 的 準 確 率, 我 們 必 須 處 理 原 始 大 量 文 字 資 料, 包 含 人 工 收 集 答 案 標 記 答 案 等, 同 時 為 了 提 升 模 組 辨 識 效 果 也 必 須 要 為 資 料 做 適 當 切 割 選 擇 斷 詞 工 具 統 一 符 號 數 1 http://nlp.stanford.edu/software/crf-ner.shtml 149
值 正 規 化, 以 及 準 備 具 有 鑑 別 度 的 特 徵 值 或 設 計 已 知 辭 典 等 若 要 辨 識 不 同 的 語 言 或 不 同 類 型 的 命 名 實 體, 就 要 重 複 以 上 的 動 作 來 完 成 工 作, 造 成 了 不 少 人 力 與 時 間 的 浪 費, 因 此 在 本 篇 論 文 中 我 們 將 以 上 的 動 作 模 組 化, 並 將 其 整 合 成 一 個 命 名 實 體 辨 識 模 型 的 產 生 工 具 表 一 以 Snippets 為 測 試 資 料 對 Stanford NER 測 試 效 能 Testing Data Chinese Organization Name Chinese Location Name # Queries 2,000 200 # Sentences 38,692 2,638 # Distinct Entities 16,241 600 表 二 Stanford NER 對 Snippets 為 資 料 來 源 之 辨 識 效 果 Stanford NER Task Precision Recall F-measure Chinese Organization Name 0.518 0.542 0.530 Chinese Location Name 0.215 0.188 0.201 使 用 本 工 具 可 方 便 的 訓 練 不 同 語 言 類 型 的 命 名 實 體 辨 識 模 組, 我 們 使 用 欲 辨 識 的 命 名 實 體 列 表 為 本 工 具 的 輸 入, 於 網 路 收 集 大 量 的 Google 搜 尋 結 果 片 段, 透 過 自 動 標 記 (Automatic Labeling) 與 特 徵 值 的 準 備, 產 生 訓 練 資 料 為 了 減 少 命 名 實 體 標 記 不 完 整 的 問 題, 以 中 文 組 織 為 例, 我 們 不 只 利 用 單 一 的 組 織 名 稱 來 協 助 標 記 ( 稱 之 為 UniLabeling), 也 採 用 所 有 已 知 的 組 織 名 稱 來 進 行 標 記 ( 稱 之 為 FullLabeling) 因 自 動 標 記 可 能 造 成 訓 練 資 料 品 質 不 佳, 因 此 我 們 採 用 自 我 測 試 (Self-Testing) 能 進 一 步 改 善 資 料 品 質, 再 藉 由 半 監 督 式 學 習 (Semi-supervised learning) 方 法, 引 入 Tri-Training 增 加 訓 練 資 料 量, 提 升 辨 識 模 型 之 正 確 率 實 驗 顯 示 系 統 在 中 文 組 織 名 稱 辨 識 部 份 以 Tri-Training 演 算 法 確 實 使 得 F-Measure 更 進 一 步 提 升 至 86.1%, 而 在 日 文 組 織 名 稱 而 在 英 文 組 織 名 稱 中 文 景 點 名 稱 也 可 達 到 80.3%, 83.2%, 84.5% 效 能 ; 另 外 在 長 命 名 實 體 中 文 地 址 以 及 英 文 地 址 的 擷 取 上, F-Measure 辨 識 效 果 也 分 別 達 到 97.2% 及 94.8% 二 相 關 研 究 命 名 實 體 辨 認 屬 於 資 訊 擷 取 與 自 然 語 言 處 理 的 一 個 共 同 分 支, 也 是 許 多 應 用 領 域 的 重 要 基 礎 工 具, 自 非 結 構 化 文 字 中 識 別 具 有 特 定 意 義 的 命 名 實 體, 如 人 名 地 名 組 織 名 稱, 亦 或 命 名 實 體 相 關 屬 性 如 電 子 郵 件 地 址 及 專 有 名 詞 等, 目 前 有 許 多 中 文 組 織 名 稱 及 中 文 人 名 辨 識 的 研 究, 利 用 序 列 標 記 配 合 機 率 統 計 模 型 是 主 要 辨 識 方 式 辨 識 正 式 文 章 中 文 命 名 實 體 Zhang 等 人 [13] 於 2007 年 將 多 個 CRF 模 型 串 連 起 來 進 行 組 織 名 稱 辨 識, 採 用 的 特 徵 值 包 含 是 否 為 前 級 輸 出 的 各 種 命 名 實 體 常 見 的 組 織 名 稱 開 頭 內 容 與 結 尾 N-gram 並 以 中 文 人 民 日 報 新 聞 稿 當 作 訓 練 資 料, 其 最 終 的 中 文 組 織 名 稱 辨 識 Recall 可 以 達 到 88.78%,Precision 可 達 到 82.35% 2011 年 Yao[11] 將 中 文 組 織 名 稱 分 為 三 個 部 份 包 含 前 置 詞 (Prefix words) 中 間 詞 (Middle words) 記 號 詞 (Mark words), 舉 例 來 說 : 中 國 移 動 通 訊 公 司 可 以 拆 成 中 國 + 移 150
動 通 訊 + 公 司, 考 慮 中 文 組 織 名 稱 的 出 現 頻 率 詞 性 與 長 度, 並 配 合 自 行 設 計 的 統 計 方 法 實 驗 使 用 了 人 民 網 的 語 料 進 行 訓 練, 以 人 民 網 新 華 網 和 北 京 郵 電 大 學 網 站 首 頁 的 新 聞 當 作 測 試 資 料, 其 中 文 組 織 名 稱 辨 識 Recall 可 以 達 到 87.24%,Precision 可 達 到 95.9% 2012 年 Ling 等 人 [7] 將 中 文 組 織 名 稱 語 料 斷 詞 後 拆 解 為 多 個 修 飾 詞 (Modifiers)+ 核 心 特 徵 詞 (Core Feature Word) 在 統 計 訓 練 資 料 後, 找 出 常 用 的 核 心 特 徵 詞, 建 立 核 心 特 徵 詞 庫 當 作 組 織 名 稱 的 結 尾, 並 以 特 徵 判 斷 組 織 名 稱 的 起 點 取 得 候 選 者 之 後, 利 用 規 則 式 的 辨 認 方 法 (Rule-based Named-Entity Recognition) 進 行 修 正 最 後 的 實 驗 結 果 顯 示, F-measure 最 高 可 達 到 85.7% 辨 識 非 正 式 文 章 中 文 命 名 實 體 目 前 已 經 有 許 多 如 上 述 在 正 式 文 章 中 的 中 文 組 織 名 稱 辨 認 ( CONER, Chinese Organization Named Entity Recognition) 研 究 [7][11][13], 但 用 這 類 訓 練 資 料 產 生 的 模 型 在 網 頁 及 社 群 媒 體 短 文 等 非 正 式 文 章 中 的 辨 識 效 果 較 不 理 想 為 了 解 決 這 個 問 題,Lin 等 人 在 2014 年 [6], 以 中 華 黃 頁 網 站 取 得 的 商 家 名 稱 對 網 頁 語 料 進 行 自 動 標 記 (Automatic Labeling), 再 利 用 自 動 標 記 後 的 語 料 訓 練 CRF 序 列 標 記 模 型 在 包 含 地 址 網 頁 以 及 Google 搜 尋 引 擎 進 行 查 詢 所 回 傳 的 搜 尋 結 果 片 段 兩 種 資 料 中 使 用 所 有 商 家 名 稱 來 進 行 標 記 ( 稱 之 為 Full-Labeling) 來 建 立 測 試 資 料 在 包 含 地 址 網 頁 中 文 商 家 名 稱 辨 識 F-measure 僅 達 39.8%; 而 搜 尋 結 果 片 段 的 F-measure 可 達 為 79.1% 我 們 認 為 前 者 效 能 不 佳 的 原 因, 可 能 在 於 不 同 網 頁 的 文 句 的 變 異 較 大 且 切 割 的 困 難, 此 外 Lin 等 人 [6] 採 用 斷 詞 分 析 語 句, 但 經 過 斷 詞 後 邊 界 錯 誤 的 問 題 會 較 為 嚴 重 在 Google 搜 尋 為 資 料 來 源 部 分,Lin 等 人 [6] 採 用 完 整 Google 搜 尋 結 果 片 段 進 行 訓 練, 過 長 的 結 果 片 段 會 致 使 訓 練 時 間 拉 長, 也 難 有 好 的 辨 識 效 果 本 篇 論 文 延 續 Chou 及 Chang [2] 於 2014 在 網 頁 中 文 人 名 的 辨 識 研 究 中, 為 了 解 決 訓 練 資 料 過 少 導 致 辨 識 效 果 不 佳 的 問 題, 使 用 網 路 爬 蟲 於 網 際 網 路 上 自 動 收 集 大 量 包 含 中 文 姓 名 的 資 料, 並 自 動 標 記 已 知 的 人 名 為 答 案, 作 為 訓 練 資 料 之 用 由 於 自 動 標 記 答 案 會 有 資 料 品 質 較 差 的 固 顧 慮, 為 提 升 訓 練 資 料 的 品 質,Chou 等 人 也 引 入 自 我 測 試 Self-Testing 方 法 保 留 可 信 度 較 高 的 訓 練 資 料 ; 同 時 為 了 能 利 用 未 標 記 的 資 料, 也 改 良 Zhou 等 人 於 2005 發 表 的 原 始 半 監 督 式 Tri-Training 演 算 法 [12], 使 得 自 未 標 記 資 料 (U) 中 選 取 的 新 增 訓 練 資 料 量 足 以 對 效 能 產 生 影 響, 以 提 升 辨 識 正 確 率, 最 終 F-measure 可 達 到 91.3% 三 系 統 架 構 我 們 設 計 的 Web NER 模 組 產 生 系 統 主 要 是 接 受 使 用 者 提 供 的 命 名 實 體 列 表, 從 Google 搜 尋 結 果 片 段 中 進 行 自 動 標 記 產 生 標 記 訓 練 資 料, 再 藉 由 關 鍵 詞 庫 (Dictionary) 建 立 特 徵 值 擷 取 (Feature Extraction), 運 用 CRF 建 模 同 時 為 彌 補 自 動 標 記 之 不 足, 我 們 採 用 Self-Testing 與 半 監 督 式 Tri-Training 訓 練 改 善 標 記 錯 誤 及 標 記 不 完 全 等 問 題, 以 達 到 辨 識 效 能 提 升 的 目 的 相 較 於 收 集 訓 練 語 句 再 由 人 工 標 記 命 名 實 體, 由 使 用 者 提 供 大 量 命 名 實 體 範 例 再 由 系 統 從 Web 收 集 訓 練 語 句 並 自 動 標 記 的 成 本 相 對 少 很 多 系 統 架 構 如 圖 一, 主 要 模 組 包 括 訓 練 資 料 收 集 模 組 自 動 標 記 模 組 特 徵 值 擷 取 模 組 Tri-Training 訓 練 模 組 及 測 試 擷 取 模 組, 將 於 本 章 節 中 詳 細 描 述 151
3.1 資 料 收 集 與 自 動 標 記 模 組 為 減 少 人 工 準 備 資 料 的 負 荷, 本 系 統 利 用 使 用 者 輸 入 的 命 名 實 體 列 表 作 為 Google 搜 尋 的 查 詢 詞, 收 集 Google 搜 尋 引 擎 回 傳 的 前 N 筆 搜 尋 結 果 片 段 在 本 研 究 訓 練 資 料 準 備 部 份 使 用 Google 搜 尋 引 擎 回 傳 的 前 5 筆 搜 尋 結 果 片 段, 而 測 試 資 料 則 收 集 Google 搜 尋 引 擎 回 傳 的 前 10 筆 搜 尋 結 果 片 段 圖 一 系 統 架 構 圖 自 動 標 記 命 名 實 體 以 往 CRF 序 列 標 記 模 型 的 訓 練 資 料 皆 為 人 工 方 式 產 生, 雖 然 資 料 的 品 質 可 以 信 賴, 但 需 花 費 大 量 的 時 間 與 人 力 由 於 人 工 對 搜 尋 結 果 片 段 進 行 答 案 標 記 成 本 過 高, 為 此, 本 工 具 使 用 已 知 的 命 名 實 體 作 為 答 案, 對 搜 尋 結 果 片 段 內 容 進 行 自 動 標 記, 該 標 記 即 為 欲 擷 取 的 目 標, 如 此 可 以 節 省 大 量 訓 練 資 料 標 記 成 本 基 於 Lin 等 人 [6] 的 研 究 顯 示, 使 用 單 一 的 商 家 名 稱 來 自 動 標 記 ( 稱 之 為 UniLabeling) 的 辨 識 效 果 較 採 用 所 用 商 家 名 稱 來 進 行 標 記 ( 稱 之 為 FullLabeling) 要 來 的 差, 原 因 是 在 UniLabeling 模 型 中, 資 料 含 有 較 多 標 記 不 完 全 的 雜 訊, 使 得 效 能 下 降 ; 而 FullLabeling 模 型 使 用 所 有 的 商 家 名 稱 進 行 標 記, 因 此 雜 訊 大 幅 減 少 為 減 少 雜 訊 影 響, 本 系 統 採 用 FullLabeling 的 方 式 進 行 自 動 標 記 比 對 法 標 記 長 命 名 實 體 自 動 標 記 的 挑 戰 在 於 對 於 較 長 拼 音 文 字 的 命 名 實 體 使 用 完 全 相 配 (Exact Match) 並 不 能 有 效 的 標 記 這 是 因 為 較 長 拼 音 文 字 的 命 名 實 體 在 不 正 式 網 頁 文 章 中 的 書 寫 方 式 相 較 正 式 文 章 具 有 彈 性, 例 如 英 文 地 址 在 正 式 書 寫 時 會 有 固 定 格 式 拼 寫 以 及 縮 寫 方 式 一 致 等 規 定 但 我 們 利 用 1131 Mountain Rd NW, Albuquerque, NM 87102 在 Google 搜 尋 時, 雖 然 雙 引 號 ( ) 能 限 制 搜 尋 結 果 都 要 有 包 含 搜 尋 詞, 但 雙 引 號 並 不 能 保 證 搜 尋 結 果 片 段 內 容 中 的 命 名 實 體 與 搜 尋 詞 完 全 一 致, 搜 尋 結 果 片 段 中 就 算 是 在 搜 尋 詞 中 穿 插 不 同 標 點 符 號, 或 是 沒 有 任 何 標 點 符 號 都 會 被 搜 尋 出 來 從 圖 二 可 以 看 到 在 Google 搜 尋 前 10 筆 結 果 片 段 就 有 7 種 不 同 寫 法, 而 它 們 明 顯 都 是 表 示 此 一 地 址 152
圖 二 1131 Mountain Rd NW, Albuquerque, NM 87102 在 Google 搜 尋 得 到 多 種 寫 法 如 使 用 完 全 相 配 方 式 來 做 自 動 標 記, 這 些 地 址 將 沒 辦 法 被 標 記 出 來 為 了 處 理 較 長 命 名 實 體 可 能 因 標 點 及 縮 寫 等 問 題 無 法 被 辨 認 出 來 的 情 形, 我 們 使 用 排 比 (Alignment) 的 方 式 找 出 搜 尋 結 果 片 段 內 容 中 可 能 的 名 命 實 體 位 置 在 搜 尋 結 果 片 段 中 找 尋 目 標 命 名 實 體 時, 我 們 希 望 標 記 目 標 的 命 名 實 體 在 搜 尋 結 果 片 段 中 與 查 詢 詞 相 匹 配 的 字 越 集 中 相 鄰 越 好, 因 此 我 們 設 計 了 排 比 標 記 法 (AlignmentLabeling) 標 記 搜 尋 結 果 片 段, 再 以 排 比 搜 尋 結 果 片 段 以 及 搜 尋 詞 所 產 生 的 相 配 Match 及 間 隔 Gap 大 小, 做 為 我 們 判 斷 此 一 排 比 後 的 結 果 是 否 該 標 記 的 依 據 如 搜 尋 結 果 片 段 中 與 查 詢 詞 經 過 排 比 後 符 合 (1) 相 配 字 數 大 於 命 名 實 體 長 度 Len 減 去 間 隔 大 小 的 一 半, 且 (2) 第 一 個 排 比 配 對 到 的 字 1 到 最 後 一 個 排 比 配 對 到 的 字 與 命 名 實 體 查 詢 詞 長 度 差 距 小 於 3, 則 系 統 將 會 標 記 為 出 現 範 例 (Mat h > Len Ga 2 ) 且 ( ( 1 ) Len < 3) 然 而 排 比 標 記 法 對 於 非 拼 音 文 字 如 中 文 應 用 的 效 果 不 如 拼 音 文 字 中 文 不 同 於 英 文, 中 文 的 縮 寫 是 從 長 句 子 中 取 具 有 代 表 性 的 字 出 來, 並 且 不 會 在 單 一 命 名 實 體 中 隨 意 加 入 標 點 符 號 再 者 本 系 統 在 對 Google 搜 尋 時 會 使 用 雙 引 號, 因 此 能 確 保 搜 尋 結 果 片 段 中 的 長 命 名 實 體 會 與 查 詢 詞 完 全 一 致, 如 此 我 們 將 可 利 用 完 全 相 配 標 記 法 (ExactMatchLabeling) 正 確 且 有 效 率 的 做 自 動 標 記 3.2 字 串 切 割 與 標 記 模 組 在 訓 練 資 料 的 準 備 上, 雖 然 可 以 採 用 完 整 Google 搜 尋 結 果 片 段 做 為 樣 本 單 元 進 行 訓 練, 但 過 長 的 句 子 會 致 使 訓 練 時 間 拉 長, 也 難 有 好 的 辨 識 效 果 但 是 搜 尋 結 果 片 段 中 的 網 頁 文 章 會 有 標 點 符 號 混 用 以 及 格 式 架 構 不 嚴 謹 的 問 題, 直 接 利 用 統 一 的 切 割 方 法 將 造 成 訓 練 樣 本 長 度 相 差 過 大 且 品 質 不 良 為 準 備 適 當 長 度 的 訓 練 句 子, 我 們 移 除 搜 尋 結 果 片 段 中 的 空 白 字 元, 利 用 自 動 標 記 的 答 案 為 基 準 取 前 後 W 字 元 為 窗 口 大 小, 在 我 們 實 驗 中, 中 文 及 日 文 設 定 W 為 20, 而 英 文 則 設 W 為 10, 將 文 字 切 為 許 多 區 塊, 以 區 塊 為 一 個 訓 練 樣 本, 最 後 去 除 重 複 的 樣 本, 如 此 可 使 訓 練 樣 本 涵 蓋 命 名 實 體, 也 能 有 適 當 的 非 命 名 實 體 範 例 圖 三 為 設 定 W 為 20 的 切 割 範 例 圖 三 中 文 組 織 名 稱 辨 識 搜 尋 片 段, 取 N=20, 以 詠 展 商 行 為 基 準 153
本 系 統 採 用 不 斷 詞 的 中 文 字 為 基 本 處 理 單 元 Token, 避 免 樣 本 因 為 錯 誤 斷 詞 產 生 命 名 實 體 被 分 割 成 兩 個 詞 的 邊 界 錯 誤 的 問 題, 減 少 錯 誤 累 積 同 時 對 於 每 一 筆 搜 尋 結 果 片 段 我 們 的 系 統 會 先 將 所 有 全 形 符 號 轉 換 成 半 形 符 號, 如 表 三 所 示 表 三 全 形 符 號 轉 換 成 半 形 符 號 範 例 圓 弧 括 號 非 圓 弧 括 號 ((( ==> ( [ { { { ==> [ 答 案 標 記 方 式 我 們 選 用 Start/End 標 記 法, 此 種 標 記 法 共 有 5 個 標 記 B I E S O, 依 序 表 示 命 名 實 體 的 開 始 中 間 結 束 單 一 序 列 單 元 以 及 非 命 名 實 體 的 序 列 單 元, 因 為 對 開 始 和 結 束 都 給 予 不 同 的 標 記, 可 以 提 昇 邊 界 的 偵 測 效 果 3.3 特 徵 值 擷 取 模 組 特 徵 值 的 提 取 是 訓 練 資 料 準 備 中 非 常 重 要 的 一 步, 常 見 的 特 徵 是 判 定 一 個 字 是 否 為 具 有 某 種 屬 性, 例 如 是 否 為 數 字 或 是 百 家 姓 等, 因 此 準 備 相 關 詞 庫 是 相 當 繁 瑣 的 一 環 一 般 說 來, 在 判 斷 一 段 文 字 是 否 是 特 定 命 名 實 體 時, 會 依 靠 兩 類 特 徵, 第 一 種 是 外 部 特 徵 (Outside Feature), 這 種 特 徵 落 在 命 名 實 體 的 左 右, 第 二 種 則 是 命 名 實 體 的 內 部 特 徵 (Inside Feature) 然 而 這 些 特 徵 往 往 必 須 要 靠 著 熟 悉 語 言 或 對 該 辨 識 領 域 了 解 的 人 來 逐 一 產 生, 如 我 們 要 針 對 中 文 以 外 的 語 言 進 行 辨 識, 關 鍵 詞 庫 就 必 須 要 由 熟 悉 該 國 語 言 且 有 足 夠 背 景 知 識 的 人 員 來 準 備 為 了 使 得 本 系 統 能 夠 避 免 這 種 語 言 能 力 及 辨 識 主 題 上 的 限 制 達 到 通 用 的 目 的, 我 們 的 做 法 為 統 計 字 詞 出 現 頻 率, 自 動 產 生 常 見 的 關 鍵 詞 庫 實 務 上, 我 們 統 計 命 名 實 體 中 的 前 一 字 兩 字 及 三 字 的 頻 率 以 及 最 後 一 字 兩 字 及 三 字 的 頻 率, 如 表 四 中 ID 4~9 舉 例 而 言, 中 文 商 家 名 稱 最 後 一 字 常 出 現 廟 莊 店 等 一 字 詞, 或 是 事 務 數 位 等 兩 字 詞, 又 或 是 基 金 會 雜 貨 店 等 三 字 詞 我 們 也 以 命 名 實 體 出 現 在 樣 本 中 的 位 置 為 基 準, 統 計 出 現 在 其 前 後 方 字 詞 頻 率, 如 表 四 中 ID 10~15 即 為 外 部 特 徵 值 我 們 利 用 自 動 選 擇 前 M 個 常 出 現 的 字 或 詞 來 產 生 關 鍵 詞 庫, 在 實 驗 章 節 將 有 針 對 關 鍵 詞 庫 大 小 對 辨 識 效 果 的 影 響 進 行 實 驗 除 上 述 12 個 自 動 產 生 之 特 徵 值 外, 再 加 上 針 對 辨 識 類 別 特 別 準 備 的 特 徵 如 縣 市 名 稱 及 其 簡 稱 詞 性 (POS)tagging 是 否 為 標 點 符 號 等 特 徵, 此 外 因 為 在 網 頁 中 命 名 實 體 也 常 有 單 獨 出 現 的 情 形, 因 此 一 段 文 字 的 起 點 就 變 成 重 要 特 徵, 如 果 是 樣 本 單 元 的 起 點 或 前 一 個 字 元 屬 於 符 號 類, 就 具 有 開 始 特 徵 (Start Feature), 當 字 元 是 樣 本 單 元 的 結 尾 或 下 一 個 字 元 屬 於 符 號 類, 就 具 有 結 尾 特 徵 (End Feature), 共 6 個 預 設 特 徵 值 在 不 另 外 調 整 的 情 形 本 工 具 總 共 18 個 特 徵 值 3.4 自 我 測 試 與 協 同 訓 練 我 們 使 用 開 放 且 免 費 的 CRF++[3] 程 式 做 為 序 列 標 記 模 型 訓 練 方 法 由 於 本 研 究 採 用 自 動 化 的 技 術 收 集 大 量 非 結 構 化 的 資 料 以 及 自 動 標 記 產 生 的 訓 練 資 料, 這 些 大 量 的 訓 練 資 料 可 能 包 含 錯 誤 標 記, 為 了 提 升 訓 練 資 料 的 品 質, 我 們 的 工 具 設 計 在 學 習 過 程 中 可 選 擇 使 用 Self-testing 將 雜 訊 移 除 提 高 訓 練 資 料 的 品 質 Self-testing 的 實 作 方 式 是 使 用 訓 練 完 成 的 模 型 對 訓 練 資 料 做 測 試 並 輸 出 機 率, 若 該 機 率 低 於 門 檻 值 則 認 定 該 語 句 為 雜 訊, 自 訓 練 資 料 中 移 除, 再 以 移 除 雜 訊 後 的 資 料 重 新 訓 練 模 型, 在 本 研 究 的 實 驗 中 設 定 機 率 為 0.7, 其 值 可 以 視 情 況 調 整 完 成 初 步 的 資 料 品 質 提 升 後, 工 具 會 以 Self-testing 後 之 資 料 為 基 礎, 加 上 Chou 等 人 發 表 的 Tri-Training 演 算 法 之 改 進 [2], 應 用 未 標 記 資 料 來 改 善 效 能 Tri-Training 的 實 作 方 154
式 是 在 學 習 過 程 中 使 用 三 個 分 類 器,hi hj 與 hk (i,j,k,1,, 3, i ) 利 用 已 標 記 的 資 料 (L) 訓 練 模 型, 並 使 用 投 票 (Voting) 想 法 挑 選 可 信 度 較 高 的 未 標 記 資 料 (U) 放 到 L 集 合 中, 稍 後 以 新 增 資 料 後 的 L 重 新 訓 練 分 類 器, 疊 代 次 數 增 加 L 集 合 所 包 含 的 訓 練 資 料 量 亦 隨 之 增 加, 使 得 分 類 器 的 辨 識 效 能 更 進 一 步 提 升 表 四 自 動 產 生 的 中 文 組 織 名 稱 辨 識 特 徵 值 ID 說 明 長 範 例 4 POI 中 常 見 前 方 字 1 代 茶 5 POI 中 常 見 前 方 詞 2 事 務 數 位 6 POI 中 常 見 前 方 詞 3 多 媒 體 星 巴 克 7 POI 中 常 見 倒 數 字 1 廟 莊 店 8 POI 中 常 見 倒 數 詞 2 門 市 公 司 9 POI 中 常 見 倒 數 詞 3 基 金 會 雜 貨 店 10 常 見 於 POI 前 方 的 字 1 到 的 11 常 見 於 POI 前 方 的 詞 2 推 薦 加 盟 12 常 見 於 POI 前 方 的 詞 3 名 稱 : 店 介 紹 13 常 見 於 POI 後 方 的 字 1 逛 是 14 常 見 於 POI 後 方 的 詞 2 統 編 營 業 15 常 見 於 POI 後 方 的 詞 3 高 品 質 營 業 項 在 每 一 輪 的 疊 代,Tri-Training 使 用 兩 個 模 組 hj 與 hk 標 記 U 中 的 資 料, 若 兩 模 型 答 案 一 致, 我 們 可 以 將 此 答 案 當 作 h 第 t 次 疊 代 的 新 訓 練 資 料,h 第 t 次 疊 代 的 訓 練 資 料 為 L 若 資 料 量 過 大,h 第 t 次 疊 代 的 錯 誤 率 以 表 示, 前 後 次 疊 代 間 的 錯 誤 率 比 例 公 式 < 1 1 將 無 法 成 立, 此 時 則 須 對 做 取 樣 動 作, 由 s= 1 1 1 公 式 計 算 可 以 自 隨 機 挑 選 s 筆 資 料 為 新 增 的 訓 練 資 料, 確 保 公 式 < 成 立 Chou 等 人 [2] 的 改 良 演 算 法 使 得 Tri-Training 可 適 用 於 較 大 的 資 料 集, 避 免 原 始 Tri-Training 在 大 量 資 料 的 情 況 下, 僅 可 自 U 中 選 取 少 量 資 料 作 為 新 的 訓 練 資 料, 對 系 統 效 能 幾 乎 沒 有 影 響 的 問 題 1 1 四 實 驗 本 論 文 目 的 在 完 成 一 個 不 限 語 言 主 題 的 Web NER 模 型 自 動 產 生 工 具, 我 們 也 將 從 實 驗 了 解 自 動 標 記 產 生 的 訓 練 資 基 本 效 能 (Basic) 透 過 Self-Testing 資 料 過 濾 以 及 Tri-Training 等 方 法 對 於 效 能 的 影 響 對 於 本 系 統 所 產 生 的 特 徵 擷 取 方 法, 我 們 也 將 應 用 中 文 商 家 名 稱 辨 識 實 驗 比 較 人 工 準 備 關 鍵 詞 庫 及 使 用 統 計 出 現 頻 率 的 方 式 自 動 產 生 關 鍵 詞 庫 對 於 效 能 的 影 響 155
由 於 在 判 定 是 否 為 正 確 答 案 時, 有 時 會 有 難 以 準 確 定 出 邊 界 的 可 能, 例 如 : 7-ELEVEN ( 行 天 門 市 ) 中, ( 行 天 門 市 ) 可 以 視 為 包 含 在 商 家 名 稱 之 中, 但 若 沒 有 標 記 出 ( 行 天 門 市 ) 只 有 7-ELEVEN 也 不 能 算 錯, 因 此 對 於 每 個 辨 識 到 的 命 名 實 體 e 與 正 確 答 案 的 命 名 實 體 a, 我 們 定 義 P(e,a) R(e,a) 分 數, 再 取 平 均 值 得 到 整 體 的 Precision Recall 其 定 義 如 下 : (, ) = (, ) = Pr cision = (, ) ntifie ntitie ca = (, ) ntitie Measu = 2PR + 依 照 上 述 的 評 分 公 式, 利 用 模 型 標 記 出 來 的 答 案 (Identified entity) 與 正 確 答 案 (Real entity) 間 重 疊 的 字 數 (Overlap tokens), 分 別 除 以 標 記 答 案 長 度 和 正 確 答 案 長 度 來 給 予 部 份 正 確 的 標 記 分 數, 此 方 法 可 以 避 免 因 為 一 兩 個 字 的 誤 差 而 導 致 完 全 沒 有 分 數 的 狀 況 4.1 實 驗 資 料 集 我 們 測 試 不 同 語 言 以 及 不 同 辨 識 主 題 的 Web NER 的 辨 識 正 確 率, 各 個 資 料 集 如 表 五 中 文 商 家 組 織 名 稱 辨 識 我 們 透 過 中 華 黃 頁 2 收 集 的 11,138 筆 商 家 名 稱, 透 過 Google 搜 尋 引 擎 進 行 查 詢, 取 每 筆 搜 尋 前 5 個 結 果 的 搜 尋 結 果 片 段, 並 以 已 知 的 商 家 名 稱 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 已 標 記 訓 練 資 料 (L) 未 標 記 訓 練 資 料 (U) 則 使 用 50,000 筆 商 家 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 共 提 取 156,822 個 句 子 測 試 資 料 則 以 另 外 2,000 筆 地 址 為 關 鍵 字, 收 集 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 38,692 個 句 子, 標 記 出 不 重 複 的 商 家 組 織 名 稱 共 16,241 個, 最 後 使 用 此 人 工 標 記 答 案 進 行 NER 效 能 評 估 日 文 商 家 組 織 名 稱 辨 識 我 們 透 過 iタウンページ 3 這 個 日 本 黃 頁 網 站 收 集 了 10,000 筆 日 文 商 家 名 稱, 取 每 筆 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 對 搜 尋 結 果 片 段 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 30,000 筆 商 家 名 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 的 搜 尋 結 果 片 段, 共 提 取 88,074 個 句 子 測 試 資 料 的 部 份 則 另 外 取 200 筆 地 址 為 關 鍵 字, 收 2 https://www.iyp.com.tw/ 3 http://itp.ne.jp/?rf=1 156
集 每 筆 查 詢 排 名 前 10 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 測 試 資 料 共 809 個 句 子, 共 標 記 不 重 複 的 日 文 商 家 組 織 名 稱 438 個 英 文 商 家 組 織 名 稱 辨 識 我 們 透 過 Yelp 4 收 集 的 10,000 筆 商 家 名 稱, 透 過 Google 搜 尋 引 擎 取 得 進 行 查 詢, 取 每 筆 搜 尋 前 5 個 結 果 的 搜 尋 結 果 片 段, 並 以 已 知 的 商 家 名 稱 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 即 為 已 標 記 訓 練 資 料 (L) 未 標 記 訓 練 資 料 (U) 則 使 用 30,000 筆 商 家 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 共 提 取 100,182 個 句 子 測 試 資 料 則 以 另 外 200 筆 地 址 為 關 鍵 字, 收 集 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 941 個 句 子, 標 記 出 不 重 複 的 商 家 組 織 名 稱 共 465 個, 最 後 使 用 此 自 動 標 記 答 案 進 行 NER 效 能 評 估 中 文 地 點 名 稱 辨 識 為 了 瞭 解 本 工 具 辨 識 不 同 類 別 的 能 力, 我 們 透 過 政 府 資 料 開 放 平 台 5 收 集 了 10,000 筆 臺 灣 地 區 地 名 資 料, 每 筆 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 30,000 筆 地 名 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 132,486 個 句 子 測 試 資 料 另 外 取 200 筆 地 名 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 測 試 資 料 共 2,638 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 名 600 個 中 文 地 址 辨 識 為 了 瞭 解 長 度 較 長 的 中 文 命 名 實 體 辨 識 效 果, 我 們 透 過 中 華 黃 頁 收 集 了 1,800 筆 臺 灣 地 址 為 搜 尋 關 鍵 字, 每 次 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 10,000 筆 地 址 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 78,177 個 句 子 測 試 資 料 另 外 取 200 筆 中 文 商 家 組 織 名 稱 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 測 試 資 料 共 1,519 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 址 645 個 英 文 地 址 辨 識 為 了 瞭 解 長 度 較 長 的 英 文 命 名 實 體 辨 識 效 果, 我 們 透 過 Yelp 收 集 了 2,400 筆 美 國 地 址 為 搜 尋 關 鍵 字, 每 次 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 AlignmentLabeling 比 對 並 搭 配 UniLabeling 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 6,650 筆 地 址 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 49,851 個 句 子 測 試 資 料 另 外 取 200 筆 英 文 組 織 名 稱 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 測 試 資 料 共 652 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 址 257 個 4 http://www.yelp.com/ 5 http://data.gov.tw/?q=node/7063 157
Item Chinese Organization Name 表 五 不 同 語 言 與 不 同 辨 識 主 題 資 料 集 Japanese Organization Name English Organization Name Chinese Location Name Chinese address English address Source 中 華 黄 頁 i タウンページ Yelp OpenData 中 華 黄 頁 Yelp Training: L 11,138 10,000 10,000 10,000 1,800 2,400 #Sentence 87,916 29,999 39,798 53,313 28,739 18,198 Training: U 50,000 30,000 30,000 30,000 10,000 6,650 #Sentence 156,822 88,074 100,182 132,486 78,177 49,851 Testing 2,000 addr 200 addr 200 addr 200 loc 200 organ 200 organ #Sentence 38,692 809 941 2,638 1,519 652 #Distinct Entities 16,241 438 465 600 645 257 4.2 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能 以 中 文 組 織 名 稱 為 例, 我 們 分 別 使 用 50 100 150 200 個 字 或 詞 的 自 動 產 生 內 部 特 徵 以 及 外 部 特 徵 建 立 關 鍵 詞 庫, 使 用 Self-testing 將 雜 訊 移 除 提 高 訓 練 資 料 的 品 質, 實 驗 中 假 設 低 於 0.7 為 雜 訊 將 其 去 除, 並 以 Self-testing 後 之 資 料 為 基 礎 進 行 Tri-Training 演 算 法 各 別 關 鍵 詞 庫 大 小 之 效 能 如 圖 四 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能, 比 較 各 資 料 集 我 們 可 以 發 現 當 使 用 大 量 字 或 詞 的 關 鍵 詞 庫 將 導 致 Recall 大 幅 降 低 圖 四 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能 4.3 多 種 語 言 及 辨 識 主 題 之 NER 效 能 接 下 來 的 實 驗 中 自 動 產 生 關 鍵 詞 庫 大 小 皆 設 為 100, 並 以 Self-testing 低 於 0.7 為 雜 訊 去 除 後 之 資 料 為 基 礎, 進 行 Tri-Training 演 算 法 158
短 命 名 實 體 辨 識 效 能 短 命 名 實 體 辨 識 效 能 如 表 六, 相 較 於 中 文 及 英 文 組 織 名 稱 辨 識 效 能, 日 文 的 組 織 名 稱 辨 識 的 F-measure 稍 低, 我 們 猜 測 其 原 因 可 能 在 於 日 文 屬 於 音 節 文 字 (Syllabary) 是 表 音 文 字 的 一 種, 除 了 部 分 使 用 漢 字 外 大 部 分 使 用 平 假 名 或 片 假 名 書 寫, 當 在 自 動 擷 取 外 部 與 內 部 特 徵 時 就 會 遇 到 僅 取 到 部 份 拼 音 而 不 具 有 意 義 的 問 題 我 們 也 注 意 到 在 中 文 地 點 名 稱 辨 識 部 分 有 很 高 的 Precision, 但 Recall 卻 明 顯 較 低 造 成 這 個 結 果 的 原 因 是 我 們 對 於 中 文 地 點 名 稱 有 較 廣 泛 的 定 義, 例 如 : 高 雄 市 紫 竹 寺 平 林 里 狗 母 山 東 石 大 橋 曹 公 圳 台 北 火 車 站 等 因 此 我 們 在 標 記 測 試 資 料 答 案 時 的 答 案 定 以 也 較 廣 泛, 但 實 際 模 組 在 標 記 時 雖 然 能 有 高 的 準 確 率, 但 卻 無 法 辨 識 所 有 類 型 的 中 文 地 點 名 稱 表 六 短 命 名 實 體 之 辨 識 效 能 採 用 自 動 產 生 之 關 鍵 詞 庫 Chinese organization names Japanese organization names English organization names Chinese location names Precision 0.825 0.845 0.789 0.925 Recall 0.875 0.766 0.881 0.777 F-measure 0.849 0.803 0.832 0.845 長 命 名 實 體 辨 識 效 能 本 系 統 對 Google 搜 尋 時 雖 使 用 雙 引 號, 確 保 搜 尋 結 果 片 段 中 的 長 命 名 實 體 會 與 查 詢 詞 之 字 與 字 之 間 順 序 一 致, 但 並 不 能 保 證 搜 尋 結 果 片 段 內 容 中 的 命 名 實 體 與 搜 尋 詞 完 全 相 同, 因 此 搜 尋 結 果 片 段 中 的 搜 尋 詞 中 可 能 穿 插 不 同 標 點 符 號 這 對 於 使 用 ExactMatchLabeling 標 記 出 長 的 拼 音 文 字 命 名 實 體 是 不 容 易 的 因 此 為 了 標 記 出 英 文 地 址, 我 們 使 用 AlignmentLabeling 比 對 並 搭 配 UniLabeling 來 標 記 查 詢 詞 所 在 但 由 中 文 地 址 在 單 一 命 名 實 體 中 不 會 隨 意 的 插 入 標 點 符 號 與 縮 寫, 因 此 我 們 可 使 用 ExactMatchLabeling 比 對 並 搭 配 FullLabeling 正 確 標 記 出 中 文 地 址 我 們 將 會 在 後 續 實 驗 中 比 較 AlignmentLabeling 與 ExactMatchLabeling 之 標 記 效 果 對 於 長 命 名 實 體 如 英 文 地 址 及 中 文 地 址 之 辨 識 效 能 見 表 七 表 七 長 命 名 實 體 之 辨 識 效 能 採 用 自 動 產 生 之 關 鍵 詞 庫 4.3 人 工 產 生 關 鍵 詞 庫 之 NER 效 能 Chinese address English address Precision 0.997 0.938 Recall 0.948 0.958 F-measure 0.972 0.948 除 自 動 產 生 關 鍵 詞 庫 之 外, 我 們 以 中 文 組 織 辨 識 為 例 採 用 人 工 產 生 關 鍵 詞 庫 比 較 與 系 統 自 動 產 生 詞 庫 效 能 的 差 異 特 徵 值 包 含 人 工 收 集 的 服 務 詞 產 品 詞 以 及 地 標 詞 詞 庫, 另 外 觀 察 常 見 於 商 家 名 稱 前 後 的 字 詞 產 生 更 多 詞 庫 159
表 八 顯 示 以 Google 搜 尋 結 果 片 段 辨 識 中 文 組 織 名 為 例, 比 較 系 統 自 動 產 生 詞 庫 人 工 產 生 關 鍵 詞 庫 與 Stanford NER 效 能 的 差 異 總 體 而 言, 雖 然 自 動 產 生 關 鍵 詞 庫 會 導 致 Precision 與 F-measure 降 低, 但 卻 能 夠 維 持 Recall 水 準 甚 至 微 幅 提 升 而 辨 識 效 果 降 低 主 要 原 因 可 能 在 於 商 家 組 織 名 稱 屬 於 變 異 性 較 大 的 一 種 命 名 實 體, 資 料 能 否 盡 可 能 的 涵 蓋 各 類 商 家 組 織 名 稱 的 特 性 是 重 要 因 素, 而 自 動 產 生 的 關 鍵 詞 庫 相 對 於 人 工 設 計 的 關 鍵 詞 庫 包 含 較 多 的 雜 訊, 且 會 有 完 全 針 對 輸 入 的 訓 練 資 料 設 計 等 問 題, 但 當 訓 練 資 料 量 夠 大 且 商 家 類 別 多 樣 化 時 辨 識 應 能 再 提 升 表 八 以 中 文 組 織 辨 識 為 例 比 較 系 統 自 動 產 生 詞 庫 人 工 產 生 關 鍵 詞 庫 與 Stanford NER 效 能 的 差 異 Manual Dictionary Automatic Dictionary Stanford Precision 0.8500 0.8249 0.529 Recall 0.8730 0.8753 0.557 F-measure 0.8613 0.8494 0.543 4.4 使 用 Self-Testing 及 Tri-Training 後 之 NER 效 能 提 升 本 實 驗 旨 在 了 解 使 用 Self-Testing 以 及 Tri-Training 產 生 之 新 辨 識 模 型 對 Google 搜 尋 結 果 片 段 NER 效 果 的 影 響 我 們 以 中 文 組 織 名 稱 辨 識 為 例, 將 訓 練 資 料 分 為 五 個 資 料 集 如 表 九 在 中 文 組 織 名 稱 辨 識 人 工 產 生 關 鍵 詞 庫 的 Self-Testing 及 Tri-Training 實 驗 中, 由 圖 五 可 以 看 到 利 用 採 用 人 工 產 生 關 鍵 詞 庫 方 式 在 Self-Testing 以 及 Tri-Training 的 各 個 資 料 集 大 小 辨 識 效 果 皆 有 提 升, 對 於 DS5 提 升 幅 度 為 4.83%, 由 0.8130 達 到 0.8613 表 九 中 文 組 織 名 稱 辨 識 之 已 標 記 訓 練 資 料 (DS1~DS5) 及 未 標 記 訓 練 資 料 (U) DS1 DS2 DS3 DS4 DS5 Unlabeled Query 1,000 3,000 4,000 6,000 11,138 50,000 Sentence 6,724 19,437 27,198 45,028 87,916 156,822 圖 五 Basic Self-Testing 及 Tri-Training 在 中 文 組 織 辨 識 人 工 產 生 關 鍵 詞 庫 之 效 能 160
4.5 比 較 ExactMatchLabeling 及 AlignmentLabeling 標 記 效 果 圖 六 顯 示 英 文 及 中 文 地 址 的 標 記 效 果 當 使 用 ExactMatchLabeling 比 對 搭 配 UniLabeling 及 FullLabeling 產 生 訓 練 資 料 時, 僅 可 從 86,388 筆 搜 尋 結 果 片 段 中 標 記 出 21,370 及 22,313 個 英 文 地 址 但 當 使 用 AlignmentLabeling 比 對 搭 配 UniLabeling 產 生 訓 練 資 料 時, 共 可 標 記 出 68,701 個 英 文 地 址 另 外, 當 使 用 ExactMatchLabeling 比 對 搭 配 UniLabeling 產 生 中 文 地 址 訓 練 資 料 時, 已 經 可 從 108,435 筆 搜 尋 結 果 片 段 中 標 記 出 95,558 個 中 文 地 址, 若 是 採 用 FullLabeling, 更 可 以 標 記 出 136,366 個 中 文 地 址 ; 因 此 使 用 AlignmentLabeling 比 對 搭 配 UniLabeling 標 記 出 98,154 個 中 文 地 址, 未 能 勝 過 ExactMatchLabeling 搭 配 FullLabeling 的 效 果 圖 六 AlignmentLabeling 與 ExactMatchLabeling 之 標 記 效 能 不 同 於 英 文, 通 常 中 文 並 不 會 在 單 一 命 名 時 體 中 加 入 標 點 符 號, 因 此 我 們 可 以 利 用 ExactMatchLabeling 標 記 出 大 量 的 長 命 名 實 體 除 此 之 外, 我 們 也 發 現 使 用 AlignmentLabeling 容 易 會 在 中 文 搜 尋 結 果 片 段 中 標 記 出 類 似 於 中 文 地 址 的 命 名 實 體 例 如, 彰 化 縣 鹿 港 市 場 169 號 並 非 是 合 法 的 台 灣 地 址, 但 在 AlignmentLabeling 仍 會 被 當 作 是 目 標 給 標 記 起 來, 此 種 錯 誤 會 導 致 較 低 的 準 確 率 在 表 十 中 我 們 比 較 了 Alignment 搭 配 UniLabeling 以 及 Exact Match 搭 配 FullLabeling 對 於 中 文 地 址 及 英 文 地 址 的 辨 識 影 響 我 們 可 以 從 表 十 中 看 出 對 於 英 文 地 址 辨 識 使 用 Alignment 搭 配 UniLabeling 可 以 得 到 較 好 的 Recall 以 及 F-measure(0.948); 然 而 在 中 文 地 址 辨 識, 使 用 Exact Match 搭 配 FullLabeling 可 以 得 到 較 好 的 Recall 以 及 F-measure(0.972) 表 十 長 命 名 實 體 使 用 Alignment + UniLabeling 及 ExactMatch + FullLabeling 之 效 能 Alignment + UniLabeling ExactMatch + FullLabeling Type Chinese address English address Chinese address English address Labeled Entity 98,154 68,701 136,366 21,370 Precision 0.911 0.938 0.997 0.951 Recall 0.456 0.958 0.948 0.330 F-measure 0.607 0.948 0.972 0.490 161
五 結 論 訓 練 一 個 模 型 的 時 間 和 人 力 成 本 非 常 的 高, 包 含 前 置 的 大 量 訓 練 資 料 準 備 人 工 收 集 答 案 標 記 答 案, 為 了 提 升 模 組 辨 識 效 果 而 必 須 要 為 資 料 做 適 當 優 化, 以 及 特 徵 值 的 設 計 關 鍵 詞 庫 準 備 等, 工 作 非 常 瑣 碎 複 雜, 且 對 於 不 同 語 言 或 不 同 辨 識 主 題 都 要 再 重 新 設 計 特 徵 值 本 研 究 期 能 設 計 一 個 使 用 Google 搜 尋 結 果 片 段 之 Web NER 辨 識 模 型 的 產 生 工 具, 不 僅 解 決 上 述 命 名 實 體 辨 識 過 於 耗 時 費 力 的 問 題, 也 能 夠 輕 易 地 應 用 在 不 同 的 辨 識 類 型 語 言 中, 並 希 望 達 到 良 好 的 辨 識 效 果 在 本 系 統 我 們 使 用 自 動 標 記 的 方 式 標 記 訓 練 資 料 而 非 使 用 人 工 標 記 答 案, 並 且 為 了 有 效 標 記 長 的 命 名 實 體 我 們 可 以 使 用 AlignmentLabeling 增 加 標 記 到 的 命 名 實 體 數 量 雖 然 自 動 標 記 可 能 包 含 雜 訊, 但 我 們 因 而 能 產 生 大 量 的 已 標 記 訓 練 資 料 外 部 特 徵 是 進 行 命 名 實 體 辨 認 的 重 要 輔 助, 而 內 部 特 徵 能 提 供 強 烈 的 判 斷 資 訊, 我 們 利 用 頻 率 統 計 的 方 式 能 夠 自 動 產 生 上 述 兩 種 特 徵, 並 利 用 完 整 標 記 已 知 大 量 的 命 名 實 體 與 Self-Testing 及 Tri-Training 演 算 法, 使 得 辨 識 效 能 更 進 一 步 提 升, 解 決 訓 練 資 料 品 質 不 佳 的 問 題 我 們 以 中 文 之 商 家 組 織 名 稱 辨 識 做 測 試, 實 驗 顯 示 在 中 文 組 織 名 稱 辨 識 部 份 以 Tri-Training 演 算 法 確 實 使 得 辨 識 效 能 更 進 一 步 提 升,F-Measure 可 由 DS1 的 0.779 提 升 至 DS5 的 0.861, 而 在 日 文 組 織 名 稱 而 在 英 文 組 織 名 稱 中 文 地 點 名 稱 中 文 地 址 以 及 英 文 地 址 的 F-Measure 辨 識 效 果 依 序 可 達 80.3%, 83.2%, 84.5%, 97.2% 及 94.8% References [1] D.-M. Bikel, S. Miller, R. Schwartz and R. Weischedel, "Nymble: a High-Performance Learning Name-finder, Applied natural language processing, pp. 194-201, 1997. [2] C.-L. Chou, C.-H. Chang, S.-Y. Wu, " Semi-supervised Sequence Labeling for Named Entity Extraction based on Tri-Training: Case Study on Chinese Person Name Extraction," Semantic Web and Information Extraction, pp. 244-255, 2014. [3] CRF++: Yet Another CRF toolkit, http://crfpp.googlecode.com/svn/trunk/doc/index.html 9-1541 [4] J. Lafferty, A. McCallum and F.C.N. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," ICML Proceedings of the Eighteenth International Conference on Machine Learning, pp. 282-289, 2001. [5] C. Gu, X.-P. Tian, and J.-D Yu, "Automatic Recognition of Chinese Personal Name Using Conditional Random Fields and Knowledge Base," Mathematical Problems in Engineering, 2015. [6] Y.-Y. Lin, C.-H. Chang, "Store Name Extraction and Name-Address Matching on the Web," Proceedings of the 26th Conference on Computational Linguistics and Speech Processing, pp. 91-93, 2014. [7] Y. Ling, J. Yang and L. He, "Chinese Organization Name Recognition Based on Multiple Features," Pacific Asia conference on Intelligence and Security Informatics, pp. 136-144, 2012. [8] W. Li, A. McCallum, "Semi-supervised sequence modeling with syntactic topic models," 162
AAAI'05 Proceedings of the 20th national conference on Artificial intelligence - Volume 2, pp. 813-818, 2005. [9] A. McCallum, W. Li, "Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons," Proceedings of the Seventh Conference on Natural Language Learning HLT-NAACL 2003 - Volume 4 (CONLL'03), pp. 188-191, 2003. [10] C.-W. Wu, R. T.-H. Tsai and W.-L. Hsu, "Semi-joint labeling for Chinese named entity recognition," Proceedings of the 4th Asia information retrieval conference, pp. 107-116, 2008. [11] X. Yao, "A Method of Chinese Organization Named Entities Recognition Based on Statistical Word Frequency, Part of Speech and Length," Broadband Network and Multimedia Technology (IC-BNMT), pp. 637-641, 2011. [12] Z.-H. Zhou, M. Li, "Tri-Training: Exploiting Unlabeled Data Using Three Classifiers", IEEE Transactions on Knowledge and Data Engineering archive, Volume 17 Issue 11, November 2005, Page 152. [13] S. Zhang, S. Zhang and X. Wang, "Automatic Recognition of Chinese Organization Name Based on Conditional Random Fields," Natural Language Processing and Knowledge Engineering, pp. 229-233, 2007. 163