Microsoft Word ROCLING-WESum-LongAbstract.docx

Similar documents
Microsoft Word - chnInfoPaper6

实验室代码

Microsoft Word - Preface_1_14.doc

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

Microsoft Word - 01-苏娅(排).docx

中文模板

Microsoft Word 定版

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

现代汉语语料库基本加工规格说明书

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

第一章

穨423.PDF

南華大學數位論文

1 引言

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

清 华 大 学

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

标题

Microsoft Word doc

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

Microsoft Word - 01李惠玲ok.doc

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

Microsoft Word 記錄附件

104王三慶.doc

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra

高 职 计 算 机 类 优 秀 教 材 书 目 * 序 号 书 号 (ISBN) 书 名 作 者 定 价 出 版 / 印 刷 日 期 ** 配 套 资 源 页 码 计 算 机 基 础 课 计 算 机 应 用 基 础 刘 升 贵 年 8 月

2005硕士论文模版

Microsoft Word - 建構企業訓練之課程發展模式.doc

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

黑 龙 江 省 哈 尔 滨 市 规 划 局 与 黑 龙 江 汇 丰 实 业 发 展 有 限 公 司 行 政 处 罚 纠 纷 上 诉 案 中 华 人 民 共 和 国 最 高 人 民 法 院 行 政 判 决 书 (1999) 行 终 字 第 20 号 上 诉 人 ( 原 审 被 告 ) 黑 龙 江 省

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

Microsoft Word - 1-編者的話

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

1 2 3

(Pattern Recognition) 1 1. CCD

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3

Microsoft Word - 修辞学会论文70226new.doc

untitled

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

Microsoft Word - 专论综述1.doc

标题

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

《中文信息学报》投稿模版

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

<A448A4E5AAC0B77CBEC7B3F8B2C43132A8F7B2C434B4C15F E706466>

論文寫作技巧

208 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2013 年 第 19 卷 第 6 期 节 目 录 上 卷 一 所 载 篇 名, 乃 总 目 录 中 篇 名 之 误, 正 文 卷 一 收 录 篇 名 为 月 支 使 者 玄 觉 杜 凝 妻 灌 国 婴 女 独 狐 及 吕 卿 均 五 篇

240 生 异 性 相 吸 的 异 性 效 应 [6] 虽 然, 心 理 学 基 础 研 [7-8] 究 已 经 证 实 存 在 异 性 相 吸 异 性 相 吸 是 否 存 在 于 名 字 认 知 识 别 尚 无 报 道 本 实 验 选 取 不 同 性 别 的 名 字 作 为 刺 激 材 料, 通

Microsoft Word 張嘉玲-_76-83_

35期

5 1 linear 5 circular ~ ~

14-1-人文封面

Microsoft Word - A _ doc

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

「人名權威檔」資料庫欄位建置表

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

財團法人張思恒文教基金會

Your Paper's Title Starts Here: Please Center

1對外華語文詞彙教學的策略研究_第三次印).doc

240 ( )

一种快速获取领域新词语的新方法

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

理 成 可 做 關 聯 分 析 的 格 式, 再 應 用 統 計 統 計 計 算 軟 體 R (R Core Team, 2013) 中 的 延 伸 套 件 arules (Hahsler, Gruen, and Hornik, 2005; Hahsler, Buchta, Gruen, and H

2013 年 7 月 总 第 235 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 节 令 是 一 种 命 令 毕 淑 敏 1 聚 焦 CASIA 自 动 化 所 召 开 庆 祝 建 党 92 周

Microsoft Word - 10-朴庸鎮+徐真賢.doc

Fig. 1 Frame calculation model 1 mm Table 1 Joints displacement mm

%

ARCLE No.2

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於

并非没有必要的一些宏观思考

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA


填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目

XXX专业本科人才培养方案

Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing

a b

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

曹美秀.pdf

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

F4

1

(1) ( ) : (3), (12) (7) (10)

<4D F736F F D20B8BDBCFE3220BDCCD3FDB2BFD6D8B5E3CAB5D1E9CAD2C4EAB6C8BFBCBACBB1A8B8E6A3A8C4A3B0E5A3A92E646F6378>

Microsoft Word - A doc

Microsoft Word - A doc

Microsoft Word - Wang Qing.doc

硕 士 学 位 论 文 论 文 题 目 : 北 岛 诗 歌 创 作 的 双 重 困 境 专 业 名 称 : 中 国 现 当 代 文 学 研 究 方 向 : 中 国 新 诗 研 究 论 文 作 者 : 奚 荣 荣 指 导 老 师 : 姜 玉 琴 2014 年 12 月

Microsoft Word - 口試本封面.doc

JAIST Reposi Title WWW における関連リンク集の自動生成 Author(s) 田村, 雅樹 Citation Issue Date Type Thesis or Dissertation Text version author U

66 a T. S. Kuhn 2 b a b Thomas Kuhn disciplinary matrix examplars or shared examples incommensurability

荨荨 % [3] [4] 86%( [6] 27 ) Excel [7] 27 [8] 2 [9] K2 [2] ; Google group+ 5 Gmail [2] 2 fxljwcy 3E [22] 2 2 fxljzrh 2D [23] 3 2 fxzphjf 3D 35

續論

论文集10.12.doc

中国媒体发展研究报告

~ ~ ~

(2002) Gartner Group Toelle and Tersine(1989) VMI (1998) (VMI,Vender-Managed Inventory) (2003) (VMI,Vender-Managed Inventory) VMI AHP VMI - 133

Microsoft Word doc

Transcription:

The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 148-163 The Association for Computational Linguistics and Chinese Language Processing 基 於 已 知 名 稱 搜 尋 結 果 的 網 路 實 體 辨 識 模 型 建 立 工 具 A Tool for Web NER Model Generation Using Search Snippets of Known Entities 黃 雅 筠 Ya-Yun Huang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University a2425320032002@gmail.com 張 嘉 惠 Chia-Hui Chang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University chia@csie.ncu.edu.tw 周 建 龍 Chia-Hui Chang 國 立 中 央 大 學 資 訊 工 程 學 系 Department of Computer Science and Information Engineering National Central University formatc.chou@gmail.com 摘 要 在 過 去, 命 名 實 體 辨 識 (NER) 研 究 都 以 新 聞 報 導 等 正 式 文 章 中 的 人 名 地 名 組 織 名 稱 為 主, 相 對 地 以 網 路 的 非 正 式 文 章 則 著 墨 較 少 因 此, 現 有 的 辨 識 模 組 對 於 網 頁 內 容 的 辨 識 效 果 顯 得 較 差, 當 需 要 辨 識 網 頁 內 容 中 的 命 名 實 體 時, 勢 必 要 重 新 訓 練 辨 識 模 組 然 而, 訓 練 一 個 模 型 的 時 間 和 人 力 成 本 非 常 高, 包 含 前 置 的 大 量 訓 練 資 料 準 備 人 工 收 集 及 標 記 答 案, 且 為 了 提 升 模 組 辨 識 效 果, 必 須 要 為 資 料 做 適 當 切 割 符 號 統 一 正 規 化, 以 及 特 徵 值 的 設 計 準 備 已 知 關 鍵 詞 庫 (Dictionary) 等, 工 作 非 常 瑣 碎 複 雜 此 外, 對 於 不 同 語 言 或 不 同 辨 識 主 題 則 需 重 複 上 述 工 作 本 論 文 的 目 的, 期 能 解 決 上 述 命 名 實 體 辨 識 工 作 過 於 費 力 耗 時 的 問 題, 經 由 給 定 已 知 實 體 名 稱 的 搜 尋 結 果 來 自 動 標 記 訓 練 資 料, 並 結 合 Chou 及 Chang [2] 於 2014 年 在 網 頁 中 文 人 名 的 辨 識 研 究 之 Tri-training 半 監 督 式 訓 練 架 構 來 產 生 NER 模 組 實 驗 證 實, 使 用 本 工 具 可 以 套 用 在 不 同 語 言 及 類 型 的 命 名 實 體 辨 識, 在 中 文 組 織 名 稱 辨 識 的 效 能 可 達 到 86.1%, 在 日 文 組 織 名 稱 辨 識 的 效 能 可 達 到 80.3%, 在 英 文 組 織 名 稱 辨 識 的 效 能 可 達 到 83.2%, 辨 識 不 同 主 題 的 中 文 地 點 名 稱 辨 識 效 能 可 達 到 84.5%, 另 外, 辨 識 較 長 的 命 名 實 體 如 中 文 地 址 及 英 文 地 址 辨 識 效 能 也 可 達 到 97.2% 及 94.8% Abstract Named entity recognition (NER) is of vital importance in information extraction and natural language processing. Current NER models are trained mainly on journalistic documents such as news articles. Since they have not been trained to deal with informal documents, the performance drops on Web documents, which may lack sentence structure and contain colloquial expression. Therefore, the State-of-the-art NER systems do not work well on Web 148

documents. When users want to recognize named entity from Web documents, they certainly have to retrain the new model. Retraining a new model is labor intensive and time consuming. The preparatory work includes preparing a large set of training data, labeling named entity, selecting an appropriate segmentation, symbols unification, normalization, designing feature, preparing dictionary, and so on. Besides, users need to repeat the previous work for different languages or different recognition types. In this research, we propose a NER model generation tool for effective Web entity extraction. We propose a semi-supervised learning approach for NER model training via automatic labeling and tri-training, which makes use of unlabeled data and structured resources containing known named entities. Experiments confirmed that the use of this tool can be applied in different languages for various types of named entities. In the task of Chinese organization name extraction, the generated model can achieve 86.1% F1 score on the 38,692 sentences with 16,241 distinct names, while the performance for Japanese organization name, English organization name, Chinese location name extraction, Chinese address recognition and English address recognition can be reached 80.3%, 83.2%, 84.5%, 97.2% and 94.8% F1-measure, respectively. 關 鍵 詞 : 命 名 實 體 辨 識, 協 同 訓 練,Tri-Training Keywords: Named Entity Recognition, Co-Training, Tri-Training. 一 緒 論 命 名 實 體 辨 識 是 自 然 語 言 處 理 的 一 項 重 要 基 礎 工 作, 其 辨 識 正 確 率 對 後 續 的 語 意 分 析 (Semantic Analysis) 機 器 翻 譯 (Machine Translation) 等 自 然 語 言 處 理 議 題 具 重 大 的 影 響 在 大 量 文 字 資 料 中, 常 有 人 名 地 名 組 織 名 等 有 意 義 的 專 有 名 稱 出 現, 然 而 因 應 社 會 需 要 及 科 技 發 展, 這 些 不 斷 被 創 造 的 詞 彙, 難 以 被 單 一 詞 庫 所 收 藏, 因 此 需 有 命 名 實 體 辨 識 以 便 擴 充 詞 庫 不 同 類 型 的 命 名 實 體 出 現 於 語 句 中 的 位 置 規 則 或 詞 性 皆 不 相 同, 因 此 需 要 的 特 徵 值 也 都 不 同 以 中 文 組 織 名 稱 辨 識 為 例, 目 前 許 多 關 於 組 織 名 稱 辨 認 的 研 究, 主 要 是 從 新 聞 或 一 些 較 正 式 的 文 章 中 訓 練 組 織 名 稱 擷 取 模 型 [7] [11] [13], 但 是 網 路 上 商 家 組 織 名 稱 傾 向 較 不 正 式 的 命 名 方 式, 例 如 : 彼 得 公 雞 地 中 海 餐 廳 造 紙 龍 手 創 館 等, 而 新 聞 等 較 正 式 的 體 裁 則 容 易 出 現 公 司 行 號 與 正 規 的 組 織 名 稱, 如 : 伊 甸 基 金 會 國 立 中 央 大 學 高 鐵 公 司 等, 且 網 路 上 發 表 於 論 壇 或 社 群 媒 體 的 文 章 語 句 結 構 與 用 字 遣 詞 皆 與 正 式 文 章 不 同, 因 此 辨 識 效 果 不 佳 如 表 一 以 及 表 二 所 示, 我 們 利 用 2,000 筆 已 知 地 址 為 查 詢 關 鍵 字, 於 Google 搜 尋 結 果 片 段 (Search Snippets) 中 包 含 關 鍵 字 的 句 子 為 測 試 資 料, 再 使 用 Stanford NER 1 (Named Entity Recognizer) 來 做 組 織 名 稱 辨 識 實 驗,F1 效 果 只 能 達 到 54.3% 另 外, 我 們 也 利 用 200 筆 中 文 地 點 名 稱 為 查 詢 關 鍵 字, 利 用 Google search snippets 包 含 關 鍵 字 的 句 子 為 測 試 資 料, 同 樣 利 用 Stanford NER 來 做 地 點 名 稱 辨 識 實 驗,F1 效 果 僅 達 20.1% 顯 示 現 有 的 公 開 NER 工 具 對 於 Web 上 非 正 式 文 章 的 命 名 實 體 辨 識 效 果 有 限, 並 導 致 後 續 的 相 關 研 究 效 能 有 限 命 名 實 體 辨 識 可 視 為 序 列 標 記 (Sequence Labeling) 的 問 題, 故 通 常 使 用 Conditional Random Field(CRF) 來 解 決 此 問 題,CRF 為 一 機 率 架 構 的 無 向 圖 (Undirected Graphical) 模 型, 常 用 於 標 注 序 列 資 料 我 們 利 用 開 放 的 CRF++[3] 程 式 進 行 實 驗, 為 了 使 CRF 標 記 能 有 好 的 準 確 率, 我 們 必 須 處 理 原 始 大 量 文 字 資 料, 包 含 人 工 收 集 答 案 標 記 答 案 等, 同 時 為 了 提 升 模 組 辨 識 效 果 也 必 須 要 為 資 料 做 適 當 切 割 選 擇 斷 詞 工 具 統 一 符 號 數 1 http://nlp.stanford.edu/software/crf-ner.shtml 149

值 正 規 化, 以 及 準 備 具 有 鑑 別 度 的 特 徵 值 或 設 計 已 知 辭 典 等 若 要 辨 識 不 同 的 語 言 或 不 同 類 型 的 命 名 實 體, 就 要 重 複 以 上 的 動 作 來 完 成 工 作, 造 成 了 不 少 人 力 與 時 間 的 浪 費, 因 此 在 本 篇 論 文 中 我 們 將 以 上 的 動 作 模 組 化, 並 將 其 整 合 成 一 個 命 名 實 體 辨 識 模 型 的 產 生 工 具 表 一 以 Snippets 為 測 試 資 料 對 Stanford NER 測 試 效 能 Testing Data Chinese Organization Name Chinese Location Name # Queries 2,000 200 # Sentences 38,692 2,638 # Distinct Entities 16,241 600 表 二 Stanford NER 對 Snippets 為 資 料 來 源 之 辨 識 效 果 Stanford NER Task Precision Recall F-measure Chinese Organization Name 0.518 0.542 0.530 Chinese Location Name 0.215 0.188 0.201 使 用 本 工 具 可 方 便 的 訓 練 不 同 語 言 類 型 的 命 名 實 體 辨 識 模 組, 我 們 使 用 欲 辨 識 的 命 名 實 體 列 表 為 本 工 具 的 輸 入, 於 網 路 收 集 大 量 的 Google 搜 尋 結 果 片 段, 透 過 自 動 標 記 (Automatic Labeling) 與 特 徵 值 的 準 備, 產 生 訓 練 資 料 為 了 減 少 命 名 實 體 標 記 不 完 整 的 問 題, 以 中 文 組 織 為 例, 我 們 不 只 利 用 單 一 的 組 織 名 稱 來 協 助 標 記 ( 稱 之 為 UniLabeling), 也 採 用 所 有 已 知 的 組 織 名 稱 來 進 行 標 記 ( 稱 之 為 FullLabeling) 因 自 動 標 記 可 能 造 成 訓 練 資 料 品 質 不 佳, 因 此 我 們 採 用 自 我 測 試 (Self-Testing) 能 進 一 步 改 善 資 料 品 質, 再 藉 由 半 監 督 式 學 習 (Semi-supervised learning) 方 法, 引 入 Tri-Training 增 加 訓 練 資 料 量, 提 升 辨 識 模 型 之 正 確 率 實 驗 顯 示 系 統 在 中 文 組 織 名 稱 辨 識 部 份 以 Tri-Training 演 算 法 確 實 使 得 F-Measure 更 進 一 步 提 升 至 86.1%, 而 在 日 文 組 織 名 稱 而 在 英 文 組 織 名 稱 中 文 景 點 名 稱 也 可 達 到 80.3%, 83.2%, 84.5% 效 能 ; 另 外 在 長 命 名 實 體 中 文 地 址 以 及 英 文 地 址 的 擷 取 上, F-Measure 辨 識 效 果 也 分 別 達 到 97.2% 及 94.8% 二 相 關 研 究 命 名 實 體 辨 認 屬 於 資 訊 擷 取 與 自 然 語 言 處 理 的 一 個 共 同 分 支, 也 是 許 多 應 用 領 域 的 重 要 基 礎 工 具, 自 非 結 構 化 文 字 中 識 別 具 有 特 定 意 義 的 命 名 實 體, 如 人 名 地 名 組 織 名 稱, 亦 或 命 名 實 體 相 關 屬 性 如 電 子 郵 件 地 址 及 專 有 名 詞 等, 目 前 有 許 多 中 文 組 織 名 稱 及 中 文 人 名 辨 識 的 研 究, 利 用 序 列 標 記 配 合 機 率 統 計 模 型 是 主 要 辨 識 方 式 辨 識 正 式 文 章 中 文 命 名 實 體 Zhang 等 人 [13] 於 2007 年 將 多 個 CRF 模 型 串 連 起 來 進 行 組 織 名 稱 辨 識, 採 用 的 特 徵 值 包 含 是 否 為 前 級 輸 出 的 各 種 命 名 實 體 常 見 的 組 織 名 稱 開 頭 內 容 與 結 尾 N-gram 並 以 中 文 人 民 日 報 新 聞 稿 當 作 訓 練 資 料, 其 最 終 的 中 文 組 織 名 稱 辨 識 Recall 可 以 達 到 88.78%,Precision 可 達 到 82.35% 2011 年 Yao[11] 將 中 文 組 織 名 稱 分 為 三 個 部 份 包 含 前 置 詞 (Prefix words) 中 間 詞 (Middle words) 記 號 詞 (Mark words), 舉 例 來 說 : 中 國 移 動 通 訊 公 司 可 以 拆 成 中 國 + 移 150

動 通 訊 + 公 司, 考 慮 中 文 組 織 名 稱 的 出 現 頻 率 詞 性 與 長 度, 並 配 合 自 行 設 計 的 統 計 方 法 實 驗 使 用 了 人 民 網 的 語 料 進 行 訓 練, 以 人 民 網 新 華 網 和 北 京 郵 電 大 學 網 站 首 頁 的 新 聞 當 作 測 試 資 料, 其 中 文 組 織 名 稱 辨 識 Recall 可 以 達 到 87.24%,Precision 可 達 到 95.9% 2012 年 Ling 等 人 [7] 將 中 文 組 織 名 稱 語 料 斷 詞 後 拆 解 為 多 個 修 飾 詞 (Modifiers)+ 核 心 特 徵 詞 (Core Feature Word) 在 統 計 訓 練 資 料 後, 找 出 常 用 的 核 心 特 徵 詞, 建 立 核 心 特 徵 詞 庫 當 作 組 織 名 稱 的 結 尾, 並 以 特 徵 判 斷 組 織 名 稱 的 起 點 取 得 候 選 者 之 後, 利 用 規 則 式 的 辨 認 方 法 (Rule-based Named-Entity Recognition) 進 行 修 正 最 後 的 實 驗 結 果 顯 示, F-measure 最 高 可 達 到 85.7% 辨 識 非 正 式 文 章 中 文 命 名 實 體 目 前 已 經 有 許 多 如 上 述 在 正 式 文 章 中 的 中 文 組 織 名 稱 辨 認 ( CONER, Chinese Organization Named Entity Recognition) 研 究 [7][11][13], 但 用 這 類 訓 練 資 料 產 生 的 模 型 在 網 頁 及 社 群 媒 體 短 文 等 非 正 式 文 章 中 的 辨 識 效 果 較 不 理 想 為 了 解 決 這 個 問 題,Lin 等 人 在 2014 年 [6], 以 中 華 黃 頁 網 站 取 得 的 商 家 名 稱 對 網 頁 語 料 進 行 自 動 標 記 (Automatic Labeling), 再 利 用 自 動 標 記 後 的 語 料 訓 練 CRF 序 列 標 記 模 型 在 包 含 地 址 網 頁 以 及 Google 搜 尋 引 擎 進 行 查 詢 所 回 傳 的 搜 尋 結 果 片 段 兩 種 資 料 中 使 用 所 有 商 家 名 稱 來 進 行 標 記 ( 稱 之 為 Full-Labeling) 來 建 立 測 試 資 料 在 包 含 地 址 網 頁 中 文 商 家 名 稱 辨 識 F-measure 僅 達 39.8%; 而 搜 尋 結 果 片 段 的 F-measure 可 達 為 79.1% 我 們 認 為 前 者 效 能 不 佳 的 原 因, 可 能 在 於 不 同 網 頁 的 文 句 的 變 異 較 大 且 切 割 的 困 難, 此 外 Lin 等 人 [6] 採 用 斷 詞 分 析 語 句, 但 經 過 斷 詞 後 邊 界 錯 誤 的 問 題 會 較 為 嚴 重 在 Google 搜 尋 為 資 料 來 源 部 分,Lin 等 人 [6] 採 用 完 整 Google 搜 尋 結 果 片 段 進 行 訓 練, 過 長 的 結 果 片 段 會 致 使 訓 練 時 間 拉 長, 也 難 有 好 的 辨 識 效 果 本 篇 論 文 延 續 Chou 及 Chang [2] 於 2014 在 網 頁 中 文 人 名 的 辨 識 研 究 中, 為 了 解 決 訓 練 資 料 過 少 導 致 辨 識 效 果 不 佳 的 問 題, 使 用 網 路 爬 蟲 於 網 際 網 路 上 自 動 收 集 大 量 包 含 中 文 姓 名 的 資 料, 並 自 動 標 記 已 知 的 人 名 為 答 案, 作 為 訓 練 資 料 之 用 由 於 自 動 標 記 答 案 會 有 資 料 品 質 較 差 的 固 顧 慮, 為 提 升 訓 練 資 料 的 品 質,Chou 等 人 也 引 入 自 我 測 試 Self-Testing 方 法 保 留 可 信 度 較 高 的 訓 練 資 料 ; 同 時 為 了 能 利 用 未 標 記 的 資 料, 也 改 良 Zhou 等 人 於 2005 發 表 的 原 始 半 監 督 式 Tri-Training 演 算 法 [12], 使 得 自 未 標 記 資 料 (U) 中 選 取 的 新 增 訓 練 資 料 量 足 以 對 效 能 產 生 影 響, 以 提 升 辨 識 正 確 率, 最 終 F-measure 可 達 到 91.3% 三 系 統 架 構 我 們 設 計 的 Web NER 模 組 產 生 系 統 主 要 是 接 受 使 用 者 提 供 的 命 名 實 體 列 表, 從 Google 搜 尋 結 果 片 段 中 進 行 自 動 標 記 產 生 標 記 訓 練 資 料, 再 藉 由 關 鍵 詞 庫 (Dictionary) 建 立 特 徵 值 擷 取 (Feature Extraction), 運 用 CRF 建 模 同 時 為 彌 補 自 動 標 記 之 不 足, 我 們 採 用 Self-Testing 與 半 監 督 式 Tri-Training 訓 練 改 善 標 記 錯 誤 及 標 記 不 完 全 等 問 題, 以 達 到 辨 識 效 能 提 升 的 目 的 相 較 於 收 集 訓 練 語 句 再 由 人 工 標 記 命 名 實 體, 由 使 用 者 提 供 大 量 命 名 實 體 範 例 再 由 系 統 從 Web 收 集 訓 練 語 句 並 自 動 標 記 的 成 本 相 對 少 很 多 系 統 架 構 如 圖 一, 主 要 模 組 包 括 訓 練 資 料 收 集 模 組 自 動 標 記 模 組 特 徵 值 擷 取 模 組 Tri-Training 訓 練 模 組 及 測 試 擷 取 模 組, 將 於 本 章 節 中 詳 細 描 述 151

3.1 資 料 收 集 與 自 動 標 記 模 組 為 減 少 人 工 準 備 資 料 的 負 荷, 本 系 統 利 用 使 用 者 輸 入 的 命 名 實 體 列 表 作 為 Google 搜 尋 的 查 詢 詞, 收 集 Google 搜 尋 引 擎 回 傳 的 前 N 筆 搜 尋 結 果 片 段 在 本 研 究 訓 練 資 料 準 備 部 份 使 用 Google 搜 尋 引 擎 回 傳 的 前 5 筆 搜 尋 結 果 片 段, 而 測 試 資 料 則 收 集 Google 搜 尋 引 擎 回 傳 的 前 10 筆 搜 尋 結 果 片 段 圖 一 系 統 架 構 圖 自 動 標 記 命 名 實 體 以 往 CRF 序 列 標 記 模 型 的 訓 練 資 料 皆 為 人 工 方 式 產 生, 雖 然 資 料 的 品 質 可 以 信 賴, 但 需 花 費 大 量 的 時 間 與 人 力 由 於 人 工 對 搜 尋 結 果 片 段 進 行 答 案 標 記 成 本 過 高, 為 此, 本 工 具 使 用 已 知 的 命 名 實 體 作 為 答 案, 對 搜 尋 結 果 片 段 內 容 進 行 自 動 標 記, 該 標 記 即 為 欲 擷 取 的 目 標, 如 此 可 以 節 省 大 量 訓 練 資 料 標 記 成 本 基 於 Lin 等 人 [6] 的 研 究 顯 示, 使 用 單 一 的 商 家 名 稱 來 自 動 標 記 ( 稱 之 為 UniLabeling) 的 辨 識 效 果 較 採 用 所 用 商 家 名 稱 來 進 行 標 記 ( 稱 之 為 FullLabeling) 要 來 的 差, 原 因 是 在 UniLabeling 模 型 中, 資 料 含 有 較 多 標 記 不 完 全 的 雜 訊, 使 得 效 能 下 降 ; 而 FullLabeling 模 型 使 用 所 有 的 商 家 名 稱 進 行 標 記, 因 此 雜 訊 大 幅 減 少 為 減 少 雜 訊 影 響, 本 系 統 採 用 FullLabeling 的 方 式 進 行 自 動 標 記 比 對 法 標 記 長 命 名 實 體 自 動 標 記 的 挑 戰 在 於 對 於 較 長 拼 音 文 字 的 命 名 實 體 使 用 完 全 相 配 (Exact Match) 並 不 能 有 效 的 標 記 這 是 因 為 較 長 拼 音 文 字 的 命 名 實 體 在 不 正 式 網 頁 文 章 中 的 書 寫 方 式 相 較 正 式 文 章 具 有 彈 性, 例 如 英 文 地 址 在 正 式 書 寫 時 會 有 固 定 格 式 拼 寫 以 及 縮 寫 方 式 一 致 等 規 定 但 我 們 利 用 1131 Mountain Rd NW, Albuquerque, NM 87102 在 Google 搜 尋 時, 雖 然 雙 引 號 ( ) 能 限 制 搜 尋 結 果 都 要 有 包 含 搜 尋 詞, 但 雙 引 號 並 不 能 保 證 搜 尋 結 果 片 段 內 容 中 的 命 名 實 體 與 搜 尋 詞 完 全 一 致, 搜 尋 結 果 片 段 中 就 算 是 在 搜 尋 詞 中 穿 插 不 同 標 點 符 號, 或 是 沒 有 任 何 標 點 符 號 都 會 被 搜 尋 出 來 從 圖 二 可 以 看 到 在 Google 搜 尋 前 10 筆 結 果 片 段 就 有 7 種 不 同 寫 法, 而 它 們 明 顯 都 是 表 示 此 一 地 址 152

圖 二 1131 Mountain Rd NW, Albuquerque, NM 87102 在 Google 搜 尋 得 到 多 種 寫 法 如 使 用 完 全 相 配 方 式 來 做 自 動 標 記, 這 些 地 址 將 沒 辦 法 被 標 記 出 來 為 了 處 理 較 長 命 名 實 體 可 能 因 標 點 及 縮 寫 等 問 題 無 法 被 辨 認 出 來 的 情 形, 我 們 使 用 排 比 (Alignment) 的 方 式 找 出 搜 尋 結 果 片 段 內 容 中 可 能 的 名 命 實 體 位 置 在 搜 尋 結 果 片 段 中 找 尋 目 標 命 名 實 體 時, 我 們 希 望 標 記 目 標 的 命 名 實 體 在 搜 尋 結 果 片 段 中 與 查 詢 詞 相 匹 配 的 字 越 集 中 相 鄰 越 好, 因 此 我 們 設 計 了 排 比 標 記 法 (AlignmentLabeling) 標 記 搜 尋 結 果 片 段, 再 以 排 比 搜 尋 結 果 片 段 以 及 搜 尋 詞 所 產 生 的 相 配 Match 及 間 隔 Gap 大 小, 做 為 我 們 判 斷 此 一 排 比 後 的 結 果 是 否 該 標 記 的 依 據 如 搜 尋 結 果 片 段 中 與 查 詢 詞 經 過 排 比 後 符 合 (1) 相 配 字 數 大 於 命 名 實 體 長 度 Len 減 去 間 隔 大 小 的 一 半, 且 (2) 第 一 個 排 比 配 對 到 的 字 1 到 最 後 一 個 排 比 配 對 到 的 字 與 命 名 實 體 查 詢 詞 長 度 差 距 小 於 3, 則 系 統 將 會 標 記 為 出 現 範 例 (Mat h > Len Ga 2 ) 且 ( ( 1 ) Len < 3) 然 而 排 比 標 記 法 對 於 非 拼 音 文 字 如 中 文 應 用 的 效 果 不 如 拼 音 文 字 中 文 不 同 於 英 文, 中 文 的 縮 寫 是 從 長 句 子 中 取 具 有 代 表 性 的 字 出 來, 並 且 不 會 在 單 一 命 名 實 體 中 隨 意 加 入 標 點 符 號 再 者 本 系 統 在 對 Google 搜 尋 時 會 使 用 雙 引 號, 因 此 能 確 保 搜 尋 結 果 片 段 中 的 長 命 名 實 體 會 與 查 詢 詞 完 全 一 致, 如 此 我 們 將 可 利 用 完 全 相 配 標 記 法 (ExactMatchLabeling) 正 確 且 有 效 率 的 做 自 動 標 記 3.2 字 串 切 割 與 標 記 模 組 在 訓 練 資 料 的 準 備 上, 雖 然 可 以 採 用 完 整 Google 搜 尋 結 果 片 段 做 為 樣 本 單 元 進 行 訓 練, 但 過 長 的 句 子 會 致 使 訓 練 時 間 拉 長, 也 難 有 好 的 辨 識 效 果 但 是 搜 尋 結 果 片 段 中 的 網 頁 文 章 會 有 標 點 符 號 混 用 以 及 格 式 架 構 不 嚴 謹 的 問 題, 直 接 利 用 統 一 的 切 割 方 法 將 造 成 訓 練 樣 本 長 度 相 差 過 大 且 品 質 不 良 為 準 備 適 當 長 度 的 訓 練 句 子, 我 們 移 除 搜 尋 結 果 片 段 中 的 空 白 字 元, 利 用 自 動 標 記 的 答 案 為 基 準 取 前 後 W 字 元 為 窗 口 大 小, 在 我 們 實 驗 中, 中 文 及 日 文 設 定 W 為 20, 而 英 文 則 設 W 為 10, 將 文 字 切 為 許 多 區 塊, 以 區 塊 為 一 個 訓 練 樣 本, 最 後 去 除 重 複 的 樣 本, 如 此 可 使 訓 練 樣 本 涵 蓋 命 名 實 體, 也 能 有 適 當 的 非 命 名 實 體 範 例 圖 三 為 設 定 W 為 20 的 切 割 範 例 圖 三 中 文 組 織 名 稱 辨 識 搜 尋 片 段, 取 N=20, 以 詠 展 商 行 為 基 準 153

本 系 統 採 用 不 斷 詞 的 中 文 字 為 基 本 處 理 單 元 Token, 避 免 樣 本 因 為 錯 誤 斷 詞 產 生 命 名 實 體 被 分 割 成 兩 個 詞 的 邊 界 錯 誤 的 問 題, 減 少 錯 誤 累 積 同 時 對 於 每 一 筆 搜 尋 結 果 片 段 我 們 的 系 統 會 先 將 所 有 全 形 符 號 轉 換 成 半 形 符 號, 如 表 三 所 示 表 三 全 形 符 號 轉 換 成 半 形 符 號 範 例 圓 弧 括 號 非 圓 弧 括 號 ((( ==> ( [ { { { ==> [ 答 案 標 記 方 式 我 們 選 用 Start/End 標 記 法, 此 種 標 記 法 共 有 5 個 標 記 B I E S O, 依 序 表 示 命 名 實 體 的 開 始 中 間 結 束 單 一 序 列 單 元 以 及 非 命 名 實 體 的 序 列 單 元, 因 為 對 開 始 和 結 束 都 給 予 不 同 的 標 記, 可 以 提 昇 邊 界 的 偵 測 效 果 3.3 特 徵 值 擷 取 模 組 特 徵 值 的 提 取 是 訓 練 資 料 準 備 中 非 常 重 要 的 一 步, 常 見 的 特 徵 是 判 定 一 個 字 是 否 為 具 有 某 種 屬 性, 例 如 是 否 為 數 字 或 是 百 家 姓 等, 因 此 準 備 相 關 詞 庫 是 相 當 繁 瑣 的 一 環 一 般 說 來, 在 判 斷 一 段 文 字 是 否 是 特 定 命 名 實 體 時, 會 依 靠 兩 類 特 徵, 第 一 種 是 外 部 特 徵 (Outside Feature), 這 種 特 徵 落 在 命 名 實 體 的 左 右, 第 二 種 則 是 命 名 實 體 的 內 部 特 徵 (Inside Feature) 然 而 這 些 特 徵 往 往 必 須 要 靠 著 熟 悉 語 言 或 對 該 辨 識 領 域 了 解 的 人 來 逐 一 產 生, 如 我 們 要 針 對 中 文 以 外 的 語 言 進 行 辨 識, 關 鍵 詞 庫 就 必 須 要 由 熟 悉 該 國 語 言 且 有 足 夠 背 景 知 識 的 人 員 來 準 備 為 了 使 得 本 系 統 能 夠 避 免 這 種 語 言 能 力 及 辨 識 主 題 上 的 限 制 達 到 通 用 的 目 的, 我 們 的 做 法 為 統 計 字 詞 出 現 頻 率, 自 動 產 生 常 見 的 關 鍵 詞 庫 實 務 上, 我 們 統 計 命 名 實 體 中 的 前 一 字 兩 字 及 三 字 的 頻 率 以 及 最 後 一 字 兩 字 及 三 字 的 頻 率, 如 表 四 中 ID 4~9 舉 例 而 言, 中 文 商 家 名 稱 最 後 一 字 常 出 現 廟 莊 店 等 一 字 詞, 或 是 事 務 數 位 等 兩 字 詞, 又 或 是 基 金 會 雜 貨 店 等 三 字 詞 我 們 也 以 命 名 實 體 出 現 在 樣 本 中 的 位 置 為 基 準, 統 計 出 現 在 其 前 後 方 字 詞 頻 率, 如 表 四 中 ID 10~15 即 為 外 部 特 徵 值 我 們 利 用 自 動 選 擇 前 M 個 常 出 現 的 字 或 詞 來 產 生 關 鍵 詞 庫, 在 實 驗 章 節 將 有 針 對 關 鍵 詞 庫 大 小 對 辨 識 效 果 的 影 響 進 行 實 驗 除 上 述 12 個 自 動 產 生 之 特 徵 值 外, 再 加 上 針 對 辨 識 類 別 特 別 準 備 的 特 徵 如 縣 市 名 稱 及 其 簡 稱 詞 性 (POS)tagging 是 否 為 標 點 符 號 等 特 徵, 此 外 因 為 在 網 頁 中 命 名 實 體 也 常 有 單 獨 出 現 的 情 形, 因 此 一 段 文 字 的 起 點 就 變 成 重 要 特 徵, 如 果 是 樣 本 單 元 的 起 點 或 前 一 個 字 元 屬 於 符 號 類, 就 具 有 開 始 特 徵 (Start Feature), 當 字 元 是 樣 本 單 元 的 結 尾 或 下 一 個 字 元 屬 於 符 號 類, 就 具 有 結 尾 特 徵 (End Feature), 共 6 個 預 設 特 徵 值 在 不 另 外 調 整 的 情 形 本 工 具 總 共 18 個 特 徵 值 3.4 自 我 測 試 與 協 同 訓 練 我 們 使 用 開 放 且 免 費 的 CRF++[3] 程 式 做 為 序 列 標 記 模 型 訓 練 方 法 由 於 本 研 究 採 用 自 動 化 的 技 術 收 集 大 量 非 結 構 化 的 資 料 以 及 自 動 標 記 產 生 的 訓 練 資 料, 這 些 大 量 的 訓 練 資 料 可 能 包 含 錯 誤 標 記, 為 了 提 升 訓 練 資 料 的 品 質, 我 們 的 工 具 設 計 在 學 習 過 程 中 可 選 擇 使 用 Self-testing 將 雜 訊 移 除 提 高 訓 練 資 料 的 品 質 Self-testing 的 實 作 方 式 是 使 用 訓 練 完 成 的 模 型 對 訓 練 資 料 做 測 試 並 輸 出 機 率, 若 該 機 率 低 於 門 檻 值 則 認 定 該 語 句 為 雜 訊, 自 訓 練 資 料 中 移 除, 再 以 移 除 雜 訊 後 的 資 料 重 新 訓 練 模 型, 在 本 研 究 的 實 驗 中 設 定 機 率 為 0.7, 其 值 可 以 視 情 況 調 整 完 成 初 步 的 資 料 品 質 提 升 後, 工 具 會 以 Self-testing 後 之 資 料 為 基 礎, 加 上 Chou 等 人 發 表 的 Tri-Training 演 算 法 之 改 進 [2], 應 用 未 標 記 資 料 來 改 善 效 能 Tri-Training 的 實 作 方 154

式 是 在 學 習 過 程 中 使 用 三 個 分 類 器,hi hj 與 hk (i,j,k,1,, 3, i ) 利 用 已 標 記 的 資 料 (L) 訓 練 模 型, 並 使 用 投 票 (Voting) 想 法 挑 選 可 信 度 較 高 的 未 標 記 資 料 (U) 放 到 L 集 合 中, 稍 後 以 新 增 資 料 後 的 L 重 新 訓 練 分 類 器, 疊 代 次 數 增 加 L 集 合 所 包 含 的 訓 練 資 料 量 亦 隨 之 增 加, 使 得 分 類 器 的 辨 識 效 能 更 進 一 步 提 升 表 四 自 動 產 生 的 中 文 組 織 名 稱 辨 識 特 徵 值 ID 說 明 長 範 例 4 POI 中 常 見 前 方 字 1 代 茶 5 POI 中 常 見 前 方 詞 2 事 務 數 位 6 POI 中 常 見 前 方 詞 3 多 媒 體 星 巴 克 7 POI 中 常 見 倒 數 字 1 廟 莊 店 8 POI 中 常 見 倒 數 詞 2 門 市 公 司 9 POI 中 常 見 倒 數 詞 3 基 金 會 雜 貨 店 10 常 見 於 POI 前 方 的 字 1 到 的 11 常 見 於 POI 前 方 的 詞 2 推 薦 加 盟 12 常 見 於 POI 前 方 的 詞 3 名 稱 : 店 介 紹 13 常 見 於 POI 後 方 的 字 1 逛 是 14 常 見 於 POI 後 方 的 詞 2 統 編 營 業 15 常 見 於 POI 後 方 的 詞 3 高 品 質 營 業 項 在 每 一 輪 的 疊 代,Tri-Training 使 用 兩 個 模 組 hj 與 hk 標 記 U 中 的 資 料, 若 兩 模 型 答 案 一 致, 我 們 可 以 將 此 答 案 當 作 h 第 t 次 疊 代 的 新 訓 練 資 料,h 第 t 次 疊 代 的 訓 練 資 料 為 L 若 資 料 量 過 大,h 第 t 次 疊 代 的 錯 誤 率 以 表 示, 前 後 次 疊 代 間 的 錯 誤 率 比 例 公 式 < 1 1 將 無 法 成 立, 此 時 則 須 對 做 取 樣 動 作, 由 s= 1 1 1 公 式 計 算 可 以 自 隨 機 挑 選 s 筆 資 料 為 新 增 的 訓 練 資 料, 確 保 公 式 < 成 立 Chou 等 人 [2] 的 改 良 演 算 法 使 得 Tri-Training 可 適 用 於 較 大 的 資 料 集, 避 免 原 始 Tri-Training 在 大 量 資 料 的 情 況 下, 僅 可 自 U 中 選 取 少 量 資 料 作 為 新 的 訓 練 資 料, 對 系 統 效 能 幾 乎 沒 有 影 響 的 問 題 1 1 四 實 驗 本 論 文 目 的 在 完 成 一 個 不 限 語 言 主 題 的 Web NER 模 型 自 動 產 生 工 具, 我 們 也 將 從 實 驗 了 解 自 動 標 記 產 生 的 訓 練 資 基 本 效 能 (Basic) 透 過 Self-Testing 資 料 過 濾 以 及 Tri-Training 等 方 法 對 於 效 能 的 影 響 對 於 本 系 統 所 產 生 的 特 徵 擷 取 方 法, 我 們 也 將 應 用 中 文 商 家 名 稱 辨 識 實 驗 比 較 人 工 準 備 關 鍵 詞 庫 及 使 用 統 計 出 現 頻 率 的 方 式 自 動 產 生 關 鍵 詞 庫 對 於 效 能 的 影 響 155

由 於 在 判 定 是 否 為 正 確 答 案 時, 有 時 會 有 難 以 準 確 定 出 邊 界 的 可 能, 例 如 : 7-ELEVEN ( 行 天 門 市 ) 中, ( 行 天 門 市 ) 可 以 視 為 包 含 在 商 家 名 稱 之 中, 但 若 沒 有 標 記 出 ( 行 天 門 市 ) 只 有 7-ELEVEN 也 不 能 算 錯, 因 此 對 於 每 個 辨 識 到 的 命 名 實 體 e 與 正 確 答 案 的 命 名 實 體 a, 我 們 定 義 P(e,a) R(e,a) 分 數, 再 取 平 均 值 得 到 整 體 的 Precision Recall 其 定 義 如 下 : (, ) = (, ) = Pr cision = (, ) ntifie ntitie ca = (, ) ntitie Measu = 2PR + 依 照 上 述 的 評 分 公 式, 利 用 模 型 標 記 出 來 的 答 案 (Identified entity) 與 正 確 答 案 (Real entity) 間 重 疊 的 字 數 (Overlap tokens), 分 別 除 以 標 記 答 案 長 度 和 正 確 答 案 長 度 來 給 予 部 份 正 確 的 標 記 分 數, 此 方 法 可 以 避 免 因 為 一 兩 個 字 的 誤 差 而 導 致 完 全 沒 有 分 數 的 狀 況 4.1 實 驗 資 料 集 我 們 測 試 不 同 語 言 以 及 不 同 辨 識 主 題 的 Web NER 的 辨 識 正 確 率, 各 個 資 料 集 如 表 五 中 文 商 家 組 織 名 稱 辨 識 我 們 透 過 中 華 黃 頁 2 收 集 的 11,138 筆 商 家 名 稱, 透 過 Google 搜 尋 引 擎 進 行 查 詢, 取 每 筆 搜 尋 前 5 個 結 果 的 搜 尋 結 果 片 段, 並 以 已 知 的 商 家 名 稱 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 已 標 記 訓 練 資 料 (L) 未 標 記 訓 練 資 料 (U) 則 使 用 50,000 筆 商 家 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 共 提 取 156,822 個 句 子 測 試 資 料 則 以 另 外 2,000 筆 地 址 為 關 鍵 字, 收 集 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 38,692 個 句 子, 標 記 出 不 重 複 的 商 家 組 織 名 稱 共 16,241 個, 最 後 使 用 此 人 工 標 記 答 案 進 行 NER 效 能 評 估 日 文 商 家 組 織 名 稱 辨 識 我 們 透 過 iタウンページ 3 這 個 日 本 黃 頁 網 站 收 集 了 10,000 筆 日 文 商 家 名 稱, 取 每 筆 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 對 搜 尋 結 果 片 段 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 30,000 筆 商 家 名 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 的 搜 尋 結 果 片 段, 共 提 取 88,074 個 句 子 測 試 資 料 的 部 份 則 另 外 取 200 筆 地 址 為 關 鍵 字, 收 2 https://www.iyp.com.tw/ 3 http://itp.ne.jp/?rf=1 156

集 每 筆 查 詢 排 名 前 10 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 測 試 資 料 共 809 個 句 子, 共 標 記 不 重 複 的 日 文 商 家 組 織 名 稱 438 個 英 文 商 家 組 織 名 稱 辨 識 我 們 透 過 Yelp 4 收 集 的 10,000 筆 商 家 名 稱, 透 過 Google 搜 尋 引 擎 取 得 進 行 查 詢, 取 每 筆 搜 尋 前 5 個 結 果 的 搜 尋 結 果 片 段, 並 以 已 知 的 商 家 名 稱 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 即 為 已 標 記 訓 練 資 料 (L) 未 標 記 訓 練 資 料 (U) 則 使 用 30,000 筆 商 家 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 共 提 取 100,182 個 句 子 測 試 資 料 則 以 另 外 200 筆 地 址 為 關 鍵 字, 收 集 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 941 個 句 子, 標 記 出 不 重 複 的 商 家 組 織 名 稱 共 465 個, 最 後 使 用 此 自 動 標 記 答 案 進 行 NER 效 能 評 估 中 文 地 點 名 稱 辨 識 為 了 瞭 解 本 工 具 辨 識 不 同 類 別 的 能 力, 我 們 透 過 政 府 資 料 開 放 平 台 5 收 集 了 10,000 筆 臺 灣 地 區 地 名 資 料, 每 筆 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 30,000 筆 地 名 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 132,486 個 句 子 測 試 資 料 另 外 取 200 筆 地 名 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 人 工 的 方 式 標 記 測 試 資 料 共 2,638 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 名 600 個 中 文 地 址 辨 識 為 了 瞭 解 長 度 較 長 的 中 文 命 名 實 體 辨 識 效 果, 我 們 透 過 中 華 黃 頁 收 集 了 1,800 筆 臺 灣 地 址 為 搜 尋 關 鍵 字, 每 次 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 完 全 相 配 的 FullLabeling 標 記 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 10,000 筆 地 址 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 78,177 個 句 子 測 試 資 料 另 外 取 200 筆 中 文 商 家 組 織 名 稱 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 測 試 資 料 共 1,519 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 址 645 個 英 文 地 址 辨 識 為 了 瞭 解 長 度 較 長 的 英 文 命 名 實 體 辨 識 效 果, 我 們 透 過 Yelp 收 集 了 2,400 筆 美 國 地 址 為 搜 尋 關 鍵 字, 每 次 取 Google 搜 尋 排 名 前 5 的 搜 尋 結 果 片 段, 並 以 已 知 的 地 名 對 搜 尋 結 果 片 段 中 所 有 句 子 進 行 AlignmentLabeling 比 對 並 搭 配 UniLabeling 產 生 訓 練 資 料 (L) 未 標 記 資 料 (U) 使 用 6,650 筆 地 址 進 行 查 詢, 取 每 筆 搜 尋 排 名 前 10 個 結 果 的 搜 尋 結 果 片 段, 供 提 取 49,851 個 句 子 測 試 資 料 另 外 取 200 筆 英 文 組 織 名 稱 為 關 鍵 字, 收 集 排 名 前 10 的 搜 尋 結 果 片 段, 以 自 動 的 方 式 標 記 測 試 資 料 共 652 個 句 子, 共 標 記 不 重 複 的 臺 灣 地 區 地 址 257 個 4 http://www.yelp.com/ 5 http://data.gov.tw/?q=node/7063 157

Item Chinese Organization Name 表 五 不 同 語 言 與 不 同 辨 識 主 題 資 料 集 Japanese Organization Name English Organization Name Chinese Location Name Chinese address English address Source 中 華 黄 頁 i タウンページ Yelp OpenData 中 華 黄 頁 Yelp Training: L 11,138 10,000 10,000 10,000 1,800 2,400 #Sentence 87,916 29,999 39,798 53,313 28,739 18,198 Training: U 50,000 30,000 30,000 30,000 10,000 6,650 #Sentence 156,822 88,074 100,182 132,486 78,177 49,851 Testing 2,000 addr 200 addr 200 addr 200 loc 200 organ 200 organ #Sentence 38,692 809 941 2,638 1,519 652 #Distinct Entities 16,241 438 465 600 645 257 4.2 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能 以 中 文 組 織 名 稱 為 例, 我 們 分 別 使 用 50 100 150 200 個 字 或 詞 的 自 動 產 生 內 部 特 徵 以 及 外 部 特 徵 建 立 關 鍵 詞 庫, 使 用 Self-testing 將 雜 訊 移 除 提 高 訓 練 資 料 的 品 質, 實 驗 中 假 設 低 於 0.7 為 雜 訊 將 其 去 除, 並 以 Self-testing 後 之 資 料 為 基 礎 進 行 Tri-Training 演 算 法 各 別 關 鍵 詞 庫 大 小 之 效 能 如 圖 四 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能, 比 較 各 資 料 集 我 們 可 以 發 現 當 使 用 大 量 字 或 詞 的 關 鍵 詞 庫 將 導 致 Recall 大 幅 降 低 圖 四 使 用 不 同 大 小 自 動 關 鍵 詞 庫 比 較 效 能 4.3 多 種 語 言 及 辨 識 主 題 之 NER 效 能 接 下 來 的 實 驗 中 自 動 產 生 關 鍵 詞 庫 大 小 皆 設 為 100, 並 以 Self-testing 低 於 0.7 為 雜 訊 去 除 後 之 資 料 為 基 礎, 進 行 Tri-Training 演 算 法 158

短 命 名 實 體 辨 識 效 能 短 命 名 實 體 辨 識 效 能 如 表 六, 相 較 於 中 文 及 英 文 組 織 名 稱 辨 識 效 能, 日 文 的 組 織 名 稱 辨 識 的 F-measure 稍 低, 我 們 猜 測 其 原 因 可 能 在 於 日 文 屬 於 音 節 文 字 (Syllabary) 是 表 音 文 字 的 一 種, 除 了 部 分 使 用 漢 字 外 大 部 分 使 用 平 假 名 或 片 假 名 書 寫, 當 在 自 動 擷 取 外 部 與 內 部 特 徵 時 就 會 遇 到 僅 取 到 部 份 拼 音 而 不 具 有 意 義 的 問 題 我 們 也 注 意 到 在 中 文 地 點 名 稱 辨 識 部 分 有 很 高 的 Precision, 但 Recall 卻 明 顯 較 低 造 成 這 個 結 果 的 原 因 是 我 們 對 於 中 文 地 點 名 稱 有 較 廣 泛 的 定 義, 例 如 : 高 雄 市 紫 竹 寺 平 林 里 狗 母 山 東 石 大 橋 曹 公 圳 台 北 火 車 站 等 因 此 我 們 在 標 記 測 試 資 料 答 案 時 的 答 案 定 以 也 較 廣 泛, 但 實 際 模 組 在 標 記 時 雖 然 能 有 高 的 準 確 率, 但 卻 無 法 辨 識 所 有 類 型 的 中 文 地 點 名 稱 表 六 短 命 名 實 體 之 辨 識 效 能 採 用 自 動 產 生 之 關 鍵 詞 庫 Chinese organization names Japanese organization names English organization names Chinese location names Precision 0.825 0.845 0.789 0.925 Recall 0.875 0.766 0.881 0.777 F-measure 0.849 0.803 0.832 0.845 長 命 名 實 體 辨 識 效 能 本 系 統 對 Google 搜 尋 時 雖 使 用 雙 引 號, 確 保 搜 尋 結 果 片 段 中 的 長 命 名 實 體 會 與 查 詢 詞 之 字 與 字 之 間 順 序 一 致, 但 並 不 能 保 證 搜 尋 結 果 片 段 內 容 中 的 命 名 實 體 與 搜 尋 詞 完 全 相 同, 因 此 搜 尋 結 果 片 段 中 的 搜 尋 詞 中 可 能 穿 插 不 同 標 點 符 號 這 對 於 使 用 ExactMatchLabeling 標 記 出 長 的 拼 音 文 字 命 名 實 體 是 不 容 易 的 因 此 為 了 標 記 出 英 文 地 址, 我 們 使 用 AlignmentLabeling 比 對 並 搭 配 UniLabeling 來 標 記 查 詢 詞 所 在 但 由 中 文 地 址 在 單 一 命 名 實 體 中 不 會 隨 意 的 插 入 標 點 符 號 與 縮 寫, 因 此 我 們 可 使 用 ExactMatchLabeling 比 對 並 搭 配 FullLabeling 正 確 標 記 出 中 文 地 址 我 們 將 會 在 後 續 實 驗 中 比 較 AlignmentLabeling 與 ExactMatchLabeling 之 標 記 效 果 對 於 長 命 名 實 體 如 英 文 地 址 及 中 文 地 址 之 辨 識 效 能 見 表 七 表 七 長 命 名 實 體 之 辨 識 效 能 採 用 自 動 產 生 之 關 鍵 詞 庫 4.3 人 工 產 生 關 鍵 詞 庫 之 NER 效 能 Chinese address English address Precision 0.997 0.938 Recall 0.948 0.958 F-measure 0.972 0.948 除 自 動 產 生 關 鍵 詞 庫 之 外, 我 們 以 中 文 組 織 辨 識 為 例 採 用 人 工 產 生 關 鍵 詞 庫 比 較 與 系 統 自 動 產 生 詞 庫 效 能 的 差 異 特 徵 值 包 含 人 工 收 集 的 服 務 詞 產 品 詞 以 及 地 標 詞 詞 庫, 另 外 觀 察 常 見 於 商 家 名 稱 前 後 的 字 詞 產 生 更 多 詞 庫 159

表 八 顯 示 以 Google 搜 尋 結 果 片 段 辨 識 中 文 組 織 名 為 例, 比 較 系 統 自 動 產 生 詞 庫 人 工 產 生 關 鍵 詞 庫 與 Stanford NER 效 能 的 差 異 總 體 而 言, 雖 然 自 動 產 生 關 鍵 詞 庫 會 導 致 Precision 與 F-measure 降 低, 但 卻 能 夠 維 持 Recall 水 準 甚 至 微 幅 提 升 而 辨 識 效 果 降 低 主 要 原 因 可 能 在 於 商 家 組 織 名 稱 屬 於 變 異 性 較 大 的 一 種 命 名 實 體, 資 料 能 否 盡 可 能 的 涵 蓋 各 類 商 家 組 織 名 稱 的 特 性 是 重 要 因 素, 而 自 動 產 生 的 關 鍵 詞 庫 相 對 於 人 工 設 計 的 關 鍵 詞 庫 包 含 較 多 的 雜 訊, 且 會 有 完 全 針 對 輸 入 的 訓 練 資 料 設 計 等 問 題, 但 當 訓 練 資 料 量 夠 大 且 商 家 類 別 多 樣 化 時 辨 識 應 能 再 提 升 表 八 以 中 文 組 織 辨 識 為 例 比 較 系 統 自 動 產 生 詞 庫 人 工 產 生 關 鍵 詞 庫 與 Stanford NER 效 能 的 差 異 Manual Dictionary Automatic Dictionary Stanford Precision 0.8500 0.8249 0.529 Recall 0.8730 0.8753 0.557 F-measure 0.8613 0.8494 0.543 4.4 使 用 Self-Testing 及 Tri-Training 後 之 NER 效 能 提 升 本 實 驗 旨 在 了 解 使 用 Self-Testing 以 及 Tri-Training 產 生 之 新 辨 識 模 型 對 Google 搜 尋 結 果 片 段 NER 效 果 的 影 響 我 們 以 中 文 組 織 名 稱 辨 識 為 例, 將 訓 練 資 料 分 為 五 個 資 料 集 如 表 九 在 中 文 組 織 名 稱 辨 識 人 工 產 生 關 鍵 詞 庫 的 Self-Testing 及 Tri-Training 實 驗 中, 由 圖 五 可 以 看 到 利 用 採 用 人 工 產 生 關 鍵 詞 庫 方 式 在 Self-Testing 以 及 Tri-Training 的 各 個 資 料 集 大 小 辨 識 效 果 皆 有 提 升, 對 於 DS5 提 升 幅 度 為 4.83%, 由 0.8130 達 到 0.8613 表 九 中 文 組 織 名 稱 辨 識 之 已 標 記 訓 練 資 料 (DS1~DS5) 及 未 標 記 訓 練 資 料 (U) DS1 DS2 DS3 DS4 DS5 Unlabeled Query 1,000 3,000 4,000 6,000 11,138 50,000 Sentence 6,724 19,437 27,198 45,028 87,916 156,822 圖 五 Basic Self-Testing 及 Tri-Training 在 中 文 組 織 辨 識 人 工 產 生 關 鍵 詞 庫 之 效 能 160

4.5 比 較 ExactMatchLabeling 及 AlignmentLabeling 標 記 效 果 圖 六 顯 示 英 文 及 中 文 地 址 的 標 記 效 果 當 使 用 ExactMatchLabeling 比 對 搭 配 UniLabeling 及 FullLabeling 產 生 訓 練 資 料 時, 僅 可 從 86,388 筆 搜 尋 結 果 片 段 中 標 記 出 21,370 及 22,313 個 英 文 地 址 但 當 使 用 AlignmentLabeling 比 對 搭 配 UniLabeling 產 生 訓 練 資 料 時, 共 可 標 記 出 68,701 個 英 文 地 址 另 外, 當 使 用 ExactMatchLabeling 比 對 搭 配 UniLabeling 產 生 中 文 地 址 訓 練 資 料 時, 已 經 可 從 108,435 筆 搜 尋 結 果 片 段 中 標 記 出 95,558 個 中 文 地 址, 若 是 採 用 FullLabeling, 更 可 以 標 記 出 136,366 個 中 文 地 址 ; 因 此 使 用 AlignmentLabeling 比 對 搭 配 UniLabeling 標 記 出 98,154 個 中 文 地 址, 未 能 勝 過 ExactMatchLabeling 搭 配 FullLabeling 的 效 果 圖 六 AlignmentLabeling 與 ExactMatchLabeling 之 標 記 效 能 不 同 於 英 文, 通 常 中 文 並 不 會 在 單 一 命 名 時 體 中 加 入 標 點 符 號, 因 此 我 們 可 以 利 用 ExactMatchLabeling 標 記 出 大 量 的 長 命 名 實 體 除 此 之 外, 我 們 也 發 現 使 用 AlignmentLabeling 容 易 會 在 中 文 搜 尋 結 果 片 段 中 標 記 出 類 似 於 中 文 地 址 的 命 名 實 體 例 如, 彰 化 縣 鹿 港 市 場 169 號 並 非 是 合 法 的 台 灣 地 址, 但 在 AlignmentLabeling 仍 會 被 當 作 是 目 標 給 標 記 起 來, 此 種 錯 誤 會 導 致 較 低 的 準 確 率 在 表 十 中 我 們 比 較 了 Alignment 搭 配 UniLabeling 以 及 Exact Match 搭 配 FullLabeling 對 於 中 文 地 址 及 英 文 地 址 的 辨 識 影 響 我 們 可 以 從 表 十 中 看 出 對 於 英 文 地 址 辨 識 使 用 Alignment 搭 配 UniLabeling 可 以 得 到 較 好 的 Recall 以 及 F-measure(0.948); 然 而 在 中 文 地 址 辨 識, 使 用 Exact Match 搭 配 FullLabeling 可 以 得 到 較 好 的 Recall 以 及 F-measure(0.972) 表 十 長 命 名 實 體 使 用 Alignment + UniLabeling 及 ExactMatch + FullLabeling 之 效 能 Alignment + UniLabeling ExactMatch + FullLabeling Type Chinese address English address Chinese address English address Labeled Entity 98,154 68,701 136,366 21,370 Precision 0.911 0.938 0.997 0.951 Recall 0.456 0.958 0.948 0.330 F-measure 0.607 0.948 0.972 0.490 161

五 結 論 訓 練 一 個 模 型 的 時 間 和 人 力 成 本 非 常 的 高, 包 含 前 置 的 大 量 訓 練 資 料 準 備 人 工 收 集 答 案 標 記 答 案, 為 了 提 升 模 組 辨 識 效 果 而 必 須 要 為 資 料 做 適 當 優 化, 以 及 特 徵 值 的 設 計 關 鍵 詞 庫 準 備 等, 工 作 非 常 瑣 碎 複 雜, 且 對 於 不 同 語 言 或 不 同 辨 識 主 題 都 要 再 重 新 設 計 特 徵 值 本 研 究 期 能 設 計 一 個 使 用 Google 搜 尋 結 果 片 段 之 Web NER 辨 識 模 型 的 產 生 工 具, 不 僅 解 決 上 述 命 名 實 體 辨 識 過 於 耗 時 費 力 的 問 題, 也 能 夠 輕 易 地 應 用 在 不 同 的 辨 識 類 型 語 言 中, 並 希 望 達 到 良 好 的 辨 識 效 果 在 本 系 統 我 們 使 用 自 動 標 記 的 方 式 標 記 訓 練 資 料 而 非 使 用 人 工 標 記 答 案, 並 且 為 了 有 效 標 記 長 的 命 名 實 體 我 們 可 以 使 用 AlignmentLabeling 增 加 標 記 到 的 命 名 實 體 數 量 雖 然 自 動 標 記 可 能 包 含 雜 訊, 但 我 們 因 而 能 產 生 大 量 的 已 標 記 訓 練 資 料 外 部 特 徵 是 進 行 命 名 實 體 辨 認 的 重 要 輔 助, 而 內 部 特 徵 能 提 供 強 烈 的 判 斷 資 訊, 我 們 利 用 頻 率 統 計 的 方 式 能 夠 自 動 產 生 上 述 兩 種 特 徵, 並 利 用 完 整 標 記 已 知 大 量 的 命 名 實 體 與 Self-Testing 及 Tri-Training 演 算 法, 使 得 辨 識 效 能 更 進 一 步 提 升, 解 決 訓 練 資 料 品 質 不 佳 的 問 題 我 們 以 中 文 之 商 家 組 織 名 稱 辨 識 做 測 試, 實 驗 顯 示 在 中 文 組 織 名 稱 辨 識 部 份 以 Tri-Training 演 算 法 確 實 使 得 辨 識 效 能 更 進 一 步 提 升,F-Measure 可 由 DS1 的 0.779 提 升 至 DS5 的 0.861, 而 在 日 文 組 織 名 稱 而 在 英 文 組 織 名 稱 中 文 地 點 名 稱 中 文 地 址 以 及 英 文 地 址 的 F-Measure 辨 識 效 果 依 序 可 達 80.3%, 83.2%, 84.5%, 97.2% 及 94.8% References [1] D.-M. Bikel, S. Miller, R. Schwartz and R. Weischedel, "Nymble: a High-Performance Learning Name-finder, Applied natural language processing, pp. 194-201, 1997. [2] C.-L. Chou, C.-H. Chang, S.-Y. Wu, " Semi-supervised Sequence Labeling for Named Entity Extraction based on Tri-Training: Case Study on Chinese Person Name Extraction," Semantic Web and Information Extraction, pp. 244-255, 2014. [3] CRF++: Yet Another CRF toolkit, http://crfpp.googlecode.com/svn/trunk/doc/index.html 9-1541 [4] J. Lafferty, A. McCallum and F.C.N. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," ICML Proceedings of the Eighteenth International Conference on Machine Learning, pp. 282-289, 2001. [5] C. Gu, X.-P. Tian, and J.-D Yu, "Automatic Recognition of Chinese Personal Name Using Conditional Random Fields and Knowledge Base," Mathematical Problems in Engineering, 2015. [6] Y.-Y. Lin, C.-H. Chang, "Store Name Extraction and Name-Address Matching on the Web," Proceedings of the 26th Conference on Computational Linguistics and Speech Processing, pp. 91-93, 2014. [7] Y. Ling, J. Yang and L. He, "Chinese Organization Name Recognition Based on Multiple Features," Pacific Asia conference on Intelligence and Security Informatics, pp. 136-144, 2012. [8] W. Li, A. McCallum, "Semi-supervised sequence modeling with syntactic topic models," 162

AAAI'05 Proceedings of the 20th national conference on Artificial intelligence - Volume 2, pp. 813-818, 2005. [9] A. McCallum, W. Li, "Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons," Proceedings of the Seventh Conference on Natural Language Learning HLT-NAACL 2003 - Volume 4 (CONLL'03), pp. 188-191, 2003. [10] C.-W. Wu, R. T.-H. Tsai and W.-L. Hsu, "Semi-joint labeling for Chinese named entity recognition," Proceedings of the 4th Asia information retrieval conference, pp. 107-116, 2008. [11] X. Yao, "A Method of Chinese Organization Named Entities Recognition Based on Statistical Word Frequency, Part of Speech and Length," Broadband Network and Multimedia Technology (IC-BNMT), pp. 637-641, 2011. [12] Z.-H. Zhou, M. Li, "Tri-Training: Exploiting Unlabeled Data Using Three Classifiers", IEEE Transactions on Knowledge and Data Engineering archive, Volume 17 Issue 11, November 2005, Page 152. [13] S. Zhang, S. Zhang and X. Wang, "Automatic Recognition of Chinese Organization Name Based on Conditional Random Fields," Natural Language Processing and Knowledge Engineering, pp. 229-233, 2007. 163