國立台灣大學圖書資訊學系四十週年系慶學術研討會論文格式

Similar documents
现代汉语语料库基本加工规格说明书

Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing

实验室代码

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

2006中國文學研究範本檔

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

44(1) (1) (4) (4) 63-88TSSCI Liu, W. Y., & Teele S. (2009). A study on the intelligence profile

2019 Chinese Taipei National High School Athletic Game Boxing Championship Junior Men Division Top 8 As of WED 24 APR 2019 Men s Mosquito(38-41Kg) Ran

ognitiongedr) CDC JHU ACE2005 CDC ACE2005 IBM CDC ACE2005 CDC 1 ACE [35-8] CDC CDC [ ] NIST ACE2008 GEDR CDC 1 1 CDC John Smiths [

2011 餐 年 旅 教 育 創 新 發 展 學 術 研 討 會 論 文 集 To Discuss the Implementation Status of the 99 Vocational Hospitality Programme Group -By C School for Example

Microsoft Word - 05 許雪姬3校稿0123.doc

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

第五章 縮略詞語普及度調查及分析

Microsoft Word - 08_76-93_¦ó³B¬O¡§Âk¡¨®a¡H.doc

% 30% % % % %

中 港 溪 流 域 客 家 族 群 瓹 業 經 濟 摘 要 這 是 三 年 研 究 計 畫 的 第 二 年 (98), 接 續 第 一 年 從 清 末 到 日 治 的 基 本 資 料 調 查, 本 年 度 從 戰 後 到 現 在 的 中 港 溪 流 域 的 發 展 呈 現 客 家 族 群 與 瓹 業

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

Microsoft Word 記錄附件


(1) ( ) : (3), (12) (7) (10)

untitled

Bairoch, ) (Angus Maddison,1926 ) (Bairoch, 1976, 1981), 1960, , 220, 228 ; , 447, 310, 178 (1993) (1988) Peter Brecke (

Your Paper's Title Starts Here: Please Center

1 引言

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

66 a T. S. Kuhn 2 b a b Thomas Kuhn disciplinary matrix examplars or shared examples incommensurability

护国运动时期云南都督府的“拥护共和”奖功制度


Schumpeter Mensch Freeman Clark Schumpeter Mensch 1975 technological stalemate 2000 Van Dujin 1977 OECD 1992 Freeman 1982 Van

<ABCAADB1202D322E707364>

第 一 章 数 学 系 的 历 史 沿 革 第 一 节 数 学 系 的 渊 源 和 机 构 变 革 情 况 1949 年 6 月, 邸 耀 宗 厉 瑞 康 在 太 原 市 北 郊 上 兰 村 原 进 山 中 学 的 废 墟 上 筹 建 兵 工 职 业 学 校,1950 年 改 为 兵 工 高 级 职

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

Microsoft Word - Preface_1_14.doc

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

Microsoft Word - 林文晟3.doc

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

普通高等学校本科专业设置管理规定

ULC ULC ULC ULC 1. 88

明新學報第31期

Fig. 1 Frame calculation model 1 mm Table 1 Joints displacement mm

14 卷 1 期 ( 民國 99 年 3 月 ) 頁 3-15 The Development of Institutional Repository in Taiwan Hsueh-hua Chen University Librarian, National Taiwan University

LAMP system and relative tools like SNMP, Expect, Nmap, etc. to build a cross- platform, lo

10 中央銀行季刊第三十一卷第一期民國 98 年 3 月 0.84% 1.73% 25.6% GDP 1.52% 0.44% 29.37% 0.90% 2.18% (4) a b c d e f 壹 前言 2004 (WTI) % 200

The Definition and Application of Ling-tzu in Tzu Style Wang Wei-Yung Professor, Department of Chinese Literature, National Cheng Kung University Chao

1對外華語文詞彙教學的策略研究_第三次印).doc

成 大 中 文 學 報 第 四 十 四 期 The Body Metaphors in The Travels of Lao Can Hsu Hui-Lin Assistant Professor, Department of Chinese Literature, National Taiwan

社科网-论文在线

(Microsoft Word - \262\304\244G\244Q\244@\264\301\261\306\252\251_\245\376_.doc)

Dan Buettner / /

Microsoft Word - chnInfoPaper6

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3

中國傳統醫學及養生保健學說中,與經脈及穴道有密不可分的關係

~ Capability Maturity Model Integration, CMMI CMMI

并非没有必要的一些宏观思考

Corporate Social Responsibility CSR CSR CSR 1 2 ~ CSR 6 CSR 7 CSR 8 CSR 9 10 ~ CSR 14 CSR CSR 2013 A A 23.

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

[1] [4] Chetverikov Lerch[8,12] LeaVis CAD Limas-Serafim[6,7] (multi-resolution pyramids) 2 n 2 n 2 2 (texture) (calf leather) (veins)

关于2007年硕士研究生培养方案修订几点要求的说明

2013国际营销科学与信息技术大会(MSIT2013)

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究

93年度分項計畫執行報告-子計畫八.doc

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

EXCEL EXCEL

1.2 资 金 的 管 理 1.1 权 利 义 务 来 源 MOU 1.3 数 据 的 使 用 和 保 护 2 国 际 空 间 站 资 源 分 配 方 案 54

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~


MOTC-IOT-103-H1DB001a 臺 灣 港 務 公 司 之 監 督 與 公 司 治 理 績 效 評 估 研 究 (2/2) 著 者 : 謝 幼 屏 吳 榮 貴 朱 金 元 吳 朝 升 孫 儷 芳 王 克 尹 林 玲 煥 張 淑 滿 陳 銓 楊 世 豪 陳 秋 玲

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

Microsoft Word - 5.黃鶴樓新詮.doc

A-錢穆宗教觀-171

Tanet

Microsoft Word - 1-編者的話


Microsoft Word - A doc

<A448A4E5AAC0B77CBEC7B3F8B2C43132A8F7B2C434B4C15F E706466>

ZS.indd

Microsoft Word ROCLING-WESum-LongAbstract.docx

臺灣華語教學研究 總第七期 Taiwan Journal of Chinese as a Second Language, Vol.7 鍵 每個人從嬰兒牙牙學語開始 終其一生 都在不斷地學習語言及其表達的 知識 包括語言知識 正常的人很自然地便掌握了日常生活需要的母語 口 語 但讀 寫能力以及第二語

續論

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能

x 前言 Python Python ETL extract transform load Python Python / Python Python Python

附3

Microsoft Word 定版

北 京 大 学

國立中山大學學位論文典藏.pdf

基 础 实 室 4 计 算 机 网 络 唐 爱 红 专 业 机 房 PROTEL 联 想 同 方 电 脑 180 台 唐 爱 红 MATLAB 计 算 机 网 络 电 工 电 子 技 能 训 练 室 电 子 基 本 技 能 示 波 器 毫 伏 表 雕 刻 机 图 示 仪 电 子 实 训 台 电 工

[1] [2] [3] [4] 20 [5] Thomas Barclay, [1] [2] [3] [4] [5]

穨2-06.doc

<4D F736F F D203338B4C12D42A448A4E5C3C0B34EC3FE2DAB65ABE1>

by industrial structure evolution from 1952 to 2007 and its influence effect was first acceleration and then deceleration second the effects of indust

Microsoft Word - 05洪淑苓--論黃得時對民間文學與古蹟文化之研究與貢獻.doc

文章

240 生 异 性 相 吸 的 异 性 效 应 [6] 虽 然, 心 理 学 基 础 研 [7-8] 究 已 经 证 实 存 在 异 性 相 吸 异 性 相 吸 是 否 存 在 于 名 字 认 知 识 别 尚 无 报 道 本 实 验 选 取 不 同 性 别 的 名 字 作 为 刺 激 材 料, 通

Transcription:

The 2019 Conference on Computational Linguistics and Speech Processing ROCLING 2019, pp. 241-245 The Association for Computational Linguistics and Chinese Language Processing MONPA: 中文命名實體及斷詞與詞性同步標註系統 葉文照 Wen-Chao Yeh 臺北醫學大學大數據科技及管理研究所 Graduate Institute of Data Science Taipei Medical University m946107004@tmu.edu.tw 謝育倫 Yu-Lun Hsieh 中央研究院及國立政治大學 SNHCC, TIGP, Academia Sinica & National Cheng Chi University morphe@iis.sinica.edu.tw 張詠淳 Yung-Chun Chang 臺北醫學大學大數據科技及管理研究所 Graduate Institute of Data Science Taipei Medical University changyc@tmu.edu.tw 許聞廉 Wen-Lian Hsu 中央研究院資訊科學研究所 Institute of Information Science Academia Sinica hsu@iis.sinica.edu.tw 摘要 有鑑於現今國內外研究繁體中文自然語言處理缺乏合適的斷詞 詞性標註及命名實體辨識的工具, 本研究基於 BERT 模型, 搭配 CRF 提出以多目標命名實體辨識與詞性標註 (Multi-Objective NER POS Annotator, MONPA) 系統, 並以供學術使用授權條款 CC BY-NC-SA 4.0 License 進行相關安裝套件釋出作業 透過 MONPA 的釋出, 嘉惠我國相關學術研究, 俾能加快繁體中文自然語言處理之進展 241

Abstract In view of the lack of suitable word segmentation, part-of-speech tagging and named entity recognition tools in the traditional Chinese natural language processing. This study is based on the BERT model with CRF to propose a multi-objective named-entity and part-of-speech annotator, which called MONPA. Our work not only propose a method but also release the relevant python package with the CC BY-NC-SA 4.0 License. We firmly believe that this research project can bridge the technical gap between academia and business applications with our innovation, and enable efficient development of traditional Chinese NLP by all entities in order to enhance our level of competitiveness in the world. 關鍵詞 : 中文斷詞, 詞性標註, 命名實體辨識, BERT Keywords: Chinese Word Segmentation, POS tagging, Name Entity Recognition, BERT 一 緒論 綜觀目前繁體中文的斷詞工具主要仰賴 Jieba 1 套件, 然而 Jieba 是基於簡體中文語料透過 HMM [1] 模型所訓練出來的成果, 因此對繁體中文的支援效果不佳, 且系統多年未更新 種種的限制讓國內學界或是產業界想要進行繁體中文自然語言處理之研究困難重重 此外, 命名實體辨識 (named entity recognition) 有助於瞭解句子結構進而提升理解能力, 但在目前處理繁體中文時尚無可用的工具 繁體中文自然語言處理的基礎設施於此種種的限制之下, 勢必使得臺灣的研發能力在這波 AI 浪潮中受阻 有鑑於此, 本研究以深度學習方法研發一種能同時完成 命名實體辨識 繁體中文斷詞 以及 詞性標註 之系統, 並將其完全開源釋出, 讓所有想要處理繁體中文的產學界使用者共享此研究成果 本研究所提出的多目標命名實體辨識與詞性標註 (Multi-Objective NER POS Annotator, MONPA) 系統, 是基於 BERT [2]( 應用雙向 Transformer) 模型來取得更強健的詞向量 (word embeddings) 並配合 CRF 同時進行斷詞 詞性標註 及 NER 等多個目標 BERT 模型為現今頂尖的詞向量獲取方法之一, 其利用自注意力 (self-attention) 機制及預訓練 (pre-training) 等技術以提取更能充分代表整個語句訊息的向量 本研究以授權條款 CC BY-NC-SA 4.0 License 進行相關套件釋出作業 為了使用的便利性, 我們 1 https://github.com/fxsjy/jieba 242

也將把 MONPA 組成套件發佈到 PyPI, 讓使用者能夠透過 pip install 指令安裝 使用者可以透過 Github 獲得 MONPA 相關資訊, 進而完成安裝, 允許獲得 MONPA 的人依照同一授權條款的情形下再散布 透過 MONPA 的釋出, 嘉惠我國相關研究與產業, 俾能加快繁體中文自然語言處理之進展 二 使用 MONPA MONPA [3] 是一個提供繁體中文分詞 詞性標註以及命名實體辨識的多任務模型, 初期只有使用原始模型 (v0.1) 的網站版本 2 ( 如圖一 ) 透過本研究的釋出,MONPA 已經包裝成可以 pip install 的 python 套件包, 在本次釋出中, 我們也透過 BERT 改善 MONPA 的效能 (v0.2), 並且發佈在 Github 3 與 PyPI 4 上 使用者能夠在不同的作業平台上透過 pip install 指令完成安裝程序, 此外, 本研究為了因應 pip 對套件檔案大小的限制, 所以在首次引入套件時才會啟動下載最新的 model 檔 Z39.50 is protocol for... 圖一 MONPA v0.1 網頁版示範圖 本研究的釋出包含了三個功能 : 斷詞 (cut function): 若只需要中文分詞結果 Figure 1. The Dynamite, 請使用 cut 功能, 回傳值是 list 格式 2 http://monpa.iis.sinica.edu.tw:9000/chunk 3 https://github.com/monpa-team/monpa 4 https://pypi.org/project/monpa/ 243

程式及輸出如下 : 1. monpa.cut(" 蔡英文總統今天受邀參加台北市政府所舉辦的陽明山馬拉松比賽 ") 2. [' 蔡英文 ', ' 總統 ', ' 今天 ', ' 受 ', ' 邀 ', ' 參加 ', ' 台北市政府 ', ' 所 ', ' 舉辦 ', ' 的 ', ' 陽明山 ', ' 馬拉松 ', ' 比賽 ', ' '] 詞性標註 (pseg function): 若需要中文分詞及該詞的 POS 標註, 請使用 pseg 功能, 回傳值是 list of list 格式, 程式及輸出如下 : 1. monpa.pseg(" 蔡英文總統今天受邀參加台北市政府所舉辦的陽明山馬拉松比賽 ") 2. [[' 蔡英文 ', 'PER'], [' 總統 ', 'Na'], [' 今天 ', 'Nd'], [' 受 ', 'P'], [' 邀 ', 'VF'], [' 參加 ', 'VC'], [' 台北市政府 ', 'ORG'], [' 所 ', 'D'], [' 舉辦 ', 'VC'], [' 的 ', 'DE'], [' 陽明山 ', 'LOC'], [' 馬拉松 ', 'Na'], [' 比賽 ', 'Na'], [' ', 'PERIODCATEGORY']] 加詞 (load_userdict function): 在 MONPA 元件中, 我們提供使用者自訂詞彙的功 能, 透過 load_userdict function 可以將使用者詞彙檔匯入, 請依 詞語詞頻詞性 順序製作自訂詞典文字檔 1. 受邀 100 V 當要使用自訂詞時, 請於執行分詞前先 load_userdict, 將自訂詞典載入到 monpa 模組 使用 pseg function 測試, 可發現回傳值已依自訂詞典分詞, 譬如 受邀 為一個詞而非 先前的兩字分列輸出 1. monpa.load_userdict("./userdict.txt") 2. monpa.pseg(" 蔡英文總統今天受邀參加台北市政府所舉辦的陽明山馬拉松比賽 ") 3. [[' 蔡英文 ', 'PER'], [' 總統 ', 'Na'], [' 今天 ', 'Nd'], [' 受邀 ', 'V'], [' 參加 ', 'VC'], [' 台北市政府 ', 'ORG'], [' 所 ', 'D'], [' 舉辦 ', 'VC'], [' 的 ', 'DE'], [' 陽明山 ', 'LOC'], [' 馬拉松 ', 'Na'], [' 比賽 ', 'Na'], [' ', 'PERIODCATEGORY']] 三 結論 MONPA 提供繁體中文自然語言處理一個全新的分詞 詞性標註暨命名實體辨識模型, 從原始的網頁版進化到現今以 Open Source 釋出的套件版, 可以看到全然不同的使用效率及應用效益 套件版於釋出前已經近千萬條短文句的處理測試, 並於台灣 NLP 研究圈公開後, 四天內已逾 6 百多次的安裝數,Github 專案也收到超過 40 多顆星星的鼓勵 相信本研究及釋出的安裝套件必定能嘉惠我國相關研究與產業, 加快繁體中文自然語言處理之進展 244

致謝 在此感謝中央研究院中文詞知識庫小組的協助 MONPA 在經中央研究院中文詞知識庫 小組同意下, 使用 CKIP 斷詞元件 [4] 輔助製作初期訓練資料 參考文獻 [1] Baum, L. E., Petrie, T., Soules, G., & Weiss, N. (1970). A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. The annals of mathematical statistics, 41(1), 164-171. [2] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arxiv preprint arxiv:1810.04805. [3] Hsieh, Y. L., Chang, Y. C., Huang, Y. J., Yeh, S. H., Chen, C. H., & Hsu, W. L. (2017, November). MONPA: Multi-objective Named-entity and Part-of-speech Annotator for Chinese using Recurrent Neural Network. In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 2: Short Papers) (pp. 80-85). [4] Ma, Wei-Yun and Keh-Jiann Chen, 2003, "Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff", Proceedings of ACL, Second SIGHAN Workshop on Chinese Language Processing, pp168-171. 245