34 2 夏静, 柴玉梅, 昝红英 : 基于统计和规则的常用词的兼类识别研究 w w-4 p-4 w-3 p-3 w-2 p-2 w-1 p w + 1 p + 1 w + 2 p + 2 w

Similar documents
2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

180 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2013 年 第 19 卷 第 1 期 乐 府 诗 集 相 和 歌 辞 相 和 曲 下 陌 上 桑 : 蚕 饥 妾 复 思, 拭 泪 且 提 筐 值 得 注 意 的 是, 农 书 齐 民 要 术 中 拭 的 使 用 范 围 很 广, 不 但

1對外華語文詞彙教學的策略研究_第三次印).doc

Microsoft Word doc

Microsoft Word 定版

实验室代码

182 第 41 卷 方面发挥了重要作用 因此研究留日物理学生是中 国近现代物理学史研究的一项重要内容 出身 并任翰林院编修 不久 云贵总督李经羲上 奏 要求调其回云南兴办新学 他欣然回滇办学宣 1 统二年( 1910) 他接任云南优级师范学堂监督 兼 专任理化教员 负责筹办云南工矿学堂 并担任第一

Microsoft Word - 33-p skyd8.doc

Microsoft Word - chnInfoPaper6

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

Microsoft Word - 01-苏娅(排).docx

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

1 引言

TMC TMC 159

第二部分

《中文信息学报》投稿模版

ZHONG Chong A Study on the Map of Provincial Capital of Zhejiang Past and Present

北 京 大 学 学 报 ( 自 然 科 学 版 ) 别 和 挖 掘 工 作 本 文 抽 取 的 实 体 类 别 包 括 疾 病 症 状 药 品 治 疗 方 法 和 检 查 五 类 在 特 征 选 取 方 面, 除 了 使 用 一 般 的 实 体 识 别 文 本 特 征 ( 例 如 符 号 特 征 词

并非没有必要的一些宏观思考

标题

Microsoft Word - 专论综述1.doc

,,,, 1980,,,,, 1980, (, J,1980) (,,1980) (,,1982) (,1980) (,1982) (, 1983) (,1983) (, 1983) (,1983) (,1985) (, C,1985), ,,, : (1980 ),,,,,, (

标题

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也

一 区域法治发展的本体论研究 在一个理论体系中,本体论居于逻辑起点的地位,它所要探究的是一定的社会现象赖以存在的 根基 区域法治发展的本体研究亦不例外,它涵盖了区域法治的概念内涵 必要性与可行性 合法性 与合理性 区域法治发展的各种基础 发展模式( 道路) 发展动力( 机制) 等根本性的理论问题,构

第2期定稿.FIT)


, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

A B A B S + V + Pt or Complement + Num-MP + O a b SVO c 2 9 * 10 * X Y

2013国际营销科学与信息技术大会(MSIT2013)

附件4

标题

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

第16卷 第2期 邯郸学院学报 年6月

240 生 异 性 相 吸 的 异 性 效 应 [6] 虽 然, 心 理 学 基 础 研 [7-8] 究 已 经 证 实 存 在 异 性 相 吸 异 性 相 吸 是 否 存 在 于 名 字 认 知 识 别 尚 无 报 道 本 实 验 选 取 不 同 性 别 的 名 字 作 为 刺 激 材 料, 通

标题

raw corpus a 129

Z-I A b Z-I A b Z Z-I A A b Z-I Miller [5] Z i I i Z-I [6] Z-I Z-I Z-I Z-I Z I Wilson [7] 1970 [8] [9] 20.32% Sasaki [10] Nino- miya [11] [12]

中文模板

a b

如 语 言 研 究 型 数 据 库 那 样 成 熟, 但 可 为 构 建 华 文 教 材 数 据 库 提 供 借 鉴 此 类 数 据 库 中 有 代 表 性 的 有 北 京 语 言 大 学 的 对 外 汉 语 教 材 检 索 数 据 库, 中 央 民 族 大 学 的 国 际 汉 语 教 学 国 别

2005 3,? :; ;, ;,,,,,,1 % %,,,,, 1 %,,,, : () ;, ;,,,,,,,,,,,,, (2004) ( GBΠT ) 16 (2004), (2004) 47

1.xps

语言的地位与外地来沪白领青年的语言选择

填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目

a a a 1. 4 Izumi et al Izumi & Bigelow b

( 70 ) B,,,, B,,,, : (5) ( ),, A, : (6) ( ) (7), ( ) (8),, ( ) (9), ( ) (6), (7), (8), (9) B,,,, : (10),, ( ) (11)! ( ) 1. 2 A A,, : (12), ( )

Microsoft Word - Preface_1_14.doc

214 年 第 3 期 郑 丹 青 等 : 高 职 学 生 个 性 特 征 及 职 业 能 力 调 查 与 分 析 61 一 问 题 的 提 出 随 着 高 等 教 育 大 众 化, 高 职 院 校 的 学 生 来 源 出 现 多 样 化, 学 生 的 基 本 素 质 和 职 业 能 力 参 差 不

蒋 哲等 基于 CVM 的有机农业认知程度和消费意愿研究 201 (P 0.000). On the basis of these results, enhancing publicity, pricing reasonably, focusing on high- income groups ar

Microsoft Word doc

Microsoft Word - A doc

第三章 国内外小组合作学习的应用情况

~ ~

标题

Microsoft Word ROCLING-WESum-LongAbstract.docx

Microsoft Word - 19王建华.doc

标题

word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra

66 a T. S. Kuhn 2 b a b Thomas Kuhn disciplinary matrix examplars or shared examples incommensurability

小论文草稿2_邓瀚

2005硕士论文模版

Explore Rou Jin Yang Jing Learning Ideology Of Prof. Jin Hongzhu And Application Spinal Column Ailment A Dissertation Submitted for the Doctorate Cand

謝 辭 能 夠 完 成 這 本 論 文, 首 先 當 然 要 感 謝 的 是 我 的 指 導 教 授, 謝 林 德 老 師 這 段 時 間 老 師 不 厭 其 煩 的 幫 我 檢 視 論 文, 每 次 與 老 師 討 論 後 總 是 收 穫 很 多, 在 臺 灣 求 的 這 段 期 間 深 深 地

致 谢 本 论 文 能 得 以 完 成, 首 先 要 感 谢 我 的 导 师 胡 曙 中 教 授 正 是 他 的 悉 心 指 导 和 关 怀 下, 我 才 能 够 最 终 选 定 了 研 究 方 向, 确 定 了 论 文 题 目, 并 逐 步 深 化 了 对 研 究 课 题 的 认 识, 从 而 一

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~

广 类 型 对 定 位 在 应 用 型 地 方 本 科 院 校 发 展 具 有 促 进 作 用 统 一 的 任 职 条 件 能 确 保 某 一 职 称 具 有 同 一 起 点 的 质 量, 但 是 较 难 满 足 高 校 的 多 样 化 和 高 校 教 师 多 样 化 的 需 求, 可 能 形 成

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

Microsoft Word - 18-p0402-c3.doc

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

标题

18-陈亚莉.FIT)

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

Microsoft Word - 口試本封面.doc

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3

课程13-7.FIT)

Microsoft Word - 刘 慧 板.doc

Microsoft Word - 11-秦华伟.doc

2011年上海市高校精品课程申报表(本科)

38 張 元 素 歸 經 引 經 理 論 研 究 本 文 以 張 元 素 著 述 為 主 要 材 料, 采 用 上 海 涵 芬 樓 景 印 元 杜 思 敬 濟 生 拔 粹 刊 本 4 ; 醫 學 啟 源 為 任 應 秋 點 校 本, 任 本 以 明 成 化 八 年 刊 本 為 底 本, 旁 校 上

Microsoft Word 年第三期09

<4D F736F F D20B8DFB9B0B0D3B0D3F5E0D3A6C1A6CAB5B2E2D3EBBCC6CBE3BDE1B9FBB2EED2ECD4ADD2F2B7D6CEF62DD5C5B9FAD0C22E646F6378>

2 207 Manuel Castells

Integration of English-Chinese Word Segmentation and Word Alignment

0 national history 80 regional history Michel Foucault

标题

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

一、学科吊称(中英文)、代码、下设二级学科(中英文)及授位类型

标题

< F63756D656E D2D796E2DB9A4D7F72D31C6DABFAF2D31D6D0D2BDD2A9CFD6B4FABBAF2D C4EA2DB5DA35C6DA2D30352D31302DC1C9C4FEBBF9B5D82DB8BEB6F9B2A12E6D6469>

126 包 装 工 程 华 我 国 地 域 广 阔, 这 使 得 吉 祥 图 案 在 艺 术 形 式 上 丰 富 多 彩 吉 祥 图 案 本 身 有 很 深 的 寓 意 内 涵, 注 重 生 气 和 节 奏, 追 求 写 意 象 征 手 法 来 表 现 由 于 手 法 表 现 上 的 自 由 和 寓

临床路径管理模式下医疗服务流程的关键环节分析

<D2BDC1C6BDA1BFB5CDB6C8DAD7CAB8DFB7E5C2DBCCB3B2CEBBE1C3FBB5A52E786C7378>

Microsoft Word doc

32期

Transcription:

2013 2 计算机工程与设计 Feb. 2013 34 2 COMPUTER ENGINEERING AND DESIGN Vol. 34 No. 2 夏 静, 柴玉梅, 昝红英 : ( 郑州大学信息工程学院, 河南郑州 450001) 词的兼类问题是汉语词性标注中的关键问题之一针对常用词的兼类识别进行研究, 综合考虑了影响兼类词识别 的不同特征, 分别使用条件随机场模型 最大熵模型和 k 最近邻等统计方法, 根据兼类词本身的特点以及其在上下文句子 中的关系, 同时针对不同的方法采用词语信息 词性信息等不同的特征模板分别对训练语料进行特征抽取, 并取得了较好 的实验结果 ; 对一些识别结果不够理想的词又尝试了规则的方法, 构建兼类词的规则, 不断进行测试, 改进规则库, 在相 同的条件下, 得到了优于统计方法的实验结果 : 中文信息处理 ; 兼类词 ; 条件随机场 ; 最大熵 ; K 近邻 : TP391 : A : 1000-7024 ( 2013) 02-0654-06 Study on multi-category of common words based on statistics and rules XIA Jing CHAI Yu-mei ZAN Hong-ying College of Information Engineering Zhengzhou University Zhengzhou 450001 China Abstract The problem of multiple syntactic category words is one of the key issues in part -of -speech tagging of Chinese. The reconginition on syntactic category of common words is mainly researched and the different characteristics is considered which impact the recognition of multi-category word. Firstly three methods attempted which are conditional random fields Maximum Entropy and k-nearest neighbor method and have achieved good results are obtained. According to the characteristics of the multi-category words and their relations in the context of the sentence for the different methods such as word information and part of speech information will be used as templates to extract features for the training data. The rule method also is tried to deal with some words which recognition results are not ideal and the rules for the multi-category words are constructed and by constantly testing to the rule base is improved. In the same conditions has been better than the results of statistical methods. Key words Chinese information processing multi-category word conditional RandomFields MaximumEntropy K-nearest neighbor 0 1 CRFs 2 3 2012-04-09 2012-06-17 60970083 104100510026 1986-1964- 1966- E-mail happydayxia@ 126. com

34 2 夏静, 柴玉梅, 昝红英 : 基于统计和规则的常用词的兼类识别研究 655 1 4 0 1 2 3 4 5 6 7 8 w w-4 p-4 w-3 p-3 w-2 p-2 w-1 p-1 9 10 11 12 13 14 15 16 17 w + 1 p + 1 w + 2 p + 2 w + 3 p + 3 w + 4 p + 4 p 4 1 NLP 15 0 1 16 2 17 3 4 5 6 7 8 9 10 11 12 13 14 HMM a n wd c rz vl v v p SVM ME n CRF k # Unigram U01 % x 0 1 /% x 0 2 U02 % x 0 3 /% x 0 4 U03 % x 0 5 /% x 0 6 1. 1 conditional RandomFields CRF U04 % x 0 7 /% x 0 8 U05 % x 0 9 /% x 0 10 2001 J. Lafferty U06 % x 0 11 /% x 0 12 U07 % x 0 13 /% x 0 14 6 CRF U08 % x 0 15 /% x 0 16 # Bigram B CRF 0 1 2 3 4 5 6 7 8 15 16 17 9 10 11 12 13 14 a n wd c rz vl v v p p CRF 18 CRF 1. 2 tokens E. T. Jaynes 1957 Token 7 1 4 1 W W-i i = 1 2 3 P-i i = 1 2 3 9 10 W + i i = 1 2 3 P + i i = 1 2 3 P 17 8

656 计算机工程与设计 2013 k k weka + ME + 3 KNN 3 ME 1. 4 lable f1 f2 fn v1 v2 vn 4 p w0 = w-4 = p-4 = a wp-4 = a w- 3 = p-3 = n wp-3 = n w-2 = p-2 = wd wp- 2 = wd w-1 = p-1 = c wp-1 = c w + 1 = p + 1 = rz wp + 1 = rz w + 2 = p + 2 = vl wp + 2 = vl w + 3 = p + 3 = v wp + 3 = v w + 4 = p + 4 = v wp + 4 = v w p wp w0 p < ID > F M L R N E F < 1 > < 2 > a v n M < 1 > < 2 > a v n L < 1 > < 2 > a v n R < 1 > < 2 > a v n 1. 3 K K k-nearest neighbor KNN E < 1 > < 2 > a v n ID F Cover Hart 1968 M L R N x x E K K x Lable f1 = v1 f2 = v2 fn = vn 11-12 BNF N < 1 > MYM < 2 > a v n KNN @ < c > N ^N @ < d > R ^R v @ < c > F ^F ~ @ < d > N ^N w * v KNN KNN k k BNF

34 2 夏静, 柴玉梅, 昝红英 : 基于统计和规则的常用词的兼类识别研究 657 BNF /n /vn /wu /v /n /n /c /n /n /n /n /u /wd /p /b /n shang5 /f /v /ul /n /ud /vn /n /wf /c /wd /a 7 /m /qv /v /Ng / wu /v /n /u /n /d /p 1 /vn /wyy /n /wd 2 2 3-5 5 5 + 4 2. 1 CRF + + CRF + + Yet Another Toolkit CP /OL. http / /www. chasen. org / ~ taku / software /CRF + + 2000 1 4 /vn /c /wd /t /v /v /ud /n /c /vn /n /wd /v /v /rz /Vg che1 /n /Vg /n /vn /wu /v /n /n /c /n /n /n /n /u /wd /p /b /n shang5 /f /v /ul /n /ud /vn /wd /n /wf /c /a 7 /m /qv /v /Ng /wu /v /n /u /n /d /p /lv /ud /vn /n /v /wyz / d /p /v /c 93. 4507% 97. 0684% 93. 0528% vn /wyy /n /wd d /m 79. 8860% 93. 7766% 79. 5183% p /d /n /Ug 87. 5148% 96. 1427% 87. 3855% d /c 89. 3519% 89. 8148% 89. 3519% d /c 86. 3281% 82. 8125% 85. 2500% 2 CRF 90% ud /c < c > /wd /t /v /v / /vn /n /c /vn /n /wd /v /v /rz /Vg che1 /n /Vg /lv /ud /vn /n /v /wyz 2000 1 2 3 CRF a b c + 2 CRF a b c p /c /jn 92. 2386% 94. 8619% 92. 2015% + b

658 计算机工程与设计 2013 4 k 2. 2 90% + c Zhang Le maxent maxent http / / homepages. inf. ed. ac. uk / s0450736 /maxent _ too lkit. html maxent a b c + ME 4 3 3 ME 3 ME a b c p /c /jn 93. 3104% 93. 7165% 93. 3442% 图 1 三种统计方法的实验结果 d /p /v /c 95. 0796% 95. 8755% 94. 5007% d /m 82. 8165% 93. 0413% 83. 5465% p /d /n /Ug 88. 6194% 94. 1959% 88. 8780% d /c 89. 3519% 87. 0370% 89. 3519% d /c 87. 1094% 79. 6875% 87. 1094% 3 ME b 2. 4 ME CRF 2. 3 k 1 ME KNN 1 CRF weka k 5 10 11 4 3 KNN d /c 92. 5781% 87. 1094% ME 4 KNN a b c p /c /jn 93. 4959% 91. 8699% 93. 6807% d /p /v /c 93. 8857% 92. 5832% 93. 9580% d /m 86. 4469% 92. 3077% 93. 4066% p /d /n /Ug 85. 0843% 89. 4293% 89. 6239% d /c 89. 8148% 88. 8889% 89. 8148% d /c 84. 7656% 86. 3281% 83. 9844% d /m 96. 5909% 93. 7766% CRF d /c 97. 6851% 89. 8148% CRF 5

34 2 夏静, 柴玉梅, 昝红英 : 基于统计和规则的常用词的兼类识别研究 659 C / /Proceedings of the 18th ICML-01 2001 282-289. 5 Cohn T Blunsom P. Semantic role labeling with tree conditio-nal random fields C / /Proceedings of the Ninth Conference on Computational Natural Language Learning. Ann Arbor Michigan As- 3 sociation for Computational Linguistics 2005 169-172. K 6 MIAO Xuelei. Chinese word sense disambiguation method based on conditional random fields D. Shenyang Shenyang Aerospace U- niversity 2007 in Chinese.. + D. 2007. 7 Jaynes E T. Information theory and statistical mechanics J. Physics Reviews 1957. 8 CHEN Xiaorong QIN Jin. Maximum entropy-based chinese word sense disambiguation J. Computer Science 2005 32 5 174-176 in Chinese.. J. 2005 32 5 174-176. 1 ZHANG Yizhe QU Weiguang LIU Jinke. Research on disambiguation of multiple syntactic category words based on ensemble of classifiers J. Journal of Nanjing Normal University 2010 33 4 144-147 in Chinese.. J. 2010 33 4 144-147. 2 HONG Mingcai ZHANG Kuo TANG Jie. A Chinese part of speech tagging approach using conditional random fields J. Computer Science 2006 33 10 148-151 in Chinese.. CRFs J. 2006 33 10 148-151. Polytechnic University 2007 in Chinese. 3 ZHANG Hu ZHENG Jiaheng. Consistency check on POS tagging of Chinese corpus based on classification J. Computer Engineering 2008 34 8 90-92 in Chinese.. 12 ZAN Hongying ZHANG Kunli CHAI Yumei. Studies on the J. functional word knowledge base of modern Chinese J. Journal 2008 34 8 90-92. of Chinese Information Processing 2007 21 5 107-111 in 4 Lafferty J McCallum A Pereira F. Conditional random fields probabilistic models for segmenting and labeling sequence data 9 ZHANG Lei. Chinese POS tagging study based on maximum entropy D. Dalian Dalian University of Technology 2008 in Chinese.. D. 2008. 10 PENG Qiwei. Classification of emotional tendency of the Chinese text based on statistical methods D. Taiyuan Shanxi University 2007 in Chinese.. D. 2007. 11 ZAN Hongying ZHANG Kunli CHAI Yumei. The formal description of the modern Chinese adverb usage C / /The 8th Chinese Lexical Semantics Workshop Proceedings The Hong Kong. C / / 2007. Chinese.. J. 2007 21 5 107-111.