基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 传统的空间向量

Size: px
Start display at page:

Download "基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 传统的空间向量"

Transcription

1 SHANGHAI JIAO TONG UNIVERSITY 学士学位论文 THESIS OF BACHELOR 论文题目 : 基于文本纹理的情感倾向性分析研究 学生姓名 : 任彦斌 学生学号 : 专 业 : 信息安全 指导教师 : 刘功申副教授 学院 ( 系 ): 电子信息与电气工程学院

2 基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 传统的空间向量表示模型在文本特征提取时损失了较多的文本间信息, 无法满足文本情感倾向性分析等新的文本分类任务 本文的目的是寻找一种区别于传统文本分类和特征提取的方法, 着重关注文本词语之间的关系 句子结构 词性 句型等文本特征 因此, 本文提出了一种基于文本纹理模型的情感倾向性分析系统 文本纹理模型采用基于结构法的分域表示模型, 分层次刻画文本特征, 更好地适应了文本情感倾向性分类的需求 本文的主要工作包括 :1. 总结 分析了现有文本分类系统的方法和流程, 以及现存的文本分类算法 特征提取方法及文本评估方法, 并分析了现有文本分类系统的局限性 2. 给出了文本纹理的定义, 提出了文本纹理模型的建模方法, 包括文本纹理的定义及其分域模型表示 3. 讨论了基于结构法的文本纹理特征表示和分类方法, 包括了文本分域模型分类算法选择和综合算法的选择, 形成了一套完整的文本纹理分类系统 4. 结合主客观语料集和正负面评价语料集, 对比评估传统空间向量模型和文本纹理模型的分类结果 本课题的研究成果可以应用在商品评价 文学作品评价 影评 酒店评价等评价类文本的情感倾向性识别, 以及网络舆论评价的主客观分析等等 关键词 : 文本纹理, 情感倾向分析, 中文文本分类

3 ANALYSIS AND RESEARCH ON EMOTION INCLINATION BASED ON TEXT TEXTURE MODEL ABSTRACT In the era of information, with the rapid development of Internet technology, the amount of information is increasing exponentially. This massive information contains the potential value of information needed to be explored and mined and stimulates people to seek out for an automated approach to text analysis of the hidden value. Natural language text sentiment analysis is a new research field and has great value in research and application. The traditional space vector representation model lost more text information in text feature extraction and it is unable to meet the needs of text sentiment analysis. The purpose of this paper is to find a way different from the traditional text classification and feature extraction, focusing on the relationship between the text words, sentence structure, word, sentence and other text feature. Hence, the paper presents a system analysis of sentiment text based on text texture model. Text texture model using domain structure method based, hierarchical description text features, better adapts to the text sentiment orientation classification requirements. The main work of this paper includes: 1. Summarizes, analyzes methods and procedures for the existing text classification system, as well as the existing text classification algorithm, feature extraction and text evaluation method, and analyzes the limitation of the existing text classification system. 2. gives the definition of text texture; this paper puts forward a modeling method of text texture model, including the definition of text texture and domain model. 3. Discusses the representation of text texture structure method and classification method based on classification algorithm, including the domain model selection and synthesis algorithm of text selection, forming a complete set of text classification system. 4. Combined with the text corpus, compares and accesses traditional vector space model and text texture model on their classification results. The results of this paper can be applied in the text sentiment orientation identification of commercial comments, literature reviews, hotel comments, as well as the emotion inclination analysis on network media comments and so on. Key words: text texture, analysis on emotion inclination, Chinese text classification

4 目录 第一章绪论 文本情感倾向性分析研究的背景和意义 文本情感倾向性分析的研究现状 文本表示模型的研究现状 本文的主要工作 本章小结... 4 第二章文本分类系统模型及理论基础 现有文本分类系统 文本表达 训练阶段 测试阶段 文本分类理论基础 文本分词 停用词过滤 文本表示技术 文本特征抽取 特征降维 文本分类算法 文本分类器与文本分类系统的评价指标 现有文本分类系统的局限性 本章小结 第三章文本纹理模型 文本纹理的范畴 文本纹理建模 文本纹理特征表示方法 文本的特征表示 特征获取 面向结构法的文本纹理特征表示模型 面向结构表示法的分类算法研究 基于结构法的文本纹理特征表示和分类方法 纹理模型分域表示 分域分类算法选择 组合策略 本章小结 第四章基于文本纹理模型的主客观分类系统 系统构造阐述 Weka 开源数据挖掘平台 文本情感倾向性分析文本语料库... 26

5 4.4 分域模型实验及结果 主客观文本分类 文本褒贬性情感分析 实验结果分析 本章小结 第五章结论与展望 结论 展望 参考文献 谢辞... 37

6 第一章绪论 随着计算机互联网的飞速发展, 互联网上的信息呈爆炸式的增长, 互联网已成为一个大家互动 发表个人见解的平台 这些海量的信息为互联网的用户提供了丰富的资源, 有着潜在的 极高的价值, 但是很多互联网用户在这些资源面前常常觉得迷茫 无从下手, 如何有效地处理这些信息和资源成为一个十分富有意义的课题 例如, 在各类电商销售网站上的对某件商品的评价, 社交类网站上如微博等对某一事件 主题发表的观点 看法, 如豆瓣网上对某本书 某个电影的评价等等 通过对这些带有情感倾向的文本进行快速 准确 有效地分析, 可以挖掘出人们潜在的见解和态度, 如消费者对商品的满意程度, 可以为其他消费者购买时提供参考, 为企业级用户和个人提供信息参考以及决策支持 人工手动的判断和分类固然准确, 但却消耗了大量的人力成本 因此, 如何利用计算机辅助来快速准确 批量地识别出文本的情感倾向性, 成为了本文研究的一个重点 1. 1 文本情感倾向性分析研究的背景和意义 近几年来, 随着机器学习和数据挖掘领域的技术水平的不断发展和进步, 一种机器学习 数据挖掘 统计学等多学科结合的交叉学科 自然语言处理正在日益得到学者们的关注 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 [1] 然而, 由于自然语言文本的复杂性, 尤其是中文文本, 自然语言处理领域仍然有着很大的挑战 这些挑战存在于文本识别 中文分词 文本分类 分析和理解文本中的意见等等 根据 Hatzivassiloglou 和 McKeown 给出的定义, 文本情感倾向性分析又称为意见挖掘 [2], 即对自然语言文本中带有情感色彩的词汇和主客观性的文本进行挖掘 分析 处理等一系列操作的过程 根据南加州大学信息科学学院的 Soo-Min Kim 和 Eduard Hovy 的研究发现, 对意见的挖掘只要知道以下的四个文本元素 : 主题, 意见持有者, 看法以及舆论的情感 [3] 由于机器学习和人工智能的发展有限, 尚未能完全理解自然语言文本的文本信息, 因此在传统的方法中, 文本分类大多采取抽取关键词作为特征的方法来代表一个文本并以此分类 此外, 我们知道二进制的计算机是无法识别自然语言的, 只能识别和处理 0,1 字串 因此, 在处理自然语言文本分类时, 首先要将自然语言文本表示为由数字等计算机识别的符号刻画的信息 文本情感分析是指对文本中潜在的人的观点和态度进行分析, 也就是对文本中主观性的信息进行分析 一般而言, 自然语言文本处理的应用有 : 主客观句子的识别 ( 识别一个句子是作者的主观情感还是对事物的客观描述 ) 文本情感倾向性分析( 分析一句句子是对事物的正面评价还是负面评价 ) 写作手法和写作风格的判别( 判断一段文字的写作手法和风格, 如 : 拟人 讽刺等等, 判断是否是同一个作者所写 ) 面向抄袭判断的特征自动识别( 判断是否是由其他语言翻译而来 非母语写作 ) 等 一般以主客观句识别和情感倾向性分析的应用为主, 多为二分类 ( 如 : 主客观分类, 分为主观和客观 ) 和三分类 ( 如 : 情感倾向性分析, 第 1 页共 37 页

7 分为褒义 贬义和中性 ) 问题 传统文本分类大多基于主题分类, 如 : 新闻 娱乐 体育 财经等, 而不关心其文本所包含的潜在的价值和信息, 而新的分类需求中, 更多地关注了复杂文本信息 传统主题分类只关注一篇文章描述哪个主题, 例如 : 提取文本标签, 而新型文本分类中重点考虑刻画主题的关键词语, 由文本中提取出的一系列词语作为特征向量来描述 代替文本进行训练和分类 面向主题的传统分类技术和新型应用需求在多个方面有区别 经过总结, 将其区别列入下表 1-1 为了满足新型分类应用的要求, 我们提出了一种新的文本特征刻画模型 文本纹理的模型 表 1-1 传统的主题分类和新应用的区别 项目 传统分类 新的分类需求 最终目的 面向主题分类 面向情感 风格 用词等 分类依据 依据主题词 ( 概念 ) 依据词法 句法 词性等 常用特征 名词 动词等特征词 形容词 助词 词性 句模等 特征表示 向量空间模型 需要更复杂的模型 ( 张量空间模型 分域的结构表示法 ) 分类算法 Bayes\SVM\KNN 等传统分类算法 基于张量空间模型的分类算法 结构化模式识别算法等 1. 2 文本情感倾向性分析的研究现状 自然语言处理的发展有着多年的历史, 最早的应用为自然语言理解 机器翻译 [4] 早在 1949 年, 美国人威弗首先提出了这个概念 上世纪 60 年代, 人们对机器翻译开始大规模研究, 但是收效甚微, 进步缓慢 上世纪 90 年代, 自然语言处理的研究方向产生了变化, 更多地关注到系统的输入 输出, 并强调对文本内容的处理, 如 : 提取索引词 过滤等等 作为一个新的研究方向, 文本情感倾向性分析仍处在起步阶段 外国的 Hatzivassiloglou 与 McKeown 在早期从事着文本词汇的情感倾向性分析 [1] Wiebe 等人延续了相似的工作, 使用聚类算法在大语料中挖掘评价性的词语, 但是仅仅局限于形容词而忽略了其他词性的作用 [5][6] 上世纪 90 年代,Turkey 使用电影评论语料对文本中的词汇和短语的倾向性进行计算, 得到了 95% 的分类准确率 [7] 同样,Kim 等人同样将工作重点放在情感词汇的倾向性分析上, 在一对基准词集的基础上使用 WordNet 计算未知词汇的情感倾向性 [3] 对于中文文本, 中文词汇倾向的研究相对起步较晚, 但是情况类似, 也是采用选择基准词对, 并以此计算知网中词汇的相似度得到倾向性 随着自然语言处理应用领域的不断进步和发展, 更多的目光投向了整个文本信息的研究中 Wilson 和 Wiebe 等人在后期研究中着力研究了短语级情感倾向性, 并对中立情感这一实际大量存在的文本进行研究 [8] 在现有领域针对性的文本倾向性分类方面,Melville 给出一个统一的框架, 可以使用不同背景知识生成模型结合传统的分类工作, 达到更精准的分类效果 [9] [10] 在中文领域的研究中, 张紫琼基于现有的情感词汇集做出了一定的改进, 考虑了词语之间的关系, 并提出了一种根据双词词类组合模式计算句子主观性程度的方法进行情感倾 [11] 向性分析 大连理工大学计算机科学与工程系的林鸿飞教授等人进一步基于语义理解, 在原本词汇情感倾向权重的基础上, 加入了对副词修饰程度的权重, 使用 SVM 分类器分析 第 2 页共 37 页

8 文本的褒贬性 在分类算法上, 目前已有的分类算法基本已经成熟, 可以满足于现有的文本分类任务, 如 :SVM 支持向量机算法,KNN 最近邻算法 Naïve Bayes 算法等等 此外, 中文的分词工具, 如 :IKAnalyze,ICTCLAS ( 最新版为 NLPIR) 等以及开源数据挖掘平台 Weka 也可以满足设计需求 1.3 文本表示模型的研究现状 计算机无法识别人类的自然语言, 因此原始的文本必须转化为计算机可以识别的模型才能进行分析和处理 对于一个完整的自然语言文本, 首先要对其进行分析, 并提取其中的特征 关键字 ( 词 ), 由这些特征 字词来表示整个文本段落, 并交给计算机处理 常见的表示元素有 : 字 词 短语 N-GRAM 等 N-GRAM, 即将 N 个连续的字划分为一个特征维度, 对于中文文本分类中, 常见的是二元的 Bi-Gram 和三元的 Tri-Gram 提取这些元素之一或者组合, 并构造成特征向量交给典型的基于机器学习的计算机的自动分类系统进行训练, 并生成分类器, 再把待分类的文本输入到分类器中, 可以输出分类结果 目前, 常用的文本表示模型有以下几种 : (1) 布尔模型 (Boolean Model) 布尔模型是基于布尔代数和集合论的一种数学模型, 采用 0,1 为每一个元素 ( 即特征元素项 ) 赋值, 适用于文本内容相关度检索 后来, 有学者提出了扩展布尔模型, 使用了 numeric 的数值来代替 0,1 二元赋值 比如 Lee 提出的 fuzzy set,waller-kraft,p-norm 与 Infinite-One [12], 以及 Salton 等提出的 p-norm 模型 [13][14] (2) 向量空间模型 (VSM - Vector Space Model) 向量空间模型是一种最常见的文本表示模型, 将文本表示为一个向量, 向量中的特征项为原始文本中提取的特征元素, 可以是字 词 短语 N-GRAM 等等 (3) 概率模型 (Probability Model) 概率模型是一个比较成熟的模型并已以应用在很多实际工程中 [15] 概率模型利用概率论的基本理论, 使用模型中固有的前提假设和推理过程, 用概率的高低来评估文本间相似度大小 [16] (4) 语言模型语言模型是一种新型模型, 也是一种基于概率统计的模型 语言模型的思路是, 将文本视作由不同字符组成的一个概率分布, 要判定某一句子 段落或者文章是否符合该类别, 可以由概率分布来计算得出 也即是说, 特征集合在该文本中形成了一个概率分布, 这个概率分布就被称之为一个语言模型 [17] 一种常用计算 Kullback-Leibler 距离的公式 (1-1), 也被称之 K-L 距离 : (1-1) 上述的四种模型中, 工程上应用最多的是较为简单易用的布尔模型, 学术界上较为推崇向量空间模型和概率模型 语言模型作为一种新型模型, 其研究时间较短, 还需要进一步的探索 但是它能合理地反映和代表原本的文本信息, 最具研究价值 四种模型的比较如表 1-2 所示 第 3 页共 37 页

9 表 1-2 四种文本表示模型对比表 模型 布尔模型 概率模型 向量空间模型 语言模型 提出时间 20 世纪 50 年代 20 世纪 80 年代 20 世纪 60 年代 20 世纪 90 年代 理论基础 集合论 概率论 代数理论 概率论 随机过程 实现难度 简单 较难 简单 简单 文本表示方法 词向量 词向量 词向量 N-Gram 商业运用情况 采用 采用 常采用 未采用 1.4 本文的主要工作 本文中提出了一种新的文本纹理模型的概念, 并给出了定义, 该模型可以刻画原始文本的特征, 并在很大程度上保留原始文本的信息 本课题中主要研究了基于文本纹理模型的情感倾向性分析, 根据提出的模型进行实际数据的文本分类, 提出了一套完整的文本分类的系统 本文第二章介绍了现有的文本分类系统的模型以及流程, 包括文本的预处理 特征提取 分类器训练 结果预测 准确率分析等等 此外, 本文还介绍了一些现存的文本分类的常见技术, 包括特征提取 特征向量降维 停用词表 文本分类算法等等, 并分析其应用性和局限性 在第三章中, 本文提出了一个文本纹理模型的概念, 并给出了定义 在文本模型中, 定义了字词级 句子级基元, 并由基元的排列 组合 推理等模式出十三种文本纹理模型, 采用结构法的方式分别对这十三种模型进行研究, 并给出了综合算法, 形成了一套完整的文本纹理模型 在第四章中, 本文使用真实生活中的文本数据基于给定的文本纹理模型进行分类, 并分析其结果的准确性和适用性 总结文本纹理模型的特点和应用范围 最后一章, 总结了本文的研究成果和不足, 并对未来研究工作进行展望, 为今后的研究工作指明方向 1.5 本章小结 本章从整体上介绍了现有自然语言文本分类的背景, 以及文本情感倾向性分析的意义 本章着重分析了当前文本情感倾向性分析的研究现状和文本表示模型的研究现状 最后对本文的主要工作和总体部署进行了概述 第 4 页共 37 页

10 第二章文本分类系统模型及理论基础 文本分类任务是指将原始文本通过一定的手段处理后, 通过计算机的辅助完成预定的分类要求 文本情感倾向性分类是文本分类的一种新的应用 文本情感倾向性分析是指如何自动地识别文章中的情感倾向性, 如 : 褒义 ( 支持 ), 贬义 ( 反对 ), 中性 ( 中立 ) 等 目前, 文本情感倾向性分析有如下几个方向的研究 : 文本词汇的倾向性分类 观点提取 主客观分类以及情感倾向分析等等 文本分类系统的主要研究方法是通过基于机器学习的方法, 使用已经标注好分类的训练集去训练文本分类器, 再将待分类的文本输入到这个分类器中, 输出分类结果并对结果进行评估, 分析其准确性 文本分类系统模型一般分为三部分 : 文本表示阶段, 分类器训练阶段和分类阶段 其中, 文本表示阶段涉及到文本特征的提取, 是最为关键的一步 目前自然语言文本分类的研究大多集中于文本表示模型的研究 2.1 现有文本分类系统 文本分类的流程大体上分为三个模块 : 文本表达阶段, 文本训练阶段和测试阶段 其中文本表达阶段又涉及到文本预处理 分词 特征选择和提取 特征降维 文本模型表示等等 图 2-1 现有文本分类系统流程图基于机器学习的文本分类系统分为监督学习和非监督学习两种模式 监督学习, 是指将已有的标注好分类的文本作为训练集来训练文本分类器, 使其调整参数达到分类的目的 而无监督学习是让计算机按照一定的规则运行, 而实现不告诉其如何分类, 适用于大量无法处 第 5 页共 37 页

11 理的文本分类任务 基于文本纹理的情感倾向性分析研究 文本表达 文本表达阶段是整个文本分类系统中最为关键的一个部分, 其中又分为以下几个主要的 步骤 : 文本预处理 模型表示 特征提取 特征降维四个步骤 如下图 2-2 所示 : 图 2-2 文本表达阶段流程图文本预处理 : 目的是将原始的自然语言文本转化为计算机可以识别 处理的数据, 其中可能会包含中文分词阶段 模型表示 : 在上文中曾提到过几种文本表示模型, 决定了文本的表示模型, 即计算机处理数据的格式 特征提取 : 从预处理好的文本中提取出能够代表文本信息的元素, 实际上也是去除无关信息 去除噪声 减少计算机计算量的一个过程 特征降维 : 再一次减少 压缩无关量, 提高计算效率 一般的技术有停用词表技术 TF-IDF 法等等 经过以上四个步骤的转换, 可以将原始的自然语言文本转化为计算机可以识别 处理的文本特征向量 训练阶段 文本训练是计算机辅助处理分类任务的核心表现部分, 也是机器学习应用的体现, 这一阶段仅仅存在于监督学习中 训练阶段的输入是处理好的文本特征向量, 输出是带有分类规则的文本分类器, 其中输入的文本特征向量应该是人为标记好分类的数据集 计算机根据这些已分类的数据集的特 第 6 页共 37 页

12 点, 来挖掘分类规则, 并不断裁剪规则 基于文本纹理的情感倾向性分析研究 测试阶段 图 2-3 文本训练和测试流程图 训练和分类的流程关系如上图 2-3 所示 测试阶段又成分类阶段, 是检验一个分类器性能的阶段 测试阶段, 将测试集预处理后输入到带有分类规则的分类器中, 输出分类结果 对结果的分析, 我们可以判断分类器的准确性是否满足分类任务的需求, 并以此返回重新调整分类器参数 文本处理方式 特征提取方式等等 2.2 文本分类理论基础 本小节主要介绍了现有的文本分类的一些理论基础知识, 也是本文的主要技术和手法之一, 包括文本分词 停用词过滤 文本表示 文本特征抽取 文本分类算法和文本分类器性能评估等 文本分词 文本分词是中文文本分类任务特有的一步, 相比英文, 中文以标点符号分割一个分句 通常中文自然语言文本分类采用比分句更细的元素时就需要用到分词 上世纪 80 年代, 汉语自然语言处理领域开始发展, 并提出了分词的任务 目前应用较广的有中科院计算所的张华平博士带领的 NLP 小组开发的 NLPIR 汉语分词系统 ( 又名 ICTCLAS2013), 开源 基于 Java 语言开发的轻量级的中文分词工具包 IKAnalyzer 第 7 页共 37 页

13 图 2-4 NLPIR/ICTCLAS2014 分词系统 Windows 界面比较常用的分词技术有 : (1) 基于字典 词库的匹配分词算法基于字典 词库的匹配分词算法需要预先整理出一个中文的词库, 在分词时与该词库中的词语一一对比, 若出现则划分为一个词语, 继续读取下一个字符处理 显然这种匹配方法的效率很低 (2) 基于规则的分词法基于规则的分词法是一种基于上下文理解的分词方法, 通过对句法 词法的分析, 类似编译原理中根据规则对字符串进行匹配识别, 其最大的弊端在于需要人为建立分词规则库 (3) 基于词频统计的分词法基于词频统计的分词法顾名思义是结合基于词典 词库, 并基于统计值选出最优的匹配方案得到分词结果 (4) 基于理解的分词法基于理解的分词法是一种人工智能的分词方法, 以此模拟人脑的思维方式, 理解文本的含义, 学习推理的过程, 对文本进行分析之后得到分词结果 (5)N-gram N-gram 分词法又称为汉语语言模型 N-gram 将文本中相邻 N 个字符组成一个词语来划分文本词汇 显然这种方式会产生很多无意义的分词, 需要统计后去掉低频和无意义的词汇 常用的是二元的 Bi-Gram 和三元的 Tri-Gram 停用词过滤 停用词主要是指文本中一些对文本分类不起作用的冗余词汇, 例如中文文本中的 的, 啊, 在 等等 这些词往往在一个文本库中出现的频率很高, 但是却没有实际意义 根 [14] 据 TF-IDF 法计算其重要程度, 可知这些词语几乎不含有任何信息量, 不对文本分类做任何贡献, 因此在预处理阶段将这些词语剔除, 可以提高计算机的处理效率, 以减少了噪声对于文本分类结果的影响 第 8 页共 37 页

14 实际应用过程中, 停用词过滤技术有两种实现方式 第一种是基于统计的方法为待分类的文本建立一个适合的停用词表 例如 : 对微博中某一评论的主题 # 疯狂的大葱 # 做主客观文本分类, 疯狂 大葱 这些词汇几乎出现在所有的文本中, 所以丧失了其信息量, 在这一次分类任务中划分为停用词 第二种是建立停用词表的方法 通过和停用词表的匹配, 去除无关或者相关度很低的词汇 文本表示技术 目前, 常用的文本表示模型有以下几种 : (1) 布尔模型 (Boolean Model) 布尔模型是基于布尔代数和集合论的一种数学模型, 采用 0,1 为每一个元素 ( 即特征元素项 ) 赋值, 适用于文本内容相关度检索 后来, 有学者提出了扩展布尔模型, 使用了 numeric 的数值来代替 0,1 二元赋值 比如 Lee 提出的 fuzzy set,waller-kraft,p-norm 与 Infinite-One [12] [13][14], 以及 Salton 等提出的 p-norm 模型 (2) 向量空间模型 (VSM - Vector Space Model) 向量空间模型是一种最常见的文本表示模型, 将文本表示为一个向量, 向量中的特征项为原始文本中提取的特征元素, 可以是字 词 短语 N-GRAM 等等 (3) 概率模型 (Probability Model) 概率模型是一个比较成熟的模型并已以应用在很多实际工程中 [15] 概率模型利用概率论的基本理论, 使用模型中固有的前提假设和推理过程, 用概率的高低来评估文本间相似度大小 [16] (4) 语言模型语言模型是一种新型模型, 也是一种基于概率统计的模型 语言模型的思路是, 将文本视作由不同字符组成的一个概率分布, 要判定某一句子 段落或者文章是否符合该类别, 可以由概率分布来计算得出 也即是说, 特征集合在该文本中形成了一个概率分布, 这个概率分布就被称之为一个语言模型 一种常用计算 Kullback-Leibler 距离的公式 (2-1), 也被称之 K-L 距离 [17] : (2-1) 文本特征抽取 文本特征抽取是文本抽象化的一个关键技术, 也往往是文本分类成功与否的一个关键参数 文本特征是对原始文本的一个抽象刻画, 为的是排除冗余信息, 并提取 转化成计算机可以识别 处理的模式 文本特征抽取的准确与否直接影响了分类的效果 此外, 对特征向量维度的控制也是需要关注到重点 特征维度越高, 对原文本描述所丢失的信息越少, 但是计算机处理起来效率越低, 甚至会造成内存溢出 ; 特征维度太低, 特征抽取时损失了很多信息, 可能会导致分类准确率下降 对于中文文本而言, 特征的选取有很多种, 下面介绍一些最常见的中文文本分类的特征表示方法 : (1) 基于字的特征表示基于字的特征表示是指以单个字为元素提取特征 以字为特征来提取看上去并不理想, 第 9 页共 37 页

15 但是实际的应用结果反映却恰恰相反 实验数据表明, 基于单字的特征表示法相对于其他特 征表示法在文本分类效果上并没有很大的降低 据汉语文字统计表明, 汉语词汇的平均长度为 1.6 个字, 这也就说明了单字作为特征元素和词语作为元素特征都是可行的 但是, 中文汉字往往一字多义, 单个汉字提取损失了上下文的信息, 容易引入噪声和误差 (2) 基于词的特征表示基于字的特征表示是指以单个词语作为元素提取特征, 也是当今使用最多 最成熟的方法之一 这种方法要求中文文本预处理时经过分词这一步, 同样提取特征时需要去掉特高频 低频词语 ( 即降维 ), 分词结果的准确性影响了特征的提取 (3) 基于词组的特征表示基于词组的特征表示是指具有语义关系的一组词语作为一个特征 这种表示方法很好地保留了词语之间上下文的关系 相比较于词语的特征表示法而言, 词组的特征表示法更多地体现了文本的语义内容 例如 : 小明可以做的更好 这个文本在情感倾向性分类中, 如果使用基于词的特征提取模式, 更好 一词可能会被判断为褒义, 但是在基于词组的特征表示中, 可以 + 更好 则能分析出作者的情感倾向偏向贬义 [18] (4) 基于 N-GRAM 的特征表示基于 N-GRAM 的特征表示法是指将连续出现的 N 个字符作为特征元素提取 由于汉语词语通常是双字或三字组成, 因此 Bi-GRAM 和 Tri-GRAM 是两种比较常见的方法 显然,N-GRAM 的方法的弊端会组成很多无意义的元素, 引入很多噪声, 且效率会随着 N 的增加而快速下降 因此在使用 N-GRAM 方法提取特征时, 特征降维十分重要 (5) 基于 N-POS 的特征表示基于 N-POS 的特征表示是指将连续出现的 N 个词的词性作为特征元素进行提取 例如 : 纳税是中国公民应尽的义务 经过分词后得到 : 纳税 /vi 是 /vshi 中国 /ns 公民 /n 应 /v 尽 /vi 的 /ude1 义务 /n /wj 则这句句子中的 1-POS 有 : (vi), (vshi), (ns), (n), (v), (vi), (ude1), (n), (wj) 2-POS 有 : (vi,vshi), (vshi,ns), (ns,n), (n,v), (v,vi), (vi,ude1), (ude1,n), (n,wj) 3-POS 有 : (vi,vshi,ns), (vshi,ns,n), (ns,n,v), (n,v,vi), (v,vi,ude1), (vi,ude1,n), (ude1,n,wj) 相比 N-GRAM,N-POS 的特征提取方式有着更低的特征维度空间 N-GRAM 适合于文本分词和新词识别,N-POS 更适用于主客观文本分类任务 特征降维 特征降维是提高计算效率 去除信息冗余和噪声的一种方式 特征降维的方法一般是从初步生成的特征向量中提取一些信息量较大的特征, 或删除一些无关的信息量 常用的特征选择方法有 : (1) 文档频率法特征元素的文档频率 DF(document frequency) 是指该元素在当前语料库中出现的频率, 当其频率低于某一阈值的时候或高于某一阈值的时候 ( 基于 TF-IDF 算法思想 ), 则将该元素移除特征向量空间 [19], 达到特征降维的目的 这种方法不仅可以用来提高计算机处理 计算的效率, 也除去了一些无关或相关度很小的元素, 提高了文本分类的准确率 上下限阈值的设置是这种方法成功与否的关键 在本文中也使用了这种方法作为特征降维的技术手段 第 10 页共 37 页

16 [20] (2) 互信息量法 基于文本纹理的情感倾向性分析研究 互信息 MI(Mutual Information) 常用于统计语言模型, 用来衡量两个变量之间的相关性 定义两个词的互信息量为 : (2-2) 其中,p(t^c) 为二元组 t c 联合出现的概率 p(t) p(c) 为各自出现的概率 当其互信息量高于某一阈值时, 则可以认为二者可以构成一个二元词组 在文本特征选择时, 若互信息量越大, 则特征项 t 和某类别 c 之间的关联度越高, 可以用于特征项的选择中 (3) 信息增益法信息增益 IG(Information Gain) 指的是一个特征的出现与否给该文本带来的信息增益 [21-23] 信息增益是为了衡量每个特征能给文本带来的信息量的大小, 信息量越大, 这个特征越重要 ; 反之, 这个特征越不重要 因此, 可以通过计算存在和去除该特征时, 信息量的差值来确定该特征元素的价值 (4)χ 2 统计量法 χ 2 统计量法又称卡方校验 (CHI), 它的主要思想是 : 某个类别与某个特征之间的相关度可以类比为一个自由度的卡方分布, 当该类别和某个特征项之间的 CHI 值越高, 说明这个特征和该类别有着更高的相关度, 更能够代表这个类别, 这个特征所携带的类别信息也越多 [24] 特征 t i 对类别 c j 的 CHI 值公式 2-3 如下 : (2-3) 其中,ABCD 为是否属于 c j 类且是否包含 t i 的文本个数,N 为训练集中的文本总数量, 且 N=A+B+C+D, 同时要求满足 A*C > B*D 文本分类算法 文本分类就是将目标空间中未知类别的文本归于指定的类别空间, 这一过程需要构造一个分类函数或者分类模型, 这也是文本分类中的核心 [25] 目前基于向量空间表示模型的自然语言文本分类算法有如下几种 : 支持向量机 (Support Vector Machine,SVM) 朴素贝叶斯算法(Naïve Bayes) K 最近邻算 (K-Nearest Neighbor) 法 决策树 (Decision Tree) 简单向量距离(Vector Distance) 法等等 下面将逐一介绍这些文本分类算法 [21] : (1) 支持向量机算法 (Support Vector Machine,SVM) 支持向量机算法, 又称为 SVM 算法 该算法的基本思想就是寻找出一个超平面, 能够将训练集中的数据分为两部分, 且该超平面与类别的边界之间的垂直距离最大 它的变种也可以被用作多分类的分类器, 但是它的特性决定它比较适合用作二分类的分类问题 该算法同时适合大样本集与小样本集的文本分类, 精度都比较高 (2) 朴素贝叶斯算法 (Naïve Bayes) 朴素贝叶斯算法, 又被称为 Naive Bayes 算法, 是一种基于统计学分类的算法 该算法的基本思想是根据贝叶斯定理, 算出待分类文本属于某一类别的概率大小, 然后将这一文本归类于概率最大的这一类别 该方法计算了每一特征出现于某一分类的概率, 速度和效率都比较好, 因此得到了广泛的应用 (3)K 最近邻算 (K-Nearest Neighbor) 法第 11 页共 37 页

17 K 最近邻居算法, 又被称为 K-Nearest Neighbor,KNN 算法 该算法的基本思想是在为 文本分类时, 找出 K 个与待分类文本距离最近的已标注文本, 然后综合这 K 个文本所标注 的类别来确定待分类文本的类别 该方法比较适合小数据集, 在应用于大数据集时, 空间消耗较大, 效果不理想 (4) 决策树 (Decision Tree) 决策树是在已知各种情况发生概率的基础上, 通过构成决策树来求取净现值的期望值大于等于零的概率, 评价项目风险, 判断其可行性的决策分析方法, 是直观运用概率分析的一种图解法, 是一种直观地预测模型 (5) 简单向量距离 (Vector Distance) 法简单向量距离算法, 又被称为 Vector Distance 或 Rocchio 算法 该算法的基本思想是首先根据算术平均为每类文本算出该文类的中心向量, 在判断文本类别时, 计算该文本的特征向量和每一类文本的中心向量的相似度, 然后取该文本相似度最高的一类为该文本的类别 (6) 条件随机场算法 (CRF Conditional Random Field) [22] 条件随机场 (CRF Conditional Random Field) 在数据分段 序列标注 命名实体识别 中文分词 短文本分类等自然语言处理任务中都有很好的表现 CRF 使用条件特征, 可以对特征进行全局归一化 它不是在给定当前状态的条件下定义下一个状态的分布, 而是在给定需要标记的观察序列的条件下, 计算整个标记序列的联合概率, 从而避免了 HMM 的对数据进行不必要的独立性假设 (7) 深度学习 (Deep Learning) 深度学习 (Deep Learning) 是机器学习领域的算法集合, 它使用多层非线性结构对数据进行建模 深度学习常被当作是实现深度人工智能的一个方法, 许多公司在解决实际应用问题时经常采用这种方法 Facebook 最近宣布在加利福尼亚 伦敦和纽约成立了 AI 实验室 这些实验室的主要目的就是采用深度学习方法对用户上传的照片进行标注 文本分类器与文本分类系统的评价指标 文本分类评估是检验分类器分类效果是否满足分类任务的一个环节 对分类结果的评估可以包含两个方面 : 一是评估分类的准确性, 二是评估整个分类过程中时间 空间的复杂度 对于分类准确性的评估, 主要有查准率 (Precision) 查全率(Recall) 和 F- 值 (F-Measure) 三个参数 [26] (1) 查准率查准率是指在分类过程中被判定为类别 T 且实际中也属于类别 T 的文本数的比率 : (2-4) (2) 查全率查全率, 又称为召回率, 是指实际中也属于类别 T 的且被判定为类别 T 的文本数比率 : (3)F- 值 F- 值是一个综合查准率和查全率的衡量指标 公式为 : (2-5) 第 12 页共 37 页

18 (2-6) 其中 β 是一个调整参数, 一般取值为 现有文本分类系统的局限性 迄今为止, 国内专家学者在汉语文本分类研究的领域已取得不小的进展, 如 NLPIR 分词工具的开发等等, 但是目前自然语言处理仍面临着许多难题, 主要存在于文本模型表示方法和特征抽取方式上 : 尽管现有文本表示方法在解决面向主题分类的任务时表现出了良好的性能和效果, 但是在处理文本情感倾向性等问题上仍然存在着诸多不合理性 例如 : 文本空间向量表示法虽然能够提取出原始文本中的关键词语, 但是却破坏了原有的词语的顺序和逻辑 文本空间向量模型虽然简化了文本分类的任务, 但是也使得原始文本丢失了很多重要的信息, 而这些信息往往是文本情感分析等自然语言处理新的应用的一些重要特征 举个简单的例子 : 这瓶洗发水, 适合头发很干的人用 用了这瓶洗发水, 头发变得很干 这两句句子的主要成分差不多, 如果使用文本空间向量表示模型也都能提取出 洗发水 很干 等几个关键词 在文本空间向量表示模型中, 两个文本所表示成的向量距离并不是很大, 但是其原本含义却差之千里 因此, 如果不对文本特征表示方法进行改进, 使其包含足够多的特征信息, 普通的基于机器学习的文本分类方法是无法完成这种文本分类任务的 显然, 传统的文本分类模型把所有文本特征词以无序集合的形式组织在一起的方法不适合新的文本分类的研究领域 鉴于此, 本课题提出了一种文本纹理的概念, 这种概念模型能够很好地保留文本中词语之间的关系 文本纹理应包含词语间的依赖关系 词性组合 句式句型 修辞手法等等 在这个概念之上, 将这些特征表达为文本纹理模型, 并将其应用到真实的文本数据中 2.4 本章小结 在本章中, 本文主要介绍了传统文本分类系统的各个部分以及其主要的理论基础 首先, 本文介绍了自然语言文本分类的主要流程 其次, 介绍了在各个流程中的主要技术手法和手段, 如 : 文本预处理 文本分词 停用词表技术 文本表示模型 文本特征抽取 特征降维 分类算法等等 最后, 本章分析了现有文本分类系统的局限性, 并说明了本课题研究的文本纹理模型的改进方式和重要性, 引出了下一章节的文本纹理的概念 第 13 页共 37 页

19 第三章文本纹理模型 文本纹理模型是本文提出的一个新的文本表示模型, 在表现文本文意方面, 文本纹理模 型不仅考虑了以词为基础元素的分析模式, 也考虑了词和词之间的关系 组合排列 句子的结构 标点的使用等等信息 图 3-1 文本纹理模型及其应用之间的关系图文本分类问题的研究在于所采用的特征表示方法是否合理 传统的文本表示模型无法很好地处理新型的自然语言文本分类任务, 因此, 本课题提出并完善了一种新的刻画文本信息的模型 文本纹理模型以解决新的应用需求 本课题达到的目的如下 : (1) 提出并完善文本纹理概念 (2) 提出文本纹理建模方法 (3) 提出基于文本纹理模型的特征表示方法 (4) 研究合适的机器学习模型和分类算法 (5) 解决新型应用问题 3.1 文本纹理的范畴 纹理是一种普遍存在的视觉现象, 目前对于纹理的精确定义还未形成统一认识, 根据定义 : 纹理的定义是指物体上呈现的线形纹路, 泛指物体面上的花纹或线条 在计算机图形学中, 纹理既包括通常意义上物体表面的纹理 ( 使物体表面呈现凹凸不平的沟纹 ), 同时也包括在物体的光滑表面上的彩色图案 ( 通常被称为花纹 ) 简而言之, 纹理就是对物体表面结构的刻画, 反映了图像本身的属性 文本纹理, 则是对文本信息和文本内容结构的刻画, 反映了文本的固有属性, 通常应包含以下两个方面 : 第 14 页共 37 页

20 (1) 按一定规则对元素 (elements) 或基元 (primitives) 进行排列所形成的重复模式 (2) 如果图像函数的一组局部属性是恒定的, 或者是缓变的, 或者是近似周期性的, 则称图像中的对应区域具有恒定的纹理 文本纹理定义的基本范畴包括如下内容 : (1) 单位文本的属性是指单位文本的总体属性 例如, 长度 总体统计量分布 句模 修辞手法等 (2) 组成文本的基元基元基本上类似于传统文本向量空间模型中的特征向量元素 根据划分的颗粒程度, 可以分为 : 字词级基元 句子级基元 (3) 基元的模式是指组成该文本的基本元素及元素之间的模式 如 : 字 词 词性等构成了基元 ; 基元 ( 词 词性 ) 的排列 组合 推理 统计等构成了具体的模式 本文中, 把基元的模式分为四类 : 基元的排列模式 基元的组合模式 基元的推理模式 基元的统计模式 在本文中, 文本纹理 (Text Texture) 的定义为 : 文章表达风格 写作方式的抽象概念 确定文本纹理特征, 并以此建模解决实际问题是本课题的研究中心 3.2 文本纹理建模 文本表示是文本信息处理中的基础问题 在没有转化为可计算的数学模型之前, 文本是语言的自然序列描述, 计算机难以直接处理这些自然序列的文本 因此, 在处理文本数据时, 特别是计算文本相似度 信息过滤 文本分类时, 需要把文本映射成可以计算的形式, 也就是文本表示 文本表示的主要目的是给出适合的数学模型, 依据该数学模型提取文本特征项, 并给出权重 当采用相同的机器学习算法时, 一个好的文本表示模型能够提高解决问题的精度 在特征表示方面, 传统的文本表示模型具有广泛的计算方法, 而且每种方法的都具有雄厚的数学基础 传统文本分类中用到的特征项集中于词性 词语等元素, 而忽视了上下文的信息, 以及元素之间的排列 组合信息 以向量空间模型 (VSM Vector Space Model) 为代表的文本表示模型假设特征项之间是平等的 无序的 相互独立的, 各个项的区别仅仅体现在特征值上 由于向量空间模型几乎没有考虑特征项之间的序关系 层次关系 依赖关系, 因此, 会造成文本语义和外在信息的损失 本课题研究中, 提出了文本纹理模型的概念, 目的是为了保留文本中除了词语本身含义之外的文本信息, 即词语之间的互信息, 因此, 文本纹理包括而不限于 : 词语间依赖关系 词性组合 句型 句式结构 句子修辞手法等 文本纹理模型具有以下的几个特点 : (1) 层次划分文本纹理模型在对文本信息描述时, 对内容分为三层 : 第一层是文本的总体属性, 包括长度 总体统计量 总体修辞手法等 ; 第二层组成文本的基元, 如 : 情感词 词性等等 ; 第三层为基元之间的各种模式分别组成一个层次 整个文本纹理模型可以表示为一个三层的文本模型 (2) 序关系序关系, 即基元的排列模式 基于 (1) 的描述, 基元的模式拟包括如下几种 : 组合模式 ( 不考虑顺序的基元模式 ); 排列模式 ( 考虑先后顺序的基元模式 ); 推理模式 ( 基元之间具有计算关系 ); 基元的统计模式 ( 统计计算出现的次数 ) 等 (3) 依赖关系 第 15 页共 37 页

21 基元之间的计算模式暗含了依赖关系 可参照 基于上下文图模型 基于迭代矩阵模型 等模型, 通过矩阵的计算来分析词语之间的互相推荐关系 这部分纹理特征拟在今后的研究中进一步探索 在 3.3 章节中详细介绍了文本纹理特征的表示方法,3.4 节提出了一种基于结构法的文本纹理特征表示和分类方法 3.3 文本纹理特征表示方法 提出一个合适的特征表示方法是本课题的核心研究内容之一, 也就是提出基于文本纹理模型的特征表示方法 基于文本纹理的特征表示方法研究如何构造合适的特征 文本的特征表示 文本纹理的三层计算模型用来描述原始自然语言文本 该模型可以抽取的文本特征如下 : (1) 文本总体属性包括文本的总长度 分句长度 文本总体字数统计 是否使用标点符号 情感词 是否使用了高级词汇 ( 即相对于日常用语较为文雅的词汇 ) (2) 组成文本纹理的基元 1) 字词级基元 : 内容词 : 主要指名词 动词 形容词 情感词 : 正向形容词 反向形容词 以及修饰这些形容词的副词 语气助词 : 传统方法都停用的语气助词, 例如, 啊 呀 嘛等 标点符号 :!,!!,!!!,!?,?? 特殊字符 :CCTV GCD SB 等等特殊含义的缩写字母组合 2) 句子级基元 : 修辞手法 : 识别每个句子的修辞手法 汉语的修辞手法主要包括, 比喻 比拟 借代 夸张 对偶 排比 设问 反问 语气 : 句子的语气判断, 主要包括, 陈述 疑问 祈使 感叹和虚拟 ( 英语的语气 ) 3) 语法级基元 : 构词方法 : 构词方法是指由最小语素合成为词组的方法 项目拟参考标准的构词法以及中文信息处理研究者们总结的便于计算机识别的组词法 至少包括如下内容 : 的字句 复指短语 固定短语 偏正短语 主谓短语 并列短语等 词性 : 是指在对句子进行分词和词性标注后所得到的每个词的词性 句模 : 是指句子的构成方式 中国传媒大学的候敏 大连理工大学的林鸿飞等在分析比较句和否定句是也总结了大量句子构造模式 (3) 基元的模式 1) 基元的组合模式, 不考虑顺序的基元模式, 是把 (2) 中的基元直接无序地放在一起组成的多个向量 2) 基元的排列模式, 考虑先后顺序的基元模式 传统的 N-Gram 就在某种程度上包含了字的顺序信息 项目把 N-Gram 修改为 N-I-Gram, 即跳跃式的选取 Gram, 不需要连续提取 需要提取基于字 N-Gram, 基于词的 N-I-Gram, 以及基于词性的 N-I-Gram 例如提取词性的位置顺序时, 只需要提取形容词 副词 动词 名词 助词的排列信息, 第 16 页共 37 页

22 其他的词性可能忽略 3) 基元的推理模式, 包含了基元之间的计算关系 典型的推理模式主要包括 3 类 第一类, 是指对于形容词, 但前面有副词修饰时, 根据副词的修饰程度改变形容词的程度, 当被否定修饰时改变极性 第二类是固定搭配 : 情感词在特定情况下表达不同的情感, 例如, 价格高 和 质量高 中的 高 表达的情感相反, 但在固定搭配中情感方向却是明确的 第三类是指常识性的推理 在比较句中, 形容一个公司的创新能力像 google, 则是褒义的推理 4) 基元的统计模式, 统计该基元在总体文本中的占比值 在上述提取的特征中, 有些特征对文本情感倾向性分类贡献较大, 有些贡献相对较小, 因此我们抽取了一些特征形成了基于结构法的分域表示文本纹理模型 (TTM, Text Texture Model) 该模型可以表示成一个 7 元组 <SetT, SetP, D, Rc, Ra, Ri, Rs> 其中, SetT, 表示文本的总体属性集合 SetP, 表示文本的基元集合 D(Distribution), 表示文本的某个属性的统计分布特征 Rc(Combination), 表示基元之间的组合关系 Ra(Arrangement), 表示基元之间的排列关系 Ri(Inference), 表示基元之间的推理关系 Rs(Statistics), 表示基元之间的统计关系 特征获取 文本纹理模型提取特征的流程如下图 3-2 所示 : 图 3-2 文本纹理模型特征提取流程 面向结构法的文本纹理特征表示模型 传统的分类算法采用特征向量来表示待分类对象 特征向量空间的维度, 也就是文本特 第 17 页共 37 页

23 征总数, 反映了向量空间模型的表示粒度 然而,1 维的空间向量模型无法包含大量的语义信息 排列和依赖信息等 因此, 面向结构法的文本纹理特征表示模型采取了分域治之的模型表示方法, 把出现在不同区域的相同特征当作同级别的特征对待, 而多域表示方法则视其为不同级别的特征, 很显然, 多域表示包含的信息量更大, 区别力也会更强 因此, 对于文本纹理模型而言, 更倾向于采用多域模型来表示 根据文本纹理模型的定义, 结构法至少可以把文本纹理特征表示为 N 个域, 这 N 个域分别是 : D = (F 1, F 2, F N ), 其中 D 是原始文本,F i (i=1,2, N) 表示域 其中, F 1 = ( f 1 :w 1, f 2 :w 2,, f m1 :w m1 ) F 2 = ( f 1 :w 1, f 2 :w 2,, f m2 :w m2 ) F N = ( f 1 :w 1, f 2 : w 2,, f mn, w mn ) 其中,f i 表示特征,w i 表示该特征对应的向量,m i (i=1,2, N) 表示每个域的最大维数 很显然, 在一般情况下, 各个域对应的向量的维度是不一样的 用结构法表示文本纹理模型体现了一种分治的思想, 充分利用了文本纹理的多层结构的特点, 将不同的文本特征划分为相对简单的子分类问题, 最后再将子分类问题的结果综合起来 采用结构法表示文本纹理模型的优点在于各分域间的特征独立性更强, 减少特征之间的互相干扰 面向结构表示法的分类算法研究 结构法把某一篇文章的纹理表示成多个层次的特征, 因此, 是一种分域的特征表示法 面对这种分域的特征表示, 不能简单地采用传统的分类方法直接处理 本课题拟采用 独立 - 综合 的方法实现针对结构法表示的文章的分类 把一个复杂的分域特征当作多个相对简单的子分类问题 于是, 子分类问题有其自身的特征空间 分类模型和分类结果, 最后将多个子问题的结果综合起来 在 独立 - 综合 思想的指导下, 本课题研究了两方面的问题 : 一是为每个子分类问题选择合适的分类算法 ; 二是选择合适的模型, 把子分类问题的分类结果综合为一个全局结果 (1) 为每个子分类问题选择合适算法每个子分类问题都是一个单独的文本分类问题, 可以看成独立的特征向量, 可以在现有的分类算法中选择合适的算法 在选择算法时, 应考虑到样本不平均的情况 : 正负面文本数量相差悬殊的情况 (2) 综合算法或策略综合策略是本项目研究的关键之一, 它直接决定了各个子分类算法的结果如何有效地组合在一起 在考虑综合算法时, 可选择线性叠加 非线性叠加和基于专家的层次分析法来处理整体的文本纹理模型 3.4 基于结构法的文本纹理特征表示和分类方法 基于结构的纹理特征表示和分类方法是一种分域的特征表示方法, 基于该表示法的分类过程或者算法不同于传统的 Bayes SVM KNN 等分类 该方法分为 3 个步骤 : 首先, 对文本进行特征提取, 并形成分域的表示模型 ; 然后, 为每一个域选择合适的分类器算法, 并给出独立的结果 ; 最后, 将多个域的分类结果按照综合策略组合成一个结果, 这个组合的结 第 18 页共 37 页

24 果就是文本分类的最终结果 基于结构法的文本纹理特征表示和分类方法的处理流程如下图 3-3 所示 : 图 3-3 基于结构法的文本纹理特征表示和分类法的处理流程 纹理模型分域表示 文本纹理模型在结构上将文本纹理的特征划分为多个域, 即多个不相关的分类子问题 基于结构法的纹理模型分域表示可以将文本表示为以下几个域 : F1 : 文本的总体属性向量文本总体属性向量域中包含了文本总长度 文本分句平均长度, 是否使用了标点符号, 是否使用了语气词, 以及是否含有高级词汇这五个特征元素 F2 : 内容词组合内容词组合分域包含了对原始文本中名词 动词 形容词这三种含有实际含义的内容词的提取及组合 F3 : 情感词组合情感词组合分域包含了对原始文本中形容词 副词的提取及组合 F4 : 语气助词 标点符号 特殊字符组合语气助词 标点符号 特殊字符组合分域包含了对原始文本中语气助词 标点符号 特殊字符的提取及组合 F5 : 句子级修辞手法 语气组合句子级修辞手法 语气组合分域包含了对原始文本中使用的修辞手法, 如 : 比喻 比拟 借代 夸张 对偶 排比 设问 反问, 以及对语气 : 陈述 疑问 祈使 感叹和虚拟的提取和组合 F6 : 构词方法组合构词方法组合分域包含了对原始文本中的字句 复指短语 固定短语 偏正短语 主谓短语 并列短语的提取和组合 F7 : 词性组合第 19 页共 37 页

25 词性组合分域包含了对原始文本中动词 名词 形容词 副词和助词这五类词性组合的特征提取 F8 : 句模组合句模组合分域包含了对原始文本中句模特征的提取 F9 : 情感词排列 (N-GRAM) 情感词排列 (N-GRAM) 分域包含了对情感词 ( 副词 形容词 ) 排列特征的提取, 需要考虑情感词在文本中出现的先后顺序 F10 : 词性排列 (N-I-GRAM) 词性排列 (N-I-GRAM) 分域包含了对原始文本中动词 名词 形容词 副词和助词这五类词性排列的特征提取, 在提取时不一定要求两个词性连续, 可以跳跃着提取 F11 : 句子级修辞手法 语气排列 (N-GRAM) 句子级修辞手法 语气组合分域包含了对原始文本中使用的修辞手法, 如 : 比喻 比拟 借代 夸张 对偶 排比 设问 反问, 以及对语气 : 陈述 疑问 祈使 感叹和虚拟的提取和排列 F12 : 副词形容词推理副词形容词搭配出现时, 副词的修饰程度改变形容词的程度 副词形容词推理分域包含了对原始文本中副词的修饰使得形容词极性 程度改变的特征的提取 F13 : 部分基元统计值部分基元统计值分域包含了对原始文本中名词 动词 形容词 副词 助词 语气词这几类词在原始文本中所占的比例进行特征提取 分域分类算法选择 为每个域选择分类器的主要依据是详细分析现有经典分类算法的具体特点 国内外学者在探讨分类算法时, 经常会探讨分类算法在如下几点的表现能力, 例如 : 是否能适应类别分布不平衡的样本? 是否依赖完整的主题词表? 是否能处理小样本? 对高维向量的适应性? 在线识别时的速度怎么样? 基于以上的几点考虑, 本课题在实验中分别对每一个分域子分类问题使用不同的文本分类算法, 并分析各种算法对分域模型的适用性, 并为每一个分域模型选择最合适的分类算法 组合策略 在为每个分域选择了最合适的分类算法后, 还需要将所有的模型用一种综合的算法来统一起来 (1) 线性统计加权方法该方法是一种比较简单直观的方法, 即将所有分域的分类结果 r 1,r 2,r 3,,r 13 通过一种线性组合的方式得到整体的分类结果 R 考虑到各分域对整体的分类结果的贡献度不同, 为每一部分附上一个权重 w i (i=1,2,3,,13), 则加权后的计算方法如下所示, R = r 1 *w 1 + r 2 *w 2 + +r n *w n (3-1) 第 20 页共 37 页

26 线性组合方法能够高速地计算权值, 比较适合在线应用 (2) 基于专家的层次分析法层次分析法 (AHP - Analytic Hierarchy Process) 是一种定性分析与定量分析相结合的系统分析方法, 是将人的主观判断用数量形式表达和处理的方法 层次分析法是把复杂问题分解成各个组成因素, 又将这些因素按支配关系分组形成递阶层次结构 通过两两比较的方式确定各个因素相对重要性, 然后综合决策者的判断, 确定决策方案相对重要性的总排序 层次分析法的基本步骤 : 1) 建立层次结构模型, 将有关的各个因素按照不同属性自上而下地分解成若干层次 2) 构造成对比较阵 3) 计算权向量, 并做一致性检验 4) 计算组合权向量, 并做组合一致性检验 3.5 本章小结 本章中详细论述了文本纹理模型的概念 首先, 本章第一节提出了本课题研究的文本纹理模型的应用, 然后提出了文本纹理模型的建模方法, 包括文本纹理的定义及其分域模型表示 最后本章讨论了基于结构法的文本纹理特征表示和分类方法, 包括了文本分域模型分类算法选择和综合算法的选择, 形成了一套完整的文本纹理分类系统 第 21 页共 37 页

27 第四章基于文本纹理模型的主客观分类系统 目前, 随着互联网上评价信息的增加, 对于互联网上海量文本信息进行处理和分类的需求正在与日剧增 与传统的文本主题分类任务相比, 新的自然语言文本分类任务更多地关注了文本中所传达的信息 文本情感倾向性 文本情感倾向性分析的研究在现实世界中有着极为广泛的应用 如 : 消费者可以通过对某商品海量的评价文本进行自动分类, 来获取其客观评价或正 / 负面评价作为购物的参考 ; 同时, 商家也可以以此来分析消费者的反馈并改进自己的产品 文本情感倾向性分析的研究可以为政府 企业和个人提供决策上的支持 本文前三章依次论述了文本情感倾向性分析研究的现状和意义, 现有文本分类系统 技术手段和理论基础, 以及本文中提出了一种改进的基于文本纹理模型的文本情感倾向性分析系统 在本章中, 将会基于上一章提出的文本纹理模型, 对实际文本语料库进行情感倾向分类, 并详细描述整个实验系统的架构以及实验步骤, 并对实验结果 数据进行比对分析, 对这个分类系统的性能做出总结阐述 第 22 页共 37 页

28 4.1 系统构造阐述 图 4-1 基于文本纹理模型的情感倾向性分类系统整体流程图基于文本纹理模型的情感倾向性分类系统主要由这几个部分组成 : 文本预处理过程 特征向量提取和构造过程 分类器训练过程 测试样本预测及结果评估的部分 其中, 文本预处理过程中, 作者主要使用了 IKAnalyzer 和 NLPIR 分词工具分词 在特征向量提取和构造过程中, 使用 Java 和 python 对预处理后的样本进行特征提取和构造 在分类器训练过程和测试样本预测及结果评估的部分, 作者使用了 Weka 开源数据挖掘平台及不同的文本分类算法构造分类器并训练, 最后使用测试集测试分类器的准确性 其中, 本文研究的重点为特征向量的构造以及分类结果的评估 特征向量构造的各部分功能作用如下 : (1)NLPIR 分词工具提供了文本分词的功能, 并将分词后的文本标注词性 作者在 Java 工程中调用了 NLPIR 的分词库接口, 对原始数据文本进行批量分词和词性标注 (2) 特征抽取部分提取文本中的基元, 如 : 词性 情感词 内容词 标点符号等基元 第 23 页共 37 页

29 (3) 特征构造部分是利用 (2) 中抽取出的文本基元, 形成基元的排列 组合 推理 统计模式, 即分域模型 (4) 特征降维部分是从 (3) 中构造的分域模型中, 除去低频特征, 从而加快分类速度, 节约时间和空间使用 (5) 分类器训练部分采用的是由新西兰怀卡托大学用 Java 开发的开源数据挖掘平台 Weka Weka 数据挖掘平台支持多种文本分类算法 在实验中, 作者在 Java 工程中调用了 Weka 的库, 实现了对文本分类器的训练 (6) 分类结果评估部分采用查准率 查全率 F 值 特征维度数量作为分类评估效果的参数 图 4-2 基于文本纹理的情感倾向性分类系统特征向量构造部分流程图 4.2 Weka 开源数据挖掘平台 Weka 智能分析环境 (Waikato Environment for Knowledge Analysis) 是一个基于 Java 实现的开源数据挖掘平台, 由新西兰的怀卡托大学开发 [31] Weka 开源数据挖掘平台包含了各类数据分析 分类的算法和预测模型, 可以对数据进行预处理 分类 聚类 关联规则等一系列操作, 其 Windows 下的可视化操作界面如下 : 第 24 页共 37 页

30 图 4-3 Weka 开源数据挖掘平台主界面 Weka Explorer 中支持了对数据预处理 分类 聚类 关联规则等操作, 见下图 4-4 所示, 也是本课题中主要使用的功能 此外,Weka Experimenter 中允许用户创建 执行 修改和分析实验结果 在 Weka KnowledgeFlow( 知识流界面 ) 是 Explorer 的另一种选择 Weka KnowledgeFlow 界面是包含了 Weka 核心算法的图形前端, 允许用户将各组件, 如 : 分类器 数据格式转换器 数据筛选器等功能组件直观地连接在一起生成一个系统模型, 最大的特点是让用户直观地看到数据流的操作 图 4-4 Weka Explorer 数据分类操作界面 - 分类算法选择 Weka 的数据格式是特定的,Weka 处理的数据集是一个 arff 格式二维的表格, 如下图 4-5 所示 : 第 25 页共 37 页

31 图 4-5 Weka ARFF 格式数据 Weka 储存数据的格式是 ARFF(Attribute-Relation File Format) 文件 首先, 是数据文件的属性声明, 按顺序定义了每一个实例 (Instance) 向量的属性 (Attribute), 定义的属性可以为数值型 字符串型 后面的每一行是一个数据实例, 在图示中一共有 14 个实例 4.3 文本情感倾向性分析文本语料库 本课题中设计的文本情感倾向性分析实验分为 : 主客观文本分类和文本褒贬性情感分析两类文本分类任务, 并分别使用传统的空间向量模型和本文提出的文本纹理模型来表示和文本分类, 并评估其分类结果, 比较其文本分类准确性和空间复杂度上的差别 主客观文本分类语料使用了 :2012 年 3 月的微博热门主题 # 疯狂的大葱 # 讨论语料集, 文本分三类 : 主观 客观 其他, 共有 1448 个文本, 其中主观 431 个, 客观 1009 个, 其他 9 个 文本褒贬性情感分析语料使用了谭松波从携程网上收集整理的某酒店的正负面评价语料, 共 6000 文本 语料集为平衡语料, 正负类各 3000 篇 4.4 分域模型实验及结果 在本课题的实验中, 我们分别使用传统的向量空间模型和本文提出的文本纹理模型来处理主客观文本分类和文本褒贬性情感分析两类文本分类任务 实验中主客观文本分类抽取 1000 个文本作为训练集 ( 其中主观 298 个, 客观 697 个, 其他 5 个 ),448 个文本作为测试集 文本褒贬性情感分析语料集抽取 4000 个 ( 其中正负各 第 26 页共 37 页

32 2000 个 ) 文本作为训练集, 剩余作为测试集 训练集测试集比例约为 2:1 实验中, 分域模型采用了 :F1: 文本的总体属性向量 ;F2: 内容词组合 ;F3: 情感词组合 ; F4: 语气助词 标点符号 特殊字符组合 ;F7: 词性组合 ;F9: 情感词排列 (N-GRAM);F10: 词性排列 (N-I-GRAM);F13: 部分基元统计值等 8 个分域模型对文本进行表示和分类 主客观文本分类 表 4-1 传统的向量空间模型分类结果分类文本文本分类算法特征向量维度查准率查全率 F- 值主观评价 SVM 客观评价 SVM 表 4-2 文本的总体属性向量分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-3 内容词组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-4 情感词组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-5 语气助词 标点符号 特殊字符组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-6 词性组合分域模型分类结果 文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes 第 27 页共 37 页

33 J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-7 情感词排列 (N-GRAM) 分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-8 词性排列 (N-I-GRAM) 分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-9 部分基元统计值分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 文本褒贬性情感分析 表 4-10 传统的向量空间模型分类结果分类文本文本分类算法特征向量维度查准率查全率 F- 值褒义评价 SVM 贬义评价 SVM 表 4-11 文本的总体属性向量分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-12 内容词组合分域模型分类结果 文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes 第 28 页共 37 页

34 J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-13 情感词组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-14 语气助词 标点符号 特殊字符组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-15 词性组合分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-16 情感词排列 (N-GRAM) 分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-17 词性排列 (N-I-GRAM) 分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-18 部分基元统计值分域模型分类结果 文本分类算法 特征向量维度 查准率 查全率 F- 值 Naïve Bayes 第 29 页共 37 页

35 J48(Decision Tree) SMO(SVM) IBK(KNN) 实验结果分析 根据 4.4 节的实验结果, 可以得出以下结论 : 第一, 对于不同的文本集 ( 主客观文本分类和文本褒贬性情感分析文本 ), 传统的空间向量模型的分类结果表现差别很大 在主客观文本分类中, 传统的空间向量模型分类方法可以达到将近 90% 的查准率和查全率, 而对于文本褒贬性情感分析文本集, 其负面评价的查准率仅为 57% 通过人为的对数据文本的观察可以发现, 该酒店评论的正面评价文本评价方式和内容比较集中 统一, 而负面评价之间往往差别很大, 这也是为什么通过提取文本关键字特征的传统分类手段无法满足这类文本分类的需求 与本文提出的文本纹理模型相比, 传统的空间向量模型分类方法在分类准确率和稳定性上有一定的差距 第二, 对于相同的文本分类语料库, 不同的分域模型对分类准确率的贡献不同 在主客观文本分类实验中, 部分基元统计值分域模型的分类准确率最高, 词性组合分域模型的分类结果较差 而在文本褒贬性情感分析实验中, 词性排列 (N-I-GRAM) 分域模型 情感词排列 (N-GRAM) 分域模型 情感词组合分域模型和内容词组合分域模型的分类结果表现出众, 均达到了 90% 以上的分类准确率, 语气助词 标点符号 特殊字符组合分域模型及文本的总体属性向量分域模型的分类结果较差 第三, 对于不同的文本分类语料库, 相同的分域模型表示得到的分类结果也不尽相同 其中, 内容词组合分域模型 情感词组合分域模型 词性排列 (N-I-GRAM) 分域模型和情感词排列 (N-GRAM) 分域模型等表现较为一致, 其分类结果准确率均比较高 ; 而语气助词 标点符号 特殊字符组合分域模型的分类结果不稳定, 可能会随着文本的变化而有较大差异 第四, 基于文本分类评估结果的综合参数 F- 值的考虑, 作者为每一个分域模型选择了适合的经典文本分类算法 : F1: 文本的总体属性向量 :KNN 算法 F2: 内容词组合 :SVM 算法 F3: 情感词组合 :KNN 算法 F4: 语气助词 标点符号 特殊字符组合 :SVM 或 KNN 算法 F7: 词性组合 :SVM 算法 F9: 情感词排列 (N-GRAM):SVM 或 KNN 算法 F10: 词性排列 (N-I-GRAM):KNN 算法 F13: 部分基元统计值 :KNN 算法第五, 基于上述实验结果, 考虑到分类结果的准确性 稳定性, 以及对系统资源的要求, 选择分类效果优于传统空间向量模型的分域模型进行线性加权, 并根据其综合分类效果 F- 值作为权重的大小 本文提出两种推荐的综合策略 : (1) 线性统计加权方法 : 对于主客观文本分类任务 : R = (0.89* r *r *r *r *r *r 6 ) / 4.6 其中,r 1 为文本的总体属性向量分域模型,r 2 为内容词组合分域模型,r 3 为情感词组合 第 30 页共 37 页

36 分域模型,r 4 为情感词排列 (N-GRAM) 分域模型,r 5 为词性排列 (N-I-GRAM) 分域模型, r 6 为部分基元统计值分域模型 对于文本褒贬性情感分析任务 : R = (0.84*r *r *r *r *r *r *r 7 ) / 6.49 其中,r 1 为文本总体属性向量分域模型,r 2 为内容词组合分域模型,r 3 为情感词组合分域模型,r 4 为词性组合分域模型,r 5 为情感词排列 (N-GRAM) 分域模型,r 6 为词性排列 (N-I-GRAM) 分域模型,r 7 为部分基元统计值分域模型 (2) 层次分析法 : 本实验中采用的文本分类数据集为小量文本数据, 若将文本纹理模型应用在工程应用中 ( 如 : 在线实时文本数据挖掘 ), 除了考虑其分类准确率之外, 还应考虑其时间 空间复杂性等 在本次实验中, 作者采用了基于词频 ( 特征频率 ) 的特征降维的方式 本实验中 N-GRAM 的 N 均取值为 2,N-I-GRAM 的 N 均取值为 3 尽管 N 取值较小, 但是生成的特征维度仍然很高, 例如 : 情感词排列分域模型中, 情感词的提取将近 500 个, 则其排列方式有将近 个 如此高维的特征向量势必会引入很多噪声, 降低文本分类结果的准确性和效率 作者在实验中分别两次降维, 第一次在情感词的提取时, 第二次在情感词的排列时, 分别除去了特高频 ( 如 :# 疯狂的大葱 # 中的 疯狂 ) 及低频向量, 将特征维度控制在计算机计算可以承受的范围之内 因此, 本文提供了一种具有参考性的层次分析模型, 如下图 4-6 所示 : 图 4-6 基于层次分析法的文本纹理模型第六, 作者不排除本实验中文本语料库的某些特性影响了实验结果的准确性 为了说明文本纹理模型的分类优势, 还需要进一步采用标准化分类语料进行分析, 并与其他文本分类模型和方法做比较 4.6 本章小结 本章基于上一章提出的文本纹理模型, 对实际文本语料库进行情感倾向分类, 并详细描 第 31 页共 37 页

37 述整个实验系统的架构以及实验步骤, 并对实验结果 数据进行比对分析, 对这个分类系统 的性能做出总结阐述 第 32 页共 37 页

38 第五章结论与展望 5.1 结论 随着互联网的普及, 网络上的信息以极快的速度膨胀, 并产生了大量的带有情感色彩的文本 如果这些文本加以适当的处理和挖掘, 便可以提取到其中蕴含的潜在价值 如何自动化地处理 挖掘, 并提取到海量文本中的信息成为了当今的一个热门的研究课题 在互联网信息时代, 文本分类技术有着良好的发展前景 随着越来越多的专家学者投入到自然语言处理领域的探索和研究, 这个领域正在得到越来越多的关注 随着研究的深入, 对文本分类的准确性和系统的稳定性需求也不断上升 本文提出了文本纹理的概念, 并给出了文本纹理的定义, 旨在改进传统的文本分类系统在特征提取时会损失文本间词语依赖 词语和句子结构之间的信息, 有效提高分类的准确性和稳定性, 广泛地适应新的文本分类任务 本文的研究工作主要如下 : (1) 定义了文本纹理的概念, 并给出了基于结构法的文本纹理模型 (2) 对于主客观文本分类和文本褒贬性情感分析两种文本分类任务, 分别采用传统的空间向量模型和本文提出的文本纹理模型对其表示和分类, 并对其结果进行分析和评估 实验的结果表明, 文本纹理模型在文本情感倾向分析上较于传统的文本分类系统有着明显的准确性优势, 文本纹理特征的提取可以更好地保留原始文本的信息 5.2 展望 本文较为系统地给出了文本纹理的定义 特征的形式, 以及文本纹理模型的构造, 但是由于时间紧迫, 作者未能完成全部的文本纹理分域模型的实现 此外, 在实验中仅仅选取了两种比较典型的文本情感倾向分类任务, 各选一种文本语料集作为实验分类语料库, 该语料集并不带有代表性和普适性, 但是可以说明文本纹理在对文本间信息的刻画上的优势 另外, 特征维度的选择对于文本分类的准确性有着一定的关系 : 维度过高会导致特征向量存在信息的冗余 白噪声, 在分类算法计算时会导致时间 空间复杂度增加 ; 维度过低会导致特征向量对文本信息刻画的缺失, 同样造成分类准确性的下降 本文对文本纹理的研究仅仅是一个开始, 是对文本纹理挖掘的一次探索, 在这个方向上仍然还有很多方面值得我们探索和尝试 : (1) 继续完善基于结构法的文本纹理分域模型 作者完成了对总体属性向量分域模型 内容词组合分域模型 情感词组合分域模型 情感词排列 (N-GRAM) 分域模型 词性排列 (N-I-GRAM) 分域模型和部分基元统计值分域模型等八个分域模型的实现, 今后还可以对句模 句式等文本特征进行挖掘, 形成新的分域模型并扩充进来 (2) 本文并未对特征降维的阈值进行深入研究 由于计算性能受限, 本文将所有的特征维度控制在 维以下, 但是部分实验模型中, 或许已经对特征向量造成了过度降维, 第 33 页共 37 页

39 导致文本信息丢失 准确率下降 如果进一步探索, 可以考虑如何合理地进行特征降维 (3) 本课题实验中所采用的文本分类语料库分别为文本褒贬性分类语料 ( 携程网上对某酒店的评价 ) 主客观分类语料(2012 年 3 月微博热门讨论话题 # 疯狂的大葱 #) 其中, 文本褒贬性分类语料为对称语料集, 主客观分类语料为非对称语料集 这两个文本语料集并不具有普适性和广泛性 为了证明文本纹理模型的优势和特点, 还应当采用大量的 标准化的语料集进行实验和结果评估 (4) 一些特殊的文本特征, 如 : 讽刺语气 修辞手法等, 在现阶段的文本分类技术下, 仍然不能有效地识别, 需要通过人为的方式来标注 因此, 实现文本纹理模型分类系统需要更高的人工智能技术的辅助 (5) 由于语料集的特性, 本文只尝试了二分类和三分类的文本分类实验 今后的实验中可以尝试多分类的文本分类任务 第 34 页共 37 页

40 参考文献 [1] Yao T F, Cheng X, Xu F, et al. A survey of opinion mining for texts[j]. Journal of Chinese information processing, 2008, 22(3): [2] Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectives[c]//proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 1997: [3] Kim S M, Hovy E. Automatic detection of opinion bearing words and sentences[c]//proceedings of IJCNLP. 2005, 5. [4] 百度百科. 自然语言处理, [EB/OL][D]., [5] Wiebe J. Learning subjective adjectives from corpora. In: Schultz AC, ed. Proc. of the AAAI. Menlo Park: AAAI Press, [6] 赵妍妍, 秦兵, 刘挺. 文本情感分析 [J]. 软件学报, 2010, 21(8): [7] Peter D. Turney, Michael L. Littman. Measuring praise and criticism: Inference of semantic orientation from association[j].acm Transactions on Information Systems (TOIS).2003,Volume 21 Issue 4: [8] Theresa Wilson, Janyce Wiebe, and Paul Hoffmann.Recognizing Contextual Polarity:An Exploration of Features for Phrase-Level Sentiment Analysis[J].Computational Linguistics,2009,35(3): [9] Prem Melville, Wojciech Gryc, and Richard D. Lawrence.Sentiment analysis of blogs by combining lexical knowledge with text classification[a]. KDD '09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining[c].new York, USA:ACM, 2009, [10] 张紫琼. 面向中文情感分析的词类组合模式研究 [D]. 哈尔滨工业大学, [11] 徐琳宏, 林鸿飞, 杨志豪. 基于语义理解的文本倾向性识别机制 [J]. 中文信息学报, 2007, 21(1): [12] Joon Ho Lee. Properties of extended Boolean models in information retrieval. Proceedings of the 17th annual international ACM SIGIR conference on Research and development in Information Retrieval. 1994: [13] Salton G,E A Fox and H.Wu. Extended boolean information retrieval. Communications of the ACM. 198 [14] Gerard Salton, A. Wong, and CS Yang. A vector space model for information retrieval. Communications of the ACM, 18(11): , November [15] Tanaka T. Statistical-mechanics analysis of Gaussian labeled-unlabeled classification problems[c]//journal of Physics: Conference Series. IOP Publishing, 2013, 473(1): [16] 李荣陆, 王建会, 陈晓云, 等. 使用最大熵模型进行中文文本分类 [J]. 计算机研究与发展, 2005, 42(1): [17] Somashekara M T, Kiran R R S, Muralidhara B L. Probabilistic Measures of Similarity Dissimilarity Between Markov Models for Construction of Guide Tree for Multiple Sequence Alignment[J]. IJECCE, 2013, 4(3): [18] 于津凯, 王映雪, 陈怀楚. 一种基于 N-Gram 改进的文本特征提取算法 [J]. 图书情报工 第 35 页共 37 页

41 作. 2004,48(8): [19] Metzler D. Generalized inverse document frequency[c]//proceedings of the 17 th ACM conference on Information and knowledge management. ACM, 2008: [20] 李耀林. 面向评价对象的商品评论情感倾向性分析研究 [D]. 浙江工商大学, [21] 刘依璐. 基于机器学习的中文文本分类方法研究 [D]. 西安电子科技大学西安电子科技大学 : 情报学,2009. [22] 周俊生, 戴新宇, 尹存燕, 等. 基于层叠条件随机场模型的中文机构名自动识别 [J]. 电子学报, 2006, 34(5): [23] Tan, S., and Zhang, J. An empirical study of sentiment analysis for Chinese documents. Expert Systems with Applications, 34, 4 (2008), [24] Wang, S., Li, D., Song, X., Wei, Y., and Li, H. A feature selection method based on improved fisher's discriminant ratio for text sentiment classification. Expert Systems with Applications, 38, 7 (2011), [25] Li Y, Luo C, Chung S M. Text clustering with feature selection by using statistical data[j]. Knowledge and Data Engineering, IEEE Transactions on, 2008, 20(5): [26] Yang, Y. and Pedersen, J. O. A comparative study on feature selection in text categorization. In Proceedings of the ICML, 1997, [27] Vapnik V.Nature of Statistical Learning Theory(2nd edition)[m]. New York: Springer Press [28] 姚天昉, 娄德成. 汉语情感词语义倾向判别的研究 [C]// 中国计算技术与语言问题研究 第七届中文信息处理国际会议论文集 年, [29] 代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究 [J]. 中文信息学报, 2004, 18(1): [30] Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis[j]. Computational linguistics, 2009, 35(3): [31] Witten I H, Frank E. Data Mining: Practical machine learning tools and techniques[m]. Morgan Kaufmann, [32] 叶强, 张紫琼, 罗振雄. 面问互联网评论情感分析的中文主观性自动判别方法研究![J] [33] Wiebe J, Wilson T, Bell M. Identifying collocations for recognizing opinions[c]//proceedings of the ACL-01 Workshop on Collocation: Computational Extraction, Analysis, and Exploitation. 2001: 第 36 页共 37 页

42 谢辞 本论文是在我的导师刘功申副教授的悉心指导下完成 在整个论文的选题 构思 实验设计到论文定稿都得到了刘老师的精心指导和大力支持 从论文的课题研究到实验, 再到论文的撰写过程中遇到了无数的困难与坎坷, 查阅了无数的文献资料, 唯有不断地思考和尝试, 脚踏实地, 才是一名本科生追求知识的正确方向 大学四年的生活已接近尾声, 回首奋斗于毕业的三个月里, 感觉十分充实, 随着本次论文的完成, 也将要给本科生涯划下完美的句号 在此, 我要衷心地感谢刘功申老师对我毕业设计的指导和启发, 以及徐佳俊同学在毕业设计实验时的帮助, 感谢自然语言处理领域的专家学者和前辈们的辛勤付出和宝贵的研究资料 感谢上海交通大学对我的培养, 感谢信息安全工程学院的老师在我本科期间传道授业解惑 第 37 页共 37 页

43 ANALYSIS AND RESEARCH ON EMOTION INCLINATION BASED ON TEXT TEXTURE MODEL With the rapid development of the Internet, information on the Internet is increasing explosively. The Internet has become an interactive platform to express people s personal opinions. This massive information on the Internet has great potential values to be explored and utilized. Hence, how to effectively deal with the emotional texts on the Internet becomes a very meaningful topic. By performing a fast, accurate, effective analysis on these texts with emotional tendencies, we can dig out these potential opinions and attitudes in order to provide strategies for the government, enterprise and single persons. Manual text classification is accurate, but it consumes a lot of time and energy. Thus, we are seeking out a way to classify emotional texts automatically and efficiently. With more and more experts and scholars have devoted to Natural Language Processing exploration and research field, the field is getting more and more attention. With the in-depth study, the accuracy and stability of the demand system of text classification is also rising. Traditional text classification is mostly based on subject classification without concerning for the potential and value of information contained in the text. However, the new classification need to care more about complex text information. In order to meet the new classification application requirements, we put forward a new text feature description model -- text texture model. This paper proposes a new concept of text texture model, and gives the definition, characteristic of this model. The model can depict the original text and retain the original text information to a great extent. Text classification task refers to classify the original text by means of the assistance of computers. Text sentiment classification is a new application in text classification. Analysis of text sentiment orientation refers to how to automatically identify the sentiment in the article such as: commendatory (support), negative (against), neutral, etc.. Text classification system is generally divided into three parts: document representation, classifier training phase and the classification phase. Among them, the text representation stage involves the extraction of text features, is the most crucial step. At present, the research on natural language text classification is mostly focused on the study on text representation model. The text expression stage is one of the most critical parts of the whole text classification system, which is divided into the following steps: text preprocessing, model representation, feature extraction, feature dimension reduction. Training is the core part of the text representation of computer aided processing classification task, also embodies the application of machine learning, this stage only exist in supervised learning. The testing stage and classification stage is testing a classifier performance stage. In the testing stage, the test set is input into the classifier with classification rules after pretreatment and classification results come out as the output. By analyzing the results, we can determine whether the classifier accuracy meet classification tasks. If not, we can turn back and turn the parameters of classifier, or 第 1 页共 3 页

44 text processing methods, or feature extraction methods and etc.. Text segmentation is unique Chinese text classification task step. Nowadays, NLPIR Chinese word segmentation system (NLPIR, ICTCLAS2013) is widely used for Chinese text segmentation. It is developed by Dr. Huaping Zhang from NLP group in Computing Technology Institute, CAS. Dimension reduction is a way to improve the computational efficiency, removing redundant information and noise. There are several approaches to reduce dimensions. The most common one is DF(document frequency) methods. DF refers to the frequency of a word appearing in the whole text. When the frequency is below a threshold, we can remove the dimension. Moreover, there are a variety of ways to present Chinese text features. For example, text feature based on words, text feature based on phrases, text feature based N-GRAM, text feature based on N-POS and etc.. Text classification means to classify the unknown object categories in the text space to the specified class space. This process requires constructing a classification function or classification model, which is the core of text classification. At present, natural language text classification algorithm based on the vector space representation of the model is as follows: Support Vector Machine, the basic idea of the algorithm is to find a hyper plane which enables to divide the training data into two separate parts and the vertical distance between the hyper plane and categories of the boundary is the longest. Naïve Bayes is a classification algorithm based on statistics. The basic idea of the algorithm is based on the Bias theorem, calculating the probability of a text which it should belong to a certain category. And then the text is classified in this category with maximum probability. K-Nearest Neighbor, the basic idea of the algorithm is to find out K text to be classified marked text recent distance. Decision Tree, based on the known circumstances occurrence probability, through the form of decision tree to calculate the net present value of the expected value of the probability is greater than or equal to zero. Vector Distance, the basic idea of the algorithm is based on the arithmetic mean as the center of each kind of text vector calculated the genre, in judging the text categories, similarity computation center vector feature vector of the text and each kind of text, and then takes the text similarity class of the highest for the text category. Deep Learning, is generally regarded as the realization method of a depth of artificial intelligence, many companies often use this method in solving practical problems. Weka intelligent analysis environment (Waikato Environment for Knowledge Analysis) is an open source data mining platform based on Java, developed by the University of Waikato in New Zealand. Weka open source data mining platform includes the algorithm and the prediction model of all kinds of data analysis, classification, the data preprocessing, classification, clustering, association rules and a series of operations. Weka Explorer in support of the operation on the data preprocessing, classification, clustering, association rules, is also the subject of the main use of function. In addition, Weka Experimenter allows users to create, execute, modify and analysis of experimental results. In the Weka Knowledge Flow (knowledge flow interface) is another option Explorer. Weka Knowledge Flow interface contains a graphical front-end to Weka core algorithm, allows the user to the components, such as: classifier, data format converter, data filter and other functional components directly connected together to generate a system model, the biggest characteristic is to let users visually see the operation of data stream. Text texture model proposed in this paper is a new text representation model. Text texture 第 2 页共 3 页

45 model considers not only used the word as analysis model of basic elements, but also the relationship between word and word, permutation and combination, sentence structure, punctuation and so on. Research on text classification problems lays on whether method is reasonable. The traditional text representation models are unable to deal with natural language text classification task model, so we create a new model - text texture model. This research purpose is as follows: (1) Propose the concept of text texture (2) Propose text texture modeling method (3) Propose a presenting method of text features based on text texture model (4) Study the appropriate machine learning model and the classification algorithm (5) Solve the problems of new text classification application Text representation is the basis of text processing. The text is a natural sequence of language description; the computers cannot process on these natural sequences before they are transformed into calculable mathematical model. The main purpose of the text is to gives a suitable model based on the mathematical model of text feature extraction, and gives the weights. When using the same machine learning algorithms, a good text representation model can improve the accuracy of solving problems. In this paper, we put forward the concept of text texture model in order to keep the text information besides the meanings of the words themselves, such as the mutual information between words. Hence, the definition of text texture includes but not limited to: the dependencies between words, word combination, sentence, sentence structure, sentence rhetoric and etc.. Putting forward a suitable feature representation method is one of the core contents of this research; it means to propose a feature representation of text based on texture model, indicating how the construction method is suitable for text based on the texture feature. For the subjective and objective text classification and appraise the emotional analysis of two kinds of text classification tasks, we use text texture model vector space model and the traditional representation to present and classify texts, analyze and evaluate the results. The experimental results show that, the text categorization system texture model in the analysis of the text affective tendency compared with traditional has obvious advantages of text extraction accuracy, texture feature information can be better to retain the original text. This paper systematically presents the definition, text texture form, and constructs the text texture model, but because of time constraints, the author fails to complete the full text texture domain model. In addition, in the experiment only selected two typical kinds of text sentiment orientation classification task. The data set does not have a representative and universality, but it still shows significantly the advantages the text texture possessed in the portrayal of the text information on the edge. Moreover, there is a certain relationship between the accuracy of text classification and the choice of characteristic dimensions: High dimension of feature vectors can cause information redundancy, white noise; leading to the time, the space complexity increase during calculating. Too low dimensions will lead to lack of feature vector of text information description, which also causes decreased classification accuracy. This paper studies on the text of texture is just a beginning, is an exploration of the texture of text mining, in this direction, there are still many aspects worthy of our exploration and attempt. 第 3 页共 3 页

2013-comp-022.dvi

2013-comp-022.dvi 4 2014 7 ( ) Journal of East China Normal University (Natural Science) No. 4 Jul. 2014 : 1000-5641(2014)04-0062-07, (, 200062) :,.,,, ; N-POSW, 2-POS W,.,, F 7%. : ; ; N-POSW ; : TP39 : A DOI: 10.3969/j.issn.1000-5641.2014.04.008

More information

國家圖書館典藏電子全文

國家圖書館典藏電子全文 i ii Abstract The most important task in human resource management is to encourage and help employees to develop their potential so that they can fully contribute to the organization s goals. The main

More information

标题

标题 第 19 卷 摇 第 4 期 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 模 式 识 别 与 人 工 智 能 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Vol. 19 摇 No. 4 摇 006 年 8 月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 PR & AI 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Aug 摇 摇

More information

Microsoft Word - chnInfoPaper6

Microsoft Word - chnInfoPaper6 文 章 编 号 :3-77(2)-- 文 章 编 号 :92 基 于 中 文 拼 音 输 入 法 数 据 的 汉 语 方 言 词 汇 自 动 识 别 张 燕, 张 扬 2, 孙 茂 松 (. 清 华 大 学 计 算 机 系, 北 京 市 84;2. 搜 狗 科 技 公 司, 北 京 市 84) 摘 要 : 方 言 研 究 领 域 中 的 语 音 研 究 词 汇 研 究 及 语 法 研 究 是 方 言

More information

untitled

untitled LBS Research and Application of Location Information Management Technology in LBS TP319 10290 UDC LBS Research and Application of Location Information Management Technology in LBS , LBS PDA LBS

More information

2/80 2

2/80 2 2/80 2 3/80 3 DSP2400 is a high performance Digital Signal Processor (DSP) designed and developed by author s laboratory. It is designed for multimedia and wireless application. To develop application

More information

穨423.PDF

穨423.PDF Chinese Journal of Science Education 2002,, 423-439 2002, 10(4), 423-439 1 2 1 1 1 2 90 8 10 91 4 9 91 8 22 ) NII 1995 7 14, 1999 1997 (Cooperative Remotely Accessible Learning CORAL) 424 (Collaborative

More information

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of 中 国 科 学 技 术 大 学 硕 士 学 位 论 文 新 媒 体 环 境 下 公 务 员 在 线 培 训 模 式 研 究 作 者 姓 名 : 学 科 专 业 : 导 师 姓 名 : 完 成 时 间 : 潘 琳 数 字 媒 体 周 荣 庭 教 授 二 一 二 年 五 月 University of Science and Technology of China A dissertation for

More information

A Study on Grading and Sequencing of Senses of Grade-A Polysemous Adjectives in A Syllabus of Graded Vocabulary for Chinese Proficiency 2002 I II Abstract ublished in 1992, A Syllabus of Graded Vocabulary

More information

Corpus Word Parser 183

Corpus Word Parser 183 95 182 2010 1946 5 15 1948 6 15 1949 3 15 8 1 2011 2012 11 8 2015 12 31 Corpus Word Parser 183 2017. 1 ROST Content Mining 2003 20 60 2003 184 2003 20 60 1999 2009 2003 Discourse Analysis 1952 Language

More information

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes 上 海 外 国 语 大 学 硕 士 学 位 论 文 对 外 汉 语 初 中 级 副 词 情 境 教 学 研 究 与 实 践 院 系 : 国 际 文 化 交 流 学 院 学 科 专 业 : 汉 语 国 际 教 育 姓 名 : 顾 妍 指 导 教 师 : 缪 俊 2016 年 5 月 Shanghai International Studies University THE STUDY AND PRACTICE

More information

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I 2004 5 IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I Abstract The techniques of digital video processing, transferring

More information

Microsoft Word - 01李惠玲ok.doc

Microsoft Word - 01李惠玲ok.doc 康 寧 學 報 11:1-20(2009) 1 數 位 學 習 於 護 理 技 術 課 程 之 運 用 與 評 值 * 李 惠 玲 ** 高 清 華 *** 呂 莉 婷 摘 要 背 景 : 網 路 科 技 在 教 育 的 使 用 已 成 為 一 種 有 利 的 教 學 輔 助 工 具 網 路 教 學 的 特 性, 在 使 學 習 可 不 分 時 間 與 空 間 不 同 進 度 把 握 即 時 性 資

More information

附件1:

附件1: 附 件 1: 全 国 优 秀 教 育 硕 士 专 业 学 位 论 文 推 荐 表 单 位 名 称 : 西 南 大 学 论 文 题 目 填 表 日 期 :2014 年 4 月 30 日 数 学 小 组 合 作 学 习 的 课 堂 管 理 攻 硕 期 间 及 获 得 硕 士 学 位 后 一 年 内 获 得 与 硕 士 学 位 论 文 有 关 的 成 果 作 者 姓 名 论 文 答 辩 日 期 学 科 专

More information

Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing

Construction of Chinese pediatric standard database A Dissertation Submitted for the Master s Degree Candidate:linan Adviser:Prof. Han Xinmin Nanjing 密 级 : 公 开 学 号 :20081209 硕 士 学 位 论 文 中 医 儿 科 标 准 数 据 库 建 设 研 究 研 究 生 李 楠 指 导 教 师 学 科 专 业 所 在 学 院 毕 业 时 间 韩 新 民 教 授 中 医 儿 科 学 第 一 临 床 医 学 院 2011 年 06 月 Construction of Chinese pediatric standard database

More information

厦 门 大 学 学 位 论 文 原 创 性 声 明 本 人 呈 交 的 学 位 论 文 是 本 人 在 导 师 指 导 下, 独 立 完 成 的 研 究 成 果 本 人 在 论 文 写 作 中 参 考 其 他 个 人 或 集 体 已 经 发 表 的 研 究 成 果, 均 在 文 中 以 适 当 方

厦 门 大 学 学 位 论 文 原 创 性 声 明 本 人 呈 交 的 学 位 论 文 是 本 人 在 导 师 指 导 下, 独 立 完 成 的 研 究 成 果 本 人 在 论 文 写 作 中 参 考 其 他 个 人 或 集 体 已 经 发 表 的 研 究 成 果, 均 在 文 中 以 适 当 方 学 校 编 码 :10384 分 类 号 密 级 学 号 : UDC 硕 士 学 位 论 文 浙 江 省 人 事 考 试 突 发 事 件 应 对 策 略 探 析 An Exploration of Zhejiang Province Personnel Examination Emergency Strategy 姜 海 峰 指 导 教 师 姓 名 : 王 玉 琼 教 授 专 业 名 称 : 公 共

More information

1 引言

1 引言 P P 第 40 卷 Vol.40 第 7 期 No.7 计 算 机 工 程 Computer Engineering 014 年 7 月 July 014 开 发 研 究 与 工 程 应 用 文 章 编 号 :1000-348(014)07-081-05 文 献 标 识 码 :A 中 图 分 类 号 :TP391.41 摘 基 于 图 像 识 别 的 震 象 云 地 震 预 测 方 法 谢 庭,

More information

WTO

WTO 10384 200015128 UDC Exploration on Design of CIB s Human Resources System in the New Stage (MBA) 2004 2004 2 3 2004 3 2 0 0 4 2 WTO Abstract Abstract With the rapid development of the high and new technique

More information

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg 上 海 外 国 语 大 学 SHANGHAI INTERNATIONAL STUDIES UNIVERSITY 硕 士 学 位 论 文 MASTER DISSERTATION 学 院 国 际 文 化 交 流 学 院 专 业 汉 语 国 际 教 育 硕 士 题 目 届 别 2010 届 学 生 陈 炜 导 师 张 艳 莉 副 教 授 日 期 2010 年 4 月 A VALIDATION STUDY

More information

致 谢 本 论 文 能 得 以 完 成, 首 先 要 感 谢 我 的 导 师 胡 曙 中 教 授 正 是 他 的 悉 心 指 导 和 关 怀 下, 我 才 能 够 最 终 选 定 了 研 究 方 向, 确 定 了 论 文 题 目, 并 逐 步 深 化 了 对 研 究 课 题 的 认 识, 从 而 一

致 谢 本 论 文 能 得 以 完 成, 首 先 要 感 谢 我 的 导 师 胡 曙 中 教 授 正 是 他 的 悉 心 指 导 和 关 怀 下, 我 才 能 够 最 终 选 定 了 研 究 方 向, 确 定 了 论 文 题 目, 并 逐 步 深 化 了 对 研 究 课 题 的 认 识, 从 而 一 中 美 国 际 新 闻 的 叙 事 学 比 较 分 析 以 英 伊 水 兵 事 件 为 例 A Comparative Analysis on Narration of Sino-US International News Case Study:UK-Iran Marine Issue 姓 名 : 李 英 专 业 : 新 闻 学 学 号 : 05390 指 导 老 师 : 胡 曙 中 教 授 上 海

More information

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究 中 国 科 学 技 术 大 学 硕 士 学 位 论 文 题 目 : 农 村 电 工 岗 位 培 训 考 核 与 鉴 定 ( 理 论 部 分 ) 的 计 算 机 远 程 考 试 系 统 ( 服 务 器 端 ) 的 开 发 与 实 现 英 文 题 目 :The Realization of Authenticating Examination System With Computer & Web for

More information

摘要 随着 Internet 的迅猛发展和日益普及, 网络文本信息急剧增长, 如何有效的 组织和管理这些海量信息, 并能够快速 准确 全面地获得用户所需要的信息是 当今信息科学技术领域面临的一大挑战 文本分类作为处理和组织大量文本数据 的关键技术, 可以在较大程度上解决信息杂乱现象的问题, 方便用户准确地定位 所需要的信息和分流信息 而且作为信息过滤 信息检索 搜索引擎 文本数据库 数字化图书馆等技术基础,

More information

Microsoft Word - 林文晟3.doc

Microsoft Word - 林文晟3.doc 台 灣 管 理 學 刊 第 8 卷 第 期,008 年 8 月 pp. 33-46 建 構 農 產 運 銷 物 流 中 心 評 選 模 式 決 策 之 研 究 林 文 晟 清 雲 科 技 大 學 企 業 管 理 系 助 理 教 授 梁 榮 輝 崇 右 技 術 學 院 企 業 管 理 系 教 授 崇 右 技 術 學 院 校 長 摘 要 台 灣 乃 以 農 立 國, 農 業 經 濟 在 台 灣 經 濟

More information

Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi

Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi U17 10220 UDC624 Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candidate:Chen Hao Tutor: Xue Jinghong

More information

Analysis of Cultural Elements of Meinong s Paper Umbrella Painting Abstract Meinong paper umbrellas are a traditional industrial art for the Hakka peo

Analysis of Cultural Elements of Meinong s Paper Umbrella Painting Abstract Meinong paper umbrellas are a traditional industrial art for the Hakka peo 美濃紙傘彩繪文化元素之分析及其應用 歐純純 何明穎 摘 要 美濃紙傘是客家人的傳統工藝 也是客家人生活習俗的一部分 就推廣客家文化而言 是 一個非常值得探究的課題 然而就紙傘的研究而言 到目前為止數量並不多 而且針對彩繪元素 的論述並不完整 是以本文企圖以較為細膩深入的方式 對於紙傘的彩繪進行主題式研究 針對 繪圖時所運用的文化元素進行分析 讓讀者能清楚掌握美濃紙傘彩繪時 這些文化元素的圖象類 型及其意涵

More information

南華大學數位論文

南華大學數位論文 -- Managing Traditional Temples A Case Study of Representative Temples in CHIA-YI i Abstract This research used the methodology of field study historical comparative research, and qualitative interview

More information

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库 10384 15620071151397 UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 2010 4 Duffee 1999 AAA Vasicek RMSE RMSE Abstract In order to investigate whether adding macro factors

More information

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L 一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE LOIS2016-85(2017-03) Technical Report INFORMATION AND

More information

Microsoft Word - A200810-897.doc

Microsoft Word - A200810-897.doc 基 于 胜 任 特 征 模 型 的 结 构 化 面 试 信 度 和 效 度 验 证 张 玮 北 京 邮 电 大 学 经 济 管 理 学 院, 北 京 (100876) E-mail: weeo1984@sina.com 摘 要 : 提 高 结 构 化 面 试 信 度 和 效 度 是 面 试 技 术 研 究 的 核 心 内 容 近 年 来 国 内 有 少 数 学 者 探 讨 过 基 于 胜 任 特 征

More information

Microsoft Word - 24217010311110028谢雯雯.doc

Microsoft Word - 24217010311110028谢雯雯.doc HUAZHONG AGRICULTURAL UNIVERSITY 硕 士 学 位 论 文 MASTER S DEGREE DISSERTATION 80 后 女 硕 士 生 择 偶 现 状 以 武 汉 市 七 所 高 校 为 例 POST-80S FEMALE POSTGRADUATE MATE SELECTION STATUS STUDY TAKE WUHAN SEVEN UNIVERSITIES

More information

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公 2013 年 度 上 海 高 校 市 级 精 品 课 程 申 报 表 ( 本 科 ) 学 校 名 称 东 华 大 学 课 程 名 称 计 算 机 系 统 与 网 络 技 术 课 程 类 型 理 论 课 ( 不 含 实 践 ) 理 论 课 ( 含 实 践 ) 实 验 ( 践 ) 课 所 属 一 级 学 科 名 称 所 属 二 级 学 科 名 称 课 程 负 责 人 申 报 日 期 工 科 计 算 机

More information

第三章 国内外小组合作学习的应用情况

第三章 国内外小组合作学习的应用情况 摘 要 论 文 题 目 : 小 组 合 作 学 习 在 上 海 高 中 信 息 科 技 教 学 中 的 应 用 专 业 : 现 代 教 育 技 术 学 位 申 请 人 : 朱 翠 凤 指 导 教 师 : 孟 琦 摘 要 小 组 合 作 学 习 是 目 前 世 界 上 许 多 国 家 普 遍 采 用 的 一 种 富 有 创 意 的 教 学 理 论 与 策 略, 其 在 培 养 学 生 的 合 作 精

More information

Microsoft Word - 論文獎助扉頁5份.doc

Microsoft Word - 論文獎助扉頁5份.doc 本 論 文 獲 行 政 院 客 家 委 員 會 100 年 客 家 研 究 優 良 博 碩 士 論 文 獎 助 國 立 屏 東 教 育 大 學 文 化 創 意 產 業 學 系 碩 士 班 碩 士 論 文 指 導 教 授 : 鍾 屏 蘭 博 士 台 灣 客 家 令 子 的 內 涵 及 其 在 教 育 上 之 應 用 研 究 生 : 馮 詠 書 撰 中 華 民 國 100 年 7 月 謝 誌 三 年

More information

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子 北 京 服 装 学 院 精 品 课 程 建 设 立 项 申 报 表 课 程 名 称 管 理 信 息 系 统 所 属 部 门 商 学 院 课 程 类 型 理 论 课 ( 不 含 实 践 ) 理 论 课 ( 含 实 践 ) 实 验 ( 践 ) 课 所 属 一 级 学 科 名 称 所 属 二 级 学 科 名 称 课 程 负 责 人 管 理 科 学 与 工 程 管 理 信 息 系 统 蒋 效 宇 申 报 日

More information

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere 刘 洪 伟 工 业 工 程 系 副 教 授 CV 下 载 办 公 电 话 : 电 子 邮 箱 :hw_liu999@tju.edu.cn 研 究 方 向 : 精 益 生 产 与 精 益 管 理 理 论 及 应 用 ; 工 业 工 程 与 信 息 技 术 集 成 管 理 ; 系 统 可 靠 性 理 论 与 方 法 ; 医 院 管 理 理 论 及 应 用 教 育 与 工 作 经 历 时 间 单 位 专

More information

UDC The Policy Risk and Prevention in Chinese Securities Market

UDC The Policy Risk and Prevention in Chinese Securities Market 10384 200106013 UDC The Policy Risk and Prevention in Chinese Securities Market 2004 5 2004 2004 2004 5 : Abstract Many scholars have discussed the question about the influence of the policy on Chinese

More information

Microsoft Word - 专论综述1.doc

Microsoft Word - 专论综述1.doc 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 系 统 徐 兰 静, 李 珊, 严 钊 ( 南 京 航 空 航 天 大 学 经 济 与 管 理 学 院, 南 京 211100) 摘 要 : 近 年 来 信 息 过 载 问 题 的 出 现 使 得 个 性 化 推 荐 技 术 应 运 而 生, 其 中 协 同 过 滤 推 荐 技 术 通 过 在 用 户 和 信 息 之 间 建 立 联 系, 被

More information

Microsoft Word - 33-p0191-14skyd8.doc

Microsoft Word - 33-p0191-14skyd8.doc 第 20 卷 第 4 期 中 南 大 学 学 报 ( 社 会 科 学 版 ) Vol.20 No.4 2014 年 8 月 J. CENT. SOUTH UNIV. (SOCIAL SCIENCE) Aug. 2014 基 于 模 糊 层 次 分 析 法 的 政 府 干 部 胜 任 力 评 价 实 证 研 究 薛 琴 ( 南 京 工 程 学 院 经 济 与 管 理 学 院, 江 苏 南 京,211167)

More information

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci 善 用 學 習 科 技 提 升 公 務 人 員 培 訓 之 效 能 : 以 國 家 文 官 學 院 學 習 科 技 之 建 構 與 運 用 為 例 蔡 璧 煌 鍾 廣 翰 摘 要 公 務 人 員 的 素 質 代 表 一 國 國 力, 除 攸 關 國 家 施 政 外, 也 影 響 國 家 整 體 之 發 展, 因 此 如 何 善 用 學 習 科 技 協 助 公 務 人 員 培 訓 與 管 理, 未 來

More information

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也 精 英 汉 语 和 新 实 用 汉 语 课 本 的 对 比 研 究 The Comparative Study of Jing Ying Chinese and The New Practical Chinese Textbook 专 业 : 届 别 : 姓 名 : 导 师 : 汉 语 国 际 教 育 2013 届 王 泉 玲 杨 金 华 1 致 谢 本 人 自 2008 年 6 月 从 上 海 外

More information

9330.doc

9330.doc The research of the ecotourism operated by the cooperative operating system in northern Tapajen Mountain The research of the ecotourism operated by the cooperative operating system in northern Tapajen

More information

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2 10 2016 10 No. 10 Modular Machine Tool & Automatic Manufacturing Technique Oct. 2016 1001-2265 2016 10-0012 - 05 DOI 10. 13462 /j. cnki. mmtamt. 2016. 10. 004 * 116024 MIMO TH166 TG502 A Dynamic Performance

More information

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An - 23 5 2009 9 J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G Vol. 23, No. 5 Sep., 2009 : 100320077 (2009) 0520009210, (,) :,, ;,,,, ;,, : ;; ;;; : TP391 : A A Semantic Construction Model bet ween Adjectives

More information

Wuhan Textile University M. A. S Dissertation Emotional Design of Home Textile Based on the Chinese Traditional Culture Wedding Bedding for Example Ca

Wuhan Textile University M. A. S Dissertation Emotional Design of Home Textile Based on the Chinese Traditional Culture Wedding Bedding for Example Ca 分 类 号 J523 学 校 代 码 10495 UDC 746 密 级 硕 士 学 位 论 文 基 于 中 国 传 统 文 化 的 家 用 纺 织 品 情 感 化 研 究 以 婚 庆 床 上 用 品 为 例 作 者 姓 名 : 郭 晓 彤 学 号 : 1115013015 指 导 教 师 : 学 科 门 类 : 高 波 副 教 授 艺 术 学 专 业 : 设 计 艺 术 学 研 究 方 向 : 完

More information

\\Lhh\07-02\黑白\内页黑白1-16.p

\\Lhh\07-02\黑白\内页黑白1-16.p Abstract: Urban Grid Management Mode (UGMM) is born against the background of the fast development of digital city. It is a set of urban management ideas, tools, organizations and flow, which is on the

More information

~ ~ ~

~ ~ ~ 33 4 2014 467 478 Studies in the History of Natural Sciences Vol. 33 No. 4 2014 030006 20 20 N092 O6-092 A 1000-1224 2014 04-0467-12 200 13 Roger Bacon 1214 ~ 1292 14 Berthold Schwarz 20 Luther Carrington

More information

:1949, 1936, 1713 %, 63 % (, 1957, 5 ), :?,,,,,, (,1999, 329 ),,,,,,,,,, ( ) ; ( ), 1945,,,,,,,,, 100, 1952,,,,,, ,, :,,, 1928,,,,, (,1984, 109

:1949, 1936, 1713 %, 63 % (, 1957, 5 ), :?,,,,,, (,1999, 329 ),,,,,,,,,, ( ) ; ( ), 1945,,,,,,,,, 100, 1952,,,,,, ,, :,,, 1928,,,,, (,1984, 109 2006 9 1949 3 : 1949 2005, : 1949 1978, ; 1979 1997, ; 1998 2005,,, :,,, 1949, :, ;,,,, 50, 1952 1957 ; ; 60 ; 1978 ; 2003,,,,,,, 1953 1978 1953 1978,,,, 100,,,,, 3,, :100836, :wulijjs @263. net ;,, :

More information

1

1 Activity- based Cost Management: A New Mode of Medical cost Management () 1 Activity - based Cost Management A New Mode of Medical cost Management Abstract With the development of medical market, the defects

More information

<4D6963726F736F667420576F7264202D20312E5FA473AEFCB867AED5AA605FBB50B04BCFC8AABAAFABB8DCACE3A8732E646F63>

<4D6963726F736F667420576F7264202D20312E5FA473AEFCB867AED5AA605FBB50B04BCFC8AABAAFABB8DCACE3A8732E646F63> 國 立 臺 南 大 學 人 文 與 社 會 研 究 學 報 第 44 卷 第 2 期 ( 民 國 99.10):1-24 山 海 經 校 注 與 袁 珂 的 神 話 研 究 鍾 佩 衿 國 立 政 治 大 學 中 文 研 究 所 碩 士 生 摘 要 作 為 中 國 神 話 研 究 的 重 要 學 者, 袁 珂 的 研 究 重 心 即 在 於 對 山 海 經 神 話 進 行 詮 釋 與 探 討 ; 研

More information

2013国际营销科学与信息技术大会(MSIT2013)

2013国际营销科学与信息技术大会(MSIT2013) 2013 国 际 营 销 科 学 与 信 息 技 术 大 会 (MSIT2013) 邀 请 函 随 着 全 球 市 场 环 境 的 不 断 变 化 和 网 络 信 息 技 术 的 日 新 月 异, 营 销 科 学 和 营 销 方 式 的 创 新 对 于 企 业 的 发 展 起 着 越 来 越 大 的 作 用 为 了 进 一 步 推 动 国 内 外 营 销 学 者 的 学 术 交 流 与 合 作, 促

More information

Microsoft Word - 122046.doc

Microsoft Word - 122046.doc 第 38 卷 第 20 期 Vol.38 No.20 计 算 机 工 程 Computer Engineering 2012 年 10 月 October 2012 人 工 智 能 及 识 别 技 术 摘 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 汤 亚 玲 1, 崔 志 明 (1. 安 徽 工 业 大 学 计 算 机 学 院, 安 徽 马 鞍 山 243002;2.

More information

10384 200115009 UDC Management Buy-outs MBO MBO MBO 2002 MBO MBO MBO MBO 000527 MBO MBO MBO MBO MBO MBO MBO MBO MBO MBO MBO Q MBO MBO MBO Abstract Its related empirical study demonstrates a remarkable

More information

untitled

untitled 19932005 1 1993-2005 The Urban Residential Housing System in Shanghai 1993-2005: the Marketization Process and Housing Affordability Jie Chen, Assistant Professor, Management School of Fudan University,

More information

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m + 2012 12 Chinese Journal of Applied Probability and Statistics Vol.28 No.6 Dec. 2012 ( 224002) Euclidean Lebesgue... :. : O212.2 O159. 1.. Zadeh [1 2]. Tanaa (1982) ; Diamond (1988) (FLS) FLS LS ; Savic

More information

Microsoft Word - 专论综述1.doc

Microsoft Word - 专论综述1.doc 2016 年 第 25 卷 第 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 1 基 于 节 点 融 合 分 层 法 的 电 网 并 行 拓 扑 分 析 王 惠 中 1,2, 赵 燕 魏 1,2, 詹 克 非 1, 朱 宏 毅 1 ( 兰 州 理 工 大 学 电 气 工 程 与 信 息 工 程 学 院, 兰 州 730050) 2 ( 甘 肃 省 工 业 过 程 先

More information

清 华 大 学

清 华 大 学 清 华 大 学 综 合 论 文 训 练 题 目 : 基 于 网 络 用 户 行 为 分 析 的 传 染 病 发 病 趋 势 研 究 系 专 姓 别 : 计 算 机 科 学 与 技 术 业 : 计 算 机 科 学 与 技 术 名 : 许 丹 青 指 导 教 师 : 刘 奕 群 助 理 研 究 员 2010 年 6 月 27 日 中 文 摘 要 近 年 来, 传 染 病 的 传 播 与 流 行 已

More information

* CO3 A 1674-2486 2011 04-0005 - 18 P. 253 * 5 1. 1949 1991 1949 1991 6 2. 7 1 2001 2 2008 8 1 2 2008 11 http / /www. rnd. ncnu. edu. tw /hdcheng /method /ways. doc 2008 / 9 disciplinary matrix 1 1. 2001

More information

Microsoft PowerPoint - Aqua-Sim.pptx

Microsoft PowerPoint - Aqua-Sim.pptx Peng Xie, Zhong Zhou, Zheng Peng, Hai Yan, Tiansi Hu, Jun-Hong Cui, Zhijie Shi, Yunsi Fei, Shengli Zhou Underwater Sensor Network Lab 1 Outline Motivations System Overview Aqua-Sim Components Experimental

More information

Microsoft Word doc

Microsoft Word doc 中 考 英 语 科 考 试 标 准 及 试 卷 结 构 技 术 指 标 构 想 1 王 后 雄 童 祥 林 ( 华 中 师 范 大 学 考 试 研 究 院, 武 汉,430079, 湖 北 ) 提 要 : 本 文 从 结 构 模 式 内 容 要 素 能 力 要 素 题 型 要 素 难 度 要 素 分 数 要 素 时 限 要 素 等 方 面 细 致 分 析 了 中 考 英 语 科 试 卷 结 构 的

More information

XML SOAP DOM B2B B/S B2B B2B XML SOAP

XML SOAP DOM B2B B/S B2B B2B XML SOAP 10384 9831010 U D C B2B 2 0 0 1 4 2 0 0 1 5 2 0 0 1 2001 4 XML SOAP DOM B2B B/S B2B B2B XML SOAP ABSTRACT Based on the research of Supply Chain Management theory and E-Commerce theory, especially in Business

More information

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流 第 20 卷 第 3 期 2014 年 6 月 ( 自 然 科 学 版 ) JOURNAL OF SHANGHAI UNIVERSITY (NATURAL SCIENCE) Vol. 20 No. 3 June 2014 DOI: 10.3969/j.issn.1007-2861.2013.07.031 基 于 FLUENT 测 轨 道 交 通 隧 道 中 电 波 折 射 率 结 构 常 数 张 永

More information

我国原奶及乳制品安全生产和质量安全管理研究

我国原奶及乳制品安全生产和质量安全管理研究 密 级 论 文 编 号 中 国 农 业 科 学 院 硕 士 学 位 论 文 我 国 原 奶 及 乳 制 品 质 量 安 全 管 理 研 究 Study on Quality and Safety Management of Raw Milk and Dairy Products in China 申 请 人 : 段 成 立 指 导 教 师 : 叶 志 华 研 究 员 张 蕙 杰 研 究 员 申 请

More information

课题调查对象:

课题调查对象: 1 大 陆 地 方 政 府 大 文 化 管 理 职 能 与 机 构 整 合 模 式 比 较 研 究 武 汉 大 学 陈 世 香 [ 内 容 摘 要 ] 迄 今 为 止, 大 陆 地 方 政 府 文 化 管 理 体 制 改 革 已 经 由 试 点 改 革 进 入 到 全 面 推 行 阶 段 本 文 主 要 通 过 结 合 典 型 调 查 法 与 比 较 研 究 方 法, 对 已 经 进 行 了 政 府

More information

Microsoft Word - A201210-60_1349949005.doc

Microsoft Word - A201210-60_1349949005.doc 5 10 15 20 25 一 种 针 对 在 线 旅 游 线 路 网 页 判 别 算 法 的 研 究 与 实 现 徐 显 炼, 郭 燕 慧 ( 北 京 邮 电 大 学 信 息 安 全 中 心, 北 京 100876) 摘 要 : 随 着 近 年 来 在 线 旅 游 业 的 快 速 发 展, 在 线 旅 游 搜 索 引 擎 己 经 成 为 当 前 搜 索 引 擎 发 展 的 一 个 热 门 方 向

More information

M M. 20

M M. 20 37 1 Vol. 37 No.1 2 0 1 6 1 TSINGHUA JOURNAL OF EDUCATION Jan. 2 0 1 6 4. 0 100872 1. 0 2. 0 3. 0 4. 0 4. 0 4. 0 G640 A 1001-4519 2016 01-0006 - 10 DOI 10. 14138 /j. 1001-4519. 2016. 01. 000610 11-12 18

More information

,

, 10200 1281299429 G43 2002 5 , Abstract Faced with informationized characteristic of 21 tth Century, our school education has to face how to train students to be more creative and productive. Since the

More information

096STUT DOC

096STUT DOC i YouTube was established in 2005 until now only more than 3 years. Although it was established just more than 3 years, it has already become the one of multitudinous video shares website that most people

More information

國立中山大學學位論文典藏.PDF

國立中山大學學位論文典藏.PDF I II III The Study of Factors to the Failure or Success of Applying to Holding International Sport Games Abstract For years, holding international sport games has been Taiwan s goal and we are on the way

More information

考試學刊第10期-內文.indd

考試學刊第10期-內文.indd misconception 101 Misconceptions and Test-Questions of Earth Science in Senior High School Chun-Ping Weng College Entrance Examination Center Abstract Earth Science is a subject highly related to everyday

More information

. 3. MOOC 2006 MOOC Automated Text Marker 2014 e-rater Yigal et al MOOC Coursera Edx 97

. 3. MOOC 2006 MOOC Automated Text Marker 2014 e-rater Yigal et al MOOC Coursera Edx 97 23 3 2017 6 Open Education Research Vol. 23 No. 3 Jun. 2017 1 2 1 2 1. 100875 2. 100875 PPT G434 A 1007-2179 2017 03-0096-09 Coursera Edx MOOC 100 2 3- social network services SNS 4 2008 2009 2017-03-

More information

8 DEA 205 3 min θ - ε( ^e T S - + e T S ) [ + ] GDP n X 4 j λ j + S - = θx 0 j = 1 n Y j λ j - S + = Y 0 j = 1 5 λ J 0 j = 1 n S - 0 S + 0 ^e = ( 1 1

8 DEA 205 3 min θ - ε( ^e T S - + e T S ) [ + ] GDP n X 4 j λ j + S - = θx 0 j = 1 n Y j λ j - S + = Y 0 j = 1 5 λ J 0 j = 1 n S - 0 S + 0 ^e = ( 1 1 31 8 2012 8 JOURNAL OF INTELLIGENCE Vol. 31 No. 8 Aug. 2012 DEA * 以 湖 南 省 为 例 1 2 1 1 1. 430074 2. 410004 政 府 社 会 管 理 职 能 绩 效 评 估 是 政 府 社 会 管 理 与 政 府 绩 效 评 估 面 临 的 重 点 和 难 点 问 题 构 建 DEA 绩 效 评 估 模 型, 对

More information

國立臺灣藝術大學

國立臺灣藝術大學 國 立 臺 灣 藝 術 大 學 藝 術 與 人 文 教 學 研 究 所 碩 士 學 位 論 文 本 論 文 獲 國 家 教 育 研 究 院 博 ( 碩 ) 士 論 文 研 究 獎 助 課 外 讀 物 對 於 國 小 低 年 級 國 語 科 教 科 書 輔 助 性 之 研 究 - 以 新 北 市 100 年 度 國 民 小 學 推 動 閱 讀 計 畫 優 良 圖 書 為 例 指 導 教 授 : 張 純

More information

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 1948.08.28 1. 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 13808485157 研 究 方 向 数 据 处 理 近 三 年 来

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 1948.08.28 1. 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 13808485157 研 究 方 向 数 据 处 理 近 三 年 来 湖 南 省 普 通 高 等 学 校 省 级 精 品 课 程 复 核 申 报 表 学 校 名 称 : 课 程 名 称 : 课 程 负 责 人 : 立 项 时 间 : 国 防 科 技 大 学 概 率 论 与 数 理 统 计 吴 翊 2009 年 课 程 网 站 地 址 :jpkc2009.nudt.edu.cn/gllysltj jpkc.nudt.edu.cn/gltj 湖 南 省 教 育 厅 制 二

More information

從詩歌的鑒賞談生命價值的建構

從詩歌的鑒賞談生命價值的建構 Viktor E. Frankl (logotherapy) (will-to-meaning) (creative values) Ture (Good) (Beauty) (experiential values) (attitudinal values) 1 2 (logotherapy) (biological) (2) (psychological) (3) (noölogical) (4)

More information

10384 X0015101 UDC The Preliminary Survey of the Development Patterns of Security Analysts in China (MBA) 2004 2 2004 3 2004 3 2 0 0 4 2 14 Abstract Abstract The security analysts are respectable oversea,

More information

McGraw-Hill School Education Group Physics : Principles and Problems G S 24

McGraw-Hill School Education Group Physics : Principles and Problems G S 24 2017 4 357 GLOBAL EDUCATION Vol. 46 No4, 2017 * 1 / 400715 / 400715 / 400715 1 2010-2020 2 * mjzxzd1401 2012 AHA120008 1 23 3 4-7 8 9 McGraw-Hill School Education Group Physics : Principles and Problems

More information

广 州 市 花 都 区 公 务 员 培 训 需 求 分 析 的 研 究 A STUDY OF TRAINING NEEDS ANALYSIS ON CIVIL SERVANTS OF HUADU DISTRICT IN GUANGZHOU 作 者 姓 名 : 黄 宁 宁 领 域 ( 方 向 ): 公

广 州 市 花 都 区 公 务 员 培 训 需 求 分 析 的 研 究 A STUDY OF TRAINING NEEDS ANALYSIS ON CIVIL SERVANTS OF HUADU DISTRICT IN GUANGZHOU 作 者 姓 名 : 黄 宁 宁 领 域 ( 方 向 ): 公 广 州 市 花 都 区 公 务 员 培 训 需 求 分 析 的 研 究 分 类 号 :C93 单 位 代 码 :10183 研 究 生 学 号 :201223A022 密 级 : 公 开 研 吉 林 大 学 硕 士 学 位 论 文 ( 专 业 学 位 ) 黄 宁 宁 广 州 市 花 都 区 公 务 员 培 训 需 求 分 析 的 研 究 A STUDY OF TRAINING NEEDS ANALYSIS

More information

<4D6963726F736F667420506F776572506F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

<4D6963726F736F667420506F776572506F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074> 软 件 架 构 师 研 修 讲 座 胡 协 刚 软 件 架 构 师 UML/RUP 专 家 szjinco@public.szptt.net.cn 中 国 软 件 架 构 师 网 东 软 培 训 中 心 小 故 事 : 七 人 分 粥 当 前 软 件 团 队 的 开 发 现 状 和 面 临 的 问 题 软 件 项 目 的 特 点 解 决 之 道 : 从 瀑 布 模 型 到 迭 代 模 型 解 决 项

More information

豐佳燕.PDF

豐佳燕.PDF Application of Information Literacy to chiayen@estmtc.tp.edu.tw information literacy Theme-oriented teaching. Abstract Based on the definition of Information Literacy and Six core concepts of the problem

More information

2011第1期第二部分

2011第1期第二部分 中 国 农 学 通 报 2011,27(01):466-470 Chinese Agricultural Science Bulletin 关 于 农 业 信 息 化 与 农 村 信 息 化 关 系 的 探 讨 高 万 林, 张 港 红, 李 桢, 赵 佳 宁 ( 中 国 农 业 大 学 信 息 与 电 气 工 程 学 院, 北 京 100083) 摘 要 : 文 章 通 过 分 析 农 业 农 村

More information

硕 士 学 位 论 文 论 文 题 目 : 北 岛 诗 歌 创 作 的 双 重 困 境 专 业 名 称 : 中 国 现 当 代 文 学 研 究 方 向 : 中 国 新 诗 研 究 论 文 作 者 : 奚 荣 荣 指 导 老 师 : 姜 玉 琴 2014 年 12 月

硕 士 学 位 论 文 论 文 题 目 : 北 岛 诗 歌 创 作 的 双 重 困 境 专 业 名 称 : 中 国 现 当 代 文 学 研 究 方 向 : 中 国 新 诗 研 究 论 文 作 者 : 奚 荣 荣 指 导 老 师 : 姜 玉 琴 2014 年 12 月 硕 士 学 位 论 文 论 文 题 目 : 北 岛 诗 歌 创 作 的 双 重 困 境 专 业 名 称 : 中 国 现 当 代 文 学 研 究 方 向 : 中 国 新 诗 研 究 论 文 作 者 : 奚 荣 荣 指 导 老 师 : 姜 玉 琴 2014 年 12 月 致 谢 文 学 是 我 们 人 类 宝 贵 的 精 神 财 富 两 年 半 的 硕 士 学 习 让 我 进 一 步 接 近 文 学,

More information

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu Master of Science 2011 Institute of Chinese Medical Sciences University of Macau Time Estimation of Occurrence

More information

1 * 1 *

1 * 1 * 1 * 1 * taka@unii.ac.jp 1992, p. 233 2013, p. 78 2. 1. 2014 1992, p. 233 1995, p. 134 2. 2. 3. 1. 2014 2011, 118 3. 2. Psathas 1995, p. 12 seen but unnoticed B B Psathas 1995, p. 23 2004 2006 2004 4 ah

More information

5 1 linear 5 circular 2 6 2003 10 3000 2 400 ~ 500 4500 7 2013 3500 400 ~ 500 8 3 1900 1. 2 9 1 65

5 1 linear 5 circular 2 6 2003 10 3000 2 400 ~ 500 4500 7 2013 3500 400 ~ 500 8 3 1900 1. 2 9 1 65 2014 2 43 EXAMINATIONS RESEARCH No. 2 2014 General No. 43 李 迅 辉 随 着 新 课 程 改 革 的 不 断 深 入, 教 学 理 念 逐 步 更 新, 学 生 的 英 语 水 平 也 在 逐 渐 提 高, 但 沿 用 多 年 的 高 考 英 语 书 面 表 达 的 评 分 标 准 并 没 有 与 时 俱 进, 已 经 不 能 完 全 适 应

More information

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前 东 北 大 学 中 荷 生 物 医 学 与 信 息 工 程 学 院 2016 年 度 生 物 医 学 与 信 息 工 程 论 坛 会 议 时 间 2016 年 6 月 8 日, 星 期 三,9:30 至 16:00 会 议 地 址 会 议 网 址 主 办 单 位 东 北 大 学 浑 南 校 区 沈 阳 市 浑 南 区 创 新 路 195 号 生 命 科 学 大 楼 B 座 619 报 告 厅 http://www.bmie.neu.edu.cn

More information

Microsoft Word 張嘉玲-_76-83_

Microsoft Word 張嘉玲-_76-83_ 64 4 Journal of Taiwan Agricultural Engineering 107 12 Vol. 64, No. 4, December 2018 DOI: 10.29974/JTAE.201812_64(4).0005 WASP - Applying the WASP Model to Evaluate the Effect of Wastewater Sewer Takeover

More information

影響新產品開發成效之造型要素探討

影響新產品開發成效之造型要素探討 異 行 車 例 A Study on the Product Forms Recognition Difference between Designer and Consumer --- Electrical Bicycle as Example. 行 車 省 力 力 綠 老 女 行 車 行 車 了 不 了 行 行 車 行 車 不 行 車 異 行 車 車 車 行 行 異 數 量 I 類 行 異 異

More information

80 温 州 大 学 学 报 社 会 科 学 版 (2012) 第 25 卷 第 1 期 构 混 乱 表 意 不 明 不 合 逻 辑 其 中 前 四 种 属 于 结 构 类 语 病, 考 查 几 率 较 高 ; 后 两 种 属 于 语 义 类 语 病, 有 时 会 单 独 出 题 上 面 这 道 题

80 温 州 大 学 学 报 社 会 科 学 版 (2012) 第 25 卷 第 1 期 构 混 乱 表 意 不 明 不 合 逻 辑 其 中 前 四 种 属 于 结 构 类 语 病, 考 查 几 率 较 高 ; 后 两 种 属 于 语 义 类 语 病, 有 时 会 单 独 出 题 上 面 这 道 题 第 25 卷 第 1 期 温 州 大 学 学 报 社 会 科 学 版 2012 年 1 月 Vol 25, No 1 Journal of Wenzhou University Social Sciences Jan, 2012 我 们 需 要 什 么 样 的 语 言 知 识 中 学 语 文 语 言 知 识 系 统 的 重 建 骆 锤 炼 ( 温 州 大 学 人 文 学 院, 浙 江 温 州 325035)

More information

劃 定 都 市 更 新 地 區 防 災 評 估 指 標 建 立 之 研 究 - 以 台 北 市 大 同 區 之 更 新 地 區 為 例 摘 要 民 國 八 十 八 年 台 灣 所 發 生 的 九 二 一 大 地 震 與 近 年 來 中 國 的 四 川 強 震 日 本 的 311 大 地 震, 皆 突

劃 定 都 市 更 新 地 區 防 災 評 估 指 標 建 立 之 研 究 - 以 台 北 市 大 同 區 之 更 新 地 區 為 例 摘 要 民 國 八 十 八 年 台 灣 所 發 生 的 九 二 一 大 地 震 與 近 年 來 中 國 的 四 川 強 震 日 本 的 311 大 地 震, 皆 突 中 國 文 化 大 學 環 境 設 計 學 院 市 政 暨 環 境 規 劃 學 系 碩 士 論 文 Master of Thesis Department & Graduate Institute of Urban Affairs and Environmental Planning College of Environmental Design Chinese Culture University

More information

世新稿件end.doc

世新稿件end.doc Research Center For Taiwan Economic Development (RCTED) 2003 8 1 2 Study of Operational Strategies on Biotechnology Pharmaceutical Products Industry in Taiwan -- Case Study on Sinphar Pharmaceutical Company

More information

10384 X9908009 UDC Study On Causation Of Civil Tort Liability 2004 4 2004 2004 2004 4 [M] 1991476 [M] 1996635 ABSTRACT ABSTRACT Theory of causation, which is the most complicated and thorny of tort law,

More information

Microsoft Word - 口試本封面.doc

Microsoft Word - 口試本封面.doc 國 立 屏 東 教 育 大 學 客 家 文 化 研 究 所 碩 士 論 文 指 導 教 授 : 劉 明 宗 博 士 台 灣 客 家 俗 諺 中 的 數 詞 研 究 研 究 生 : 謝 淑 援 中 華 民 國 九 十 九 年 六 月 本 論 文 獲 行 政 院 客 家 委 員 會 99 度 客 家 研 究 優 良 博 碩 論 文 獎 助 行 政 院 客 家 委 員 會 獎 助 客 家 研 究 優 良

More information

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA 2017 8 ( 292 ) DOI:10.13811/j.cnki.eer.2017.08.017 STEAM 1 1 2 3 4 (1. 130117; 2. + 130117; 3. 130022;4. 518100) [ ] 21 STEAM STEAM STEAM STEAM STEAM STEAM [ ] STEAM ; ; [ ] G434 [ ] A [ ] (1970 ) E-mail:ddzhou@nenu.edu.cn

More information

Abstract Due to the improving of living standards, people gradually seek lighting quality from capacityto quality. And color temperature is the important subject of it. According to the research from aboard,

More information

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :, 3 1 Vol. 3. 1 2008 2 CAA I Transactions on Intelligent Systems Feb. 2008, (,210093) :.,; 3., 3. :; ; ; ; : TP391 :A :167324785 (2008) 0120001208 A system f or automatic generation of 3D building models

More information

Dan Buettner / /

Dan Buettner / / 39 1 2015 1 Vol. 39 No. 1 January 2015 74 Population Research 80 + /60 + 90 + 90 + 0 80 100028 Measuring and Comparing Population Longevity Level across the Regions of the World Lin Bao Abstract Appropriate

More information

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table 38 2 2010 4 Journal of Fuzhou University Natural Science Vol 38 No 2 Apr 2010 1000-2243 2010 02-0213 - 06 MLP SVM 1 1 2 1 350108 2 350108 MIP SVM OA MLP - SVM TP391 72 A Research of dialectical classification

More information

2005 The Analysis and Design for a Chain Supermarket Intelligent Delivery System () 2005 4 I Abstract The Analysis and Design for a Chain Supermarket Intelligent Delivery System The Analysis and Design

More information

10389144 2006 5 30 2006 5 30

10389144 2006 5 30 2006 5 30 10389144 10389144 2006 5 30 2006 5 30 ED ED IIEFEFOF SDISOS ED 10 2 2 1 10 4 1 1 4 4 IIEF SD EFOFISOS EF 2 1 1 4 1 ED ED Study on the effect of Sex Therapy for Erectile Dysfunction Patients ABSTRACT Objective

More information

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於 玄 奘 大 學 中 國 語 文 學 系 碩 士 論 文 客 家 安 徒 生 張 捷 明 童 話 研 究 指 導 教 授 : 羅 宗 濤 博 士 研 究 生 : 黃 春 芳 撰 中 華 民 國 一 0 二 年 六 月 摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文

More information