基于文本纹理的情感倾向性分析研究摘要随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值传统的空间向量

Size: px

Start display at page:

Download "基于文本纹理的情感倾向性分析研究摘要随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值传统的空间向量"

罹桂
7 years ago
Views:

1 SHANGHAI JIAO TONG UNIVERSITY 学士学位论文 THESIS OF BACHELOR 论文题目 : 基于文本纹理的情感倾向性分析研究学生姓名 : 任彦斌学生学号 : 专业 : 信息安全指导教师 : 刘功申副教授学院 ( 系 ): 电子信息与电气工程学院

2 基于文本纹理的情感倾向性分析研究摘要随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值传统的空间向量表示模型在文本特征提取时损失了较多的文本间信息, 无法满足文本情感倾向性分析等新的文本分类任务本文的目的是寻找一种区别于传统文本分类和特征提取的方法, 着重关注文本词语之间的关系句子结构词性句型等文本特征因此, 本文提出了一种基于文本纹理模型的情感倾向性分析系统文本纹理模型采用基于结构法的分域表示模型, 分层次刻画文本特征, 更好地适应了文本情感倾向性分类的需求本文的主要工作包括 :1. 总结分析了现有文本分类系统的方法和流程, 以及现存的文本分类算法特征提取方法及文本评估方法, 并分析了现有文本分类系统的局限性 2. 给出了文本纹理的定义, 提出了文本纹理模型的建模方法, 包括文本纹理的定义及其分域模型表示 3. 讨论了基于结构法的文本纹理特征表示和分类方法, 包括了文本分域模型分类算法选择和综合算法的选择, 形成了一套完整的文本纹理分类系统 4. 结合主客观语料集和正负面评价语料集, 对比评估传统空间向量模型和文本纹理模型的分类结果本课题的研究成果可以应用在商品评价文学作品评价影评酒店评价等评价类文本的情感倾向性识别, 以及网络舆论评价的主客观分析等等关键词 : 文本纹理, 情感倾向分析, 中文文本分类

3 ANALYSIS AND RESEARCH ON EMOTION INCLINATION BASED ON TEXT TEXTURE MODEL ABSTRACT In the era of information, with the rapid development of Internet technology, the amount of information is increasing exponentially. This massive information contains the potential value of information needed to be explored and mined and stimulates people to seek out for an automated approach to text analysis of the hidden value. Natural language text sentiment analysis is a new research field and has great value in research and application. The traditional space vector representation model lost more text information in text feature extraction and it is unable to meet the needs of text sentiment analysis. The purpose of this paper is to find a way different from the traditional text classification and feature extraction, focusing on the relationship between the text words, sentence structure, word, sentence and other text feature. Hence, the paper presents a system analysis of sentiment text based on text texture model. Text texture model using domain structure method based, hierarchical description text features, better adapts to the text sentiment orientation classification requirements. The main work of this paper includes: 1. Summarizes, analyzes methods and procedures for the existing text classification system, as well as the existing text classification algorithm, feature extraction and text evaluation method, and analyzes the limitation of the existing text classification system. 2. gives the definition of text texture; this paper puts forward a modeling method of text texture model, including the definition of text texture and domain model. 3. Discusses the representation of text texture structure method and classification method based on classification algorithm, including the domain model selection and synthesis algorithm of text selection, forming a complete set of text classification system. 4. Combined with the text corpus, compares and accesses traditional vector space model and text texture model on their classification results. The results of this paper can be applied in the text sentiment orientation identification of commercial comments, literature reviews, hotel comments, as well as the emotion inclination analysis on network media comments and so on. Key words: text texture, analysis on emotion inclination, Chinese text classification

4 目录第一章绪论文本情感倾向性分析研究的背景和意义文本情感倾向性分析的研究现状文本表示模型的研究现状本文的主要工作本章小结... 4 第二章文本分类系统模型及理论基础现有文本分类系统文本表达训练阶段测试阶段文本分类理论基础文本分词停用词过滤文本表示技术文本特征抽取特征降维文本分类算法文本分类器与文本分类系统的评价指标现有文本分类系统的局限性本章小结第三章文本纹理模型文本纹理的范畴文本纹理建模文本纹理特征表示方法文本的特征表示特征获取面向结构法的文本纹理特征表示模型面向结构表示法的分类算法研究基于结构法的文本纹理特征表示和分类方法纹理模型分域表示分域分类算法选择组合策略本章小结第四章基于文本纹理模型的主客观分类系统系统构造阐述 Weka 开源数据挖掘平台文本情感倾向性分析文本语料库... 26

5 4.4 分域模型实验及结果主客观文本分类文本褒贬性情感分析实验结果分析本章小结第五章结论与展望结论展望参考文献谢辞... 37

6 第一章绪论随着计算机互联网的飞速发展, 互联网上的信息呈爆炸式的增长, 互联网已成为一个大家互动发表个人见解的平台这些海量的信息为互联网的用户提供了丰富的资源, 有着潜在的极高的价值, 但是很多互联网用户在这些资源面前常常觉得迷茫无从下手, 如何有效地处理这些信息和资源成为一个十分富有意义的课题例如, 在各类电商销售网站上的对某件商品的评价, 社交类网站上如微博等对某一事件主题发表的观点看法, 如豆瓣网上对某本书某个电影的评价等等通过对这些带有情感倾向的文本进行快速准确有效地分析, 可以挖掘出人们潜在的见解和态度, 如消费者对商品的满意程度, 可以为其他消费者购买时提供参考, 为企业级用户和个人提供信息参考以及决策支持人工手动的判断和分类固然准确, 但却消耗了大量的人力成本因此, 如何利用计算机辅助来快速准确批量地识别出文本的情感倾向性, 成为了本文研究的一个重点 1. 1 文本情感倾向性分析研究的背景和意义近几年来, 随着机器学习和数据挖掘领域的技术水平的不断发展和进步, 一种机器学习数据挖掘统计学等多学科结合的交叉学科自然语言处理正在日益得到学者们的关注自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 [1] 然而, 由于自然语言文本的复杂性, 尤其是中文文本, 自然语言处理领域仍然有着很大的挑战这些挑战存在于文本识别中文分词文本分类分析和理解文本中的意见等等根据 Hatzivassiloglou 和 McKeown 给出的定义, 文本情感倾向性分析又称为意见挖掘 [2], 即对自然语言文本中带有情感色彩的词汇和主客观性的文本进行挖掘分析处理等一系列操作的过程根据南加州大学信息科学学院的 Soo-Min Kim 和 Eduard Hovy 的研究发现, 对意见的挖掘只要知道以下的四个文本元素 : 主题, 意见持有者, 看法以及舆论的情感 [3] 由于机器学习和人工智能的发展有限, 尚未能完全理解自然语言文本的文本信息, 因此在传统的方法中, 文本分类大多采取抽取关键词作为特征的方法来代表一个文本并以此分类此外, 我们知道二进制的计算机是无法识别自然语言的, 只能识别和处理 0,1 字串因此, 在处理自然语言文本分类时, 首先要将自然语言文本表示为由数字等计算机识别的符号刻画的信息文本情感分析是指对文本中潜在的人的观点和态度进行分析, 也就是对文本中主观性的信息进行分析一般而言, 自然语言文本处理的应用有 : 主客观句子的识别 ( 识别一个句子是作者的主观情感还是对事物的客观描述 ) 文本情感倾向性分析( 分析一句句子是对事物的正面评价还是负面评价 ) 写作手法和写作风格的判别( 判断一段文字的写作手法和风格, 如 : 拟人讽刺等等, 判断是否是同一个作者所写 ) 面向抄袭判断的特征自动识别( 判断是否是由其他语言翻译而来非母语写作 ) 等一般以主客观句识别和情感倾向性分析的应用为主, 多为二分类 ( 如 : 主客观分类, 分为主观和客观 ) 和三分类 ( 如 : 情感倾向性分析, 第 1 页共 37 页

7 分为褒义贬义和中性 ) 问题传统文本分类大多基于主题分类, 如 : 新闻娱乐体育财经等, 而不关心其文本所包含的潜在的价值和信息, 而新的分类需求中, 更多地关注了复杂文本信息传统主题分类只关注一篇文章描述哪个主题, 例如 : 提取文本标签, 而新型文本分类中重点考虑刻画主题的关键词语, 由文本中提取出的一系列词语作为特征向量来描述代替文本进行训练和分类面向主题的传统分类技术和新型应用需求在多个方面有区别经过总结, 将其区别列入下表 1-1 为了满足新型分类应用的要求, 我们提出了一种新的文本特征刻画模型文本纹理的模型表 1-1 传统的主题分类和新应用的区别项目传统分类新的分类需求最终目的面向主题分类面向情感风格用词等分类依据依据主题词 ( 概念 ) 依据词法句法词性等常用特征名词动词等特征词形容词助词词性句模等特征表示向量空间模型需要更复杂的模型 ( 张量空间模型分域的结构表示法 ) 分类算法 Bayes\SVM\KNN 等传统分类算法基于张量空间模型的分类算法结构化模式识别算法等 1. 2 文本情感倾向性分析的研究现状自然语言处理的发展有着多年的历史, 最早的应用为自然语言理解机器翻译 [4] 早在 1949 年, 美国人威弗首先提出了这个概念上世纪 60 年代, 人们对机器翻译开始大规模研究, 但是收效甚微, 进步缓慢上世纪 90 年代, 自然语言处理的研究方向产生了变化, 更多地关注到系统的输入输出, 并强调对文本内容的处理, 如 : 提取索引词过滤等等作为一个新的研究方向, 文本情感倾向性分析仍处在起步阶段外国的 Hatzivassiloglou 与 McKeown 在早期从事着文本词汇的情感倾向性分析 [1] Wiebe 等人延续了相似的工作, 使用聚类算法在大语料中挖掘评价性的词语, 但是仅仅局限于形容词而忽略了其他词性的作用 [5][6] 上世纪 90 年代,Turkey 使用电影评论语料对文本中的词汇和短语的倾向性进行计算, 得到了 95% 的分类准确率 [7] 同样,Kim 等人同样将工作重点放在情感词汇的倾向性分析上, 在一对基准词集的基础上使用 WordNet 计算未知词汇的情感倾向性 [3] 对于中文文本, 中文词汇倾向的研究相对起步较晚, 但是情况类似, 也是采用选择基准词对, 并以此计算知网中词汇的相似度得到倾向性随着自然语言处理应用领域的不断进步和发展, 更多的目光投向了整个文本信息的研究中 Wilson 和 Wiebe 等人在后期研究中着力研究了短语级情感倾向性, 并对中立情感这一实际大量存在的文本进行研究 [8] 在现有领域针对性的文本倾向性分类方面,Melville 给出一个统一的框架, 可以使用不同背景知识生成模型结合传统的分类工作, 达到更精准的分类效果 [9] [10] 在中文领域的研究中, 张紫琼基于现有的情感词汇集做出了一定的改进, 考虑了词语之间的关系, 并提出了一种根据双词词类组合模式计算句子主观性程度的方法进行情感倾 [11] 向性分析大连理工大学计算机科学与工程系的林鸿飞教授等人进一步基于语义理解, 在原本词汇情感倾向权重的基础上, 加入了对副词修饰程度的权重, 使用 SVM 分类器分析第 2 页共 37 页

8 文本的褒贬性在分类算法上, 目前已有的分类算法基本已经成熟, 可以满足于现有的文本分类任务, 如 :SVM 支持向量机算法,KNN 最近邻算法 Naïve Bayes 算法等等此外, 中文的分词工具, 如 :IKAnalyze,ICTCLAS ( 最新版为 NLPIR) 等以及开源数据挖掘平台 Weka 也可以满足设计需求 1.3 文本表示模型的研究现状计算机无法识别人类的自然语言, 因此原始的文本必须转化为计算机可以识别的模型才能进行分析和处理对于一个完整的自然语言文本, 首先要对其进行分析, 并提取其中的特征关键字 ( 词 ), 由这些特征字词来表示整个文本段落, 并交给计算机处理常见的表示元素有 : 字词短语 N-GRAM 等 N-GRAM, 即将 N 个连续的字划分为一个特征维度, 对于中文文本分类中, 常见的是二元的 Bi-Gram 和三元的 Tri-Gram 提取这些元素之一或者组合, 并构造成特征向量交给典型的基于机器学习的计算机的自动分类系统进行训练, 并生成分类器, 再把待分类的文本输入到分类器中, 可以输出分类结果目前, 常用的文本表示模型有以下几种 : (1) 布尔模型 (Boolean Model) 布尔模型是基于布尔代数和集合论的一种数学模型, 采用 0,1 为每一个元素 ( 即特征元素项 ) 赋值, 适用于文本内容相关度检索后来, 有学者提出了扩展布尔模型, 使用了 numeric 的数值来代替 0,1 二元赋值比如 Lee 提出的 fuzzy set,waller-kraft,p-norm 与 Infinite-One [12], 以及 Salton 等提出的 p-norm 模型 [13][14] (2) 向量空间模型 (VSM - Vector Space Model) 向量空间模型是一种最常见的文本表示模型, 将文本表示为一个向量, 向量中的特征项为原始文本中提取的特征元素, 可以是字词短语 N-GRAM 等等 (3) 概率模型 (Probability Model) 概率模型是一个比较成熟的模型并已以应用在很多实际工程中 [15] 概率模型利用概率论的基本理论, 使用模型中固有的前提假设和推理过程, 用概率的高低来评估文本间相似度大小 [16] (4) 语言模型语言模型是一种新型模型, 也是一种基于概率统计的模型语言模型的思路是, 将文本视作由不同字符组成的一个概率分布, 要判定某一句子段落或者文章是否符合该类别, 可以由概率分布来计算得出也即是说, 特征集合在该文本中形成了一个概率分布, 这个概率分布就被称之为一个语言模型 [17] 一种常用计算 Kullback-Leibler 距离的公式 (1-1), 也被称之 K-L 距离 : (1-1) 上述的四种模型中, 工程上应用最多的是较为简单易用的布尔模型, 学术界上较为推崇向量空间模型和概率模型语言模型作为一种新型模型, 其研究时间较短, 还需要进一步的探索但是它能合理地反映和代表原本的文本信息, 最具研究价值四种模型的比较如表 1-2 所示第 3 页共 37 页

9 表 1-2 四种文本表示模型对比表模型布尔模型概率模型向量空间模型语言模型提出时间 20 世纪 50 年代 20 世纪 80 年代 20 世纪 60 年代 20 世纪 90 年代理论基础集合论概率论代数理论概率论随机过程实现难度简单较难简单简单文本表示方法词向量词向量词向量 N-Gram 商业运用情况采用采用常采用未采用 1.4 本文的主要工作本文中提出了一种新的文本纹理模型的概念, 并给出了定义, 该模型可以刻画原始文本的特征, 并在很大程度上保留原始文本的信息本课题中主要研究了基于文本纹理模型的情感倾向性分析, 根据提出的模型进行实际数据的文本分类, 提出了一套完整的文本分类的系统本文第二章介绍了现有的文本分类系统的模型以及流程, 包括文本的预处理特征提取分类器训练结果预测准确率分析等等此外, 本文还介绍了一些现存的文本分类的常见技术, 包括特征提取特征向量降维停用词表文本分类算法等等, 并分析其应用性和局限性在第三章中, 本文提出了一个文本纹理模型的概念, 并给出了定义在文本模型中, 定义了字词级句子级基元, 并由基元的排列组合推理等模式出十三种文本纹理模型, 采用结构法的方式分别对这十三种模型进行研究, 并给出了综合算法, 形成了一套完整的文本纹理模型在第四章中, 本文使用真实生活中的文本数据基于给定的文本纹理模型进行分类, 并分析其结果的准确性和适用性总结文本纹理模型的特点和应用范围最后一章, 总结了本文的研究成果和不足, 并对未来研究工作进行展望, 为今后的研究工作指明方向 1.5 本章小结本章从整体上介绍了现有自然语言文本分类的背景, 以及文本情感倾向性分析的意义本章着重分析了当前文本情感倾向性分析的研究现状和文本表示模型的研究现状最后对本文的主要工作和总体部署进行了概述第 4 页共 37 页

10 第二章文本分类系统模型及理论基础文本分类任务是指将原始文本通过一定的手段处理后, 通过计算机的辅助完成预定的分类要求文本情感倾向性分类是文本分类的一种新的应用文本情感倾向性分析是指如何自动地识别文章中的情感倾向性, 如 : 褒义 ( 支持 ), 贬义 ( 反对 ), 中性 ( 中立 ) 等目前, 文本情感倾向性分析有如下几个方向的研究 : 文本词汇的倾向性分类观点提取主客观分类以及情感倾向分析等等文本分类系统的主要研究方法是通过基于机器学习的方法, 使用已经标注好分类的训练集去训练文本分类器, 再将待分类的文本输入到这个分类器中, 输出分类结果并对结果进行评估, 分析其准确性文本分类系统模型一般分为三部分 : 文本表示阶段, 分类器训练阶段和分类阶段其中, 文本表示阶段涉及到文本特征的提取, 是最为关键的一步目前自然语言文本分类的研究大多集中于文本表示模型的研究 2.1 现有文本分类系统文本分类的流程大体上分为三个模块 : 文本表达阶段, 文本训练阶段和测试阶段其中文本表达阶段又涉及到文本预处理分词特征选择和提取特征降维文本模型表示等等图 2-1 现有文本分类系统流程图基于机器学习的文本分类系统分为监督学习和非监督学习两种模式监督学习, 是指将已有的标注好分类的文本作为训练集来训练文本分类器, 使其调整参数达到分类的目的而无监督学习是让计算机按照一定的规则运行, 而实现不告诉其如何分类, 适用于大量无法处第 5 页共 37 页

11 理的文本分类任务基于文本纹理的情感倾向性分析研究文本表达文本表达阶段是整个文本分类系统中最为关键的一个部分, 其中又分为以下几个主要的步骤 : 文本预处理模型表示特征提取特征降维四个步骤如下图 2-2 所示 : 图 2-2 文本表达阶段流程图文本预处理 : 目的是将原始的自然语言文本转化为计算机可以识别处理的数据, 其中可能会包含中文分词阶段模型表示 : 在上文中曾提到过几种文本表示模型, 决定了文本的表示模型, 即计算机处理数据的格式特征提取 : 从预处理好的文本中提取出能够代表文本信息的元素, 实际上也是去除无关信息去除噪声减少计算机计算量的一个过程特征降维 : 再一次减少压缩无关量, 提高计算效率一般的技术有停用词表技术 TF-IDF 法等等经过以上四个步骤的转换, 可以将原始的自然语言文本转化为计算机可以识别处理的文本特征向量训练阶段文本训练是计算机辅助处理分类任务的核心表现部分, 也是机器学习应用的体现, 这一阶段仅仅存在于监督学习中训练阶段的输入是处理好的文本特征向量, 输出是带有分类规则的文本分类器, 其中输入的文本特征向量应该是人为标记好分类的数据集计算机根据这些已分类的数据集的特第 6 页共 37 页

12 点, 来挖掘分类规则, 并不断裁剪规则基于文本纹理的情感倾向性分析研究测试阶段图 2-3 文本训练和测试流程图训练和分类的流程关系如上图 2-3 所示测试阶段又成分类阶段, 是检验一个分类器性能的阶段测试阶段, 将测试集预处理后输入到带有分类规则的分类器中, 输出分类结果对结果的分析, 我们可以判断分类器的准确性是否满足分类任务的需求, 并以此返回重新调整分类器参数文本处理方式特征提取方式等等 2.2 文本分类理论基础本小节主要介绍了现有的文本分类的一些理论基础知识, 也是本文的主要技术和手法之一, 包括文本分词停用词过滤文本表示文本特征抽取文本分类算法和文本分类器性能评估等文本分词文本分词是中文文本分类任务特有的一步, 相比英文, 中文以标点符号分割一个分句通常中文自然语言文本分类采用比分句更细的元素时就需要用到分词上世纪 80 年代, 汉语自然语言处理领域开始发展, 并提出了分词的任务目前应用较广的有中科院计算所的张华平博士带领的 NLP 小组开发的 NLPIR 汉语分词系统 ( 又名 ICTCLAS2013), 开源基于 Java 语言开发的轻量级的中文分词工具包 IKAnalyzer 第 7 页共 37 页

13 图 2-4 NLPIR/ICTCLAS2014 分词系统 Windows 界面比较常用的分词技术有 : (1) 基于字典词库的匹配分词算法基于字典词库的匹配分词算法需要预先整理出一个中文的词库, 在分词时与该词库中的词语一一对比, 若出现则划分为一个词语, 继续读取下一个字符处理显然这种匹配方法的效率很低 (2) 基于规则的分词法基于规则的分词法是一种基于上下文理解的分词方法, 通过对句法词法的分析, 类似编译原理中根据规则对字符串进行匹配识别, 其最大的弊端在于需要人为建立分词规则库 (3) 基于词频统计的分词法基于词频统计的分词法顾名思义是结合基于词典词库, 并基于统计值选出最优的匹配方案得到分词结果 (4) 基于理解的分词法基于理解的分词法是一种人工智能的分词方法, 以此模拟人脑的思维方式, 理解文本的含义, 学习推理的过程, 对文本进行分析之后得到分词结果 (5)N-gram N-gram 分词法又称为汉语语言模型 N-gram 将文本中相邻 N 个字符组成一个词语来划分文本词汇显然这种方式会产生很多无意义的分词, 需要统计后去掉低频和无意义的词汇常用的是二元的 Bi-Gram 和三元的 Tri-Gram 停用词过滤停用词主要是指文本中一些对文本分类不起作用的冗余词汇, 例如中文文本中的的, 啊, 在等等这些词往往在一个文本库中出现的频率很高, 但是却没有实际意义根 [14] 据 TF-IDF 法计算其重要程度, 可知这些词语几乎不含有任何信息量, 不对文本分类做任何贡献, 因此在预处理阶段将这些词语剔除, 可以提高计算机的处理效率, 以减少了噪声对于文本分类结果的影响第 8 页共 37 页

14 实际应用过程中, 停用词过滤技术有两种实现方式第一种是基于统计的方法为待分类的文本建立一个适合的停用词表例如 : 对微博中某一评论的主题 # 疯狂的大葱 # 做主客观文本分类, 疯狂大葱这些词汇几乎出现在所有的文本中, 所以丧失了其信息量, 在这一次分类任务中划分为停用词第二种是建立停用词表的方法通过和停用词表的匹配, 去除无关或者相关度很低的词汇文本表示技术目前, 常用的文本表示模型有以下几种 : (1) 布尔模型 (Boolean Model) 布尔模型是基于布尔代数和集合论的一种数学模型, 采用 0,1 为每一个元素 ( 即特征元素项 ) 赋值, 适用于文本内容相关度检索后来, 有学者提出了扩展布尔模型, 使用了 numeric 的数值来代替 0,1 二元赋值比如 Lee 提出的 fuzzy set,waller-kraft,p-norm 与 Infinite-One [12] [13][14], 以及 Salton 等提出的 p-norm 模型 (2) 向量空间模型 (VSM - Vector Space Model) 向量空间模型是一种最常见的文本表示模型, 将文本表示为一个向量, 向量中的特征项为原始文本中提取的特征元素, 可以是字词短语 N-GRAM 等等 (3) 概率模型 (Probability Model) 概率模型是一个比较成熟的模型并已以应用在很多实际工程中 [15] 概率模型利用概率论的基本理论, 使用模型中固有的前提假设和推理过程, 用概率的高低来评估文本间相似度大小 [16] (4) 语言模型语言模型是一种新型模型, 也是一种基于概率统计的模型语言模型的思路是, 将文本视作由不同字符组成的一个概率分布, 要判定某一句子段落或者文章是否符合该类别, 可以由概率分布来计算得出也即是说, 特征集合在该文本中形成了一个概率分布, 这个概率分布就被称之为一个语言模型一种常用计算 Kullback-Leibler 距离的公式 (2-1), 也被称之 K-L 距离 [17] : (2-1) 文本特征抽取文本特征抽取是文本抽象化的一个关键技术, 也往往是文本分类成功与否的一个关键参数文本特征是对原始文本的一个抽象刻画, 为的是排除冗余信息, 并提取转化成计算机可以识别处理的模式文本特征抽取的准确与否直接影响了分类的效果此外, 对特征向量维度的控制也是需要关注到重点特征维度越高, 对原文本描述所丢失的信息越少, 但是计算机处理起来效率越低, 甚至会造成内存溢出 ; 特征维度太低, 特征抽取时损失了很多信息, 可能会导致分类准确率下降对于中文文本而言, 特征的选取有很多种, 下面介绍一些最常见的中文文本分类的特征表示方法 : (1) 基于字的特征表示基于字的特征表示是指以单个字为元素提取特征以字为特征来提取看上去并不理想, 第 9 页共 37 页

15 但是实际的应用结果反映却恰恰相反实验数据表明, 基于单字的特征表示法相对于其他特征表示法在文本分类效果上并没有很大的降低据汉语文字统计表明, 汉语词汇的平均长度为 1.6 个字, 这也就说明了单字作为特征元素和词语作为元素特征都是可行的但是, 中文汉字往往一字多义, 单个汉字提取损失了上下文的信息, 容易引入噪声和误差 (2) 基于词的特征表示基于字的特征表示是指以单个词语作为元素提取特征, 也是当今使用最多最成熟的方法之一这种方法要求中文文本预处理时经过分词这一步, 同样提取特征时需要去掉特高频低频词语 ( 即降维 ), 分词结果的准确性影响了特征的提取 (3) 基于词组的特征表示基于词组的特征表示是指具有语义关系的一组词语作为一个特征这种表示方法很好地保留了词语之间上下文的关系相比较于词语的特征表示法而言, 词组的特征表示法更多地体现了文本的语义内容例如 : 小明可以做的更好这个文本在情感倾向性分类中, 如果使用基于词的特征提取模式, 更好一词可能会被判断为褒义, 但是在基于词组的特征表示中, 可以 + 更好则能分析出作者的情感倾向偏向贬义 [18] (4) 基于 N-GRAM 的特征表示基于 N-GRAM 的特征表示法是指将连续出现的 N 个字符作为特征元素提取由于汉语词语通常是双字或三字组成, 因此 Bi-GRAM 和 Tri-GRAM 是两种比较常见的方法显然,N-GRAM 的方法的弊端会组成很多无意义的元素, 引入很多噪声, 且效率会随着 N 的增加而快速下降因此在使用 N-GRAM 方法提取特征时, 特征降维十分重要 (5) 基于 N-POS 的特征表示基于 N-POS 的特征表示是指将连续出现的 N 个词的词性作为特征元素进行提取例如 : 纳税是中国公民应尽的义务经过分词后得到 : 纳税 /vi 是 /vshi 中国 /ns 公民 /n 应 /v 尽 /vi 的 /ude1 义务 /n /wj 则这句句子中的 1-POS 有 : (vi), (vshi), (ns), (n), (v), (vi), (ude1), (n), (wj) 2-POS 有 : (vi,vshi), (vshi,ns), (ns,n), (n,v), (v,vi), (vi,ude1), (ude1,n), (n,wj) 3-POS 有 : (vi,vshi,ns), (vshi,ns,n), (ns,n,v), (n,v,vi), (v,vi,ude1), (vi,ude1,n), (ude1,n,wj) 相比 N-GRAM,N-POS 的特征提取方式有着更低的特征维度空间 N-GRAM 适合于文本分词和新词识别,N-POS 更适用于主客观文本分类任务特征降维特征降维是提高计算效率去除信息冗余和噪声的一种方式特征降维的方法一般是从初步生成的特征向量中提取一些信息量较大的特征, 或删除一些无关的信息量常用的特征选择方法有 : (1) 文档频率法特征元素的文档频率 DF(document frequency) 是指该元素在当前语料库中出现的频率, 当其频率低于某一阈值的时候或高于某一阈值的时候 ( 基于 TF-IDF 算法思想 ), 则将该元素移除特征向量空间 [19], 达到特征降维的目的这种方法不仅可以用来提高计算机处理计算的效率, 也除去了一些无关或相关度很小的元素, 提高了文本分类的准确率上下限阈值的设置是这种方法成功与否的关键在本文中也使用了这种方法作为特征降维的技术手段第 10 页共 37 页

16 [20] (2) 互信息量法基于文本纹理的情感倾向性分析研究互信息 MI(Mutual Information) 常用于统计语言模型, 用来衡量两个变量之间的相关性定义两个词的互信息量为 : (2-2) 其中,p(t^c) 为二元组 t c 联合出现的概率 p(t) p(c) 为各自出现的概率当其互信息量高于某一阈值时, 则可以认为二者可以构成一个二元词组在文本特征选择时, 若互信息量越大, 则特征项 t 和某类别 c 之间的关联度越高, 可以用于特征项的选择中 (3) 信息增益法信息增益 IG(Information Gain) 指的是一个特征的出现与否给该文本带来的信息增益 [21-23] 信息增益是为了衡量每个特征能给文本带来的信息量的大小, 信息量越大, 这个特征越重要 ; 反之, 这个特征越不重要因此, 可以通过计算存在和去除该特征时, 信息量的差值来确定该特征元素的价值 (4)χ 2 统计量法 χ 2 统计量法又称卡方校验 (CHI), 它的主要思想是 : 某个类别与某个特征之间的相关度可以类比为一个自由度的卡方分布, 当该类别和某个特征项之间的 CHI 值越高, 说明这个特征和该类别有着更高的相关度, 更能够代表这个类别, 这个特征所携带的类别信息也越多 [24] 特征 t i 对类别 c j 的 CHI 值公式 2-3 如下 : (2-3) 其中,ABCD 为是否属于 c j 类且是否包含 t i 的文本个数,N 为训练集中的文本总数量, 且 N=A+B+C+D, 同时要求满足 A*C > B*D 文本分类算法文本分类就是将目标空间中未知类别的文本归于指定的类别空间, 这一过程需要构造一个分类函数或者分类模型, 这也是文本分类中的核心 [25] 目前基于向量空间表示模型的自然语言文本分类算法有如下几种 : 支持向量机 (Support Vector Machine,SVM) 朴素贝叶斯算法(Naïve Bayes) K 最近邻算 (K-Nearest Neighbor) 法决策树 (Decision Tree) 简单向量距离(Vector Distance) 法等等下面将逐一介绍这些文本分类算法 [21] : (1) 支持向量机算法 (Support Vector Machine,SVM) 支持向量机算法, 又称为 SVM 算法该算法的基本思想就是寻找出一个超平面, 能够将训练集中的数据分为两部分, 且该超平面与类别的边界之间的垂直距离最大它的变种也可以被用作多分类的分类器, 但是它的特性决定它比较适合用作二分类的分类问题该算法同时适合大样本集与小样本集的文本分类, 精度都比较高 (2) 朴素贝叶斯算法 (Naïve Bayes) 朴素贝叶斯算法, 又被称为 Naive Bayes 算法, 是一种基于统计学分类的算法该算法的基本思想是根据贝叶斯定理, 算出待分类文本属于某一类别的概率大小, 然后将这一文本归类于概率最大的这一类别该方法计算了每一特征出现于某一分类的概率, 速度和效率都比较好, 因此得到了广泛的应用 (3)K 最近邻算 (K-Nearest Neighbor) 法第 11 页共 37 页

17 K 最近邻居算法, 又被称为 K-Nearest Neighbor,KNN 算法该算法的基本思想是在为文本分类时, 找出 K 个与待分类文本距离最近的已标注文本, 然后综合这 K 个文本所标注的类别来确定待分类文本的类别该方法比较适合小数据集, 在应用于大数据集时, 空间消耗较大, 效果不理想 (4) 决策树 (Decision Tree) 决策树是在已知各种情况发生概率的基础上, 通过构成决策树来求取净现值的期望值大于等于零的概率, 评价项目风险, 判断其可行性的决策分析方法, 是直观运用概率分析的一种图解法, 是一种直观地预测模型 (5) 简单向量距离 (Vector Distance) 法简单向量距离算法, 又被称为 Vector Distance 或 Rocchio 算法该算法的基本思想是首先根据算术平均为每类文本算出该文类的中心向量, 在判断文本类别时, 计算该文本的特征向量和每一类文本的中心向量的相似度, 然后取该文本相似度最高的一类为该文本的类别 (6) 条件随机场算法 (CRF Conditional Random Field) [22] 条件随机场 (CRF Conditional Random Field) 在数据分段序列标注命名实体识别中文分词短文本分类等自然语言处理任务中都有很好的表现 CRF 使用条件特征, 可以对特征进行全局归一化它不是在给定当前状态的条件下定义下一个状态的分布, 而是在给定需要标记的观察序列的条件下, 计算整个标记序列的联合概率, 从而避免了 HMM 的对数据进行不必要的独立性假设 (7) 深度学习 (Deep Learning) 深度学习 (Deep Learning) 是机器学习领域的算法集合, 它使用多层非线性结构对数据进行建模深度学习常被当作是实现深度人工智能的一个方法, 许多公司在解决实际应用问题时经常采用这种方法 Facebook 最近宣布在加利福尼亚伦敦和纽约成立了 AI 实验室这些实验室的主要目的就是采用深度学习方法对用户上传的照片进行标注文本分类器与文本分类系统的评价指标文本分类评估是检验分类器分类效果是否满足分类任务的一个环节对分类结果的评估可以包含两个方面 : 一是评估分类的准确性, 二是评估整个分类过程中时间空间的复杂度对于分类准确性的评估, 主要有查准率 (Precision) 查全率(Recall) 和 F- 值 (F-Measure) 三个参数 [26] (1) 查准率查准率是指在分类过程中被判定为类别 T 且实际中也属于类别 T 的文本数的比率 : (2-4) (2) 查全率查全率, 又称为召回率, 是指实际中也属于类别 T 的且被判定为类别 T 的文本数比率 : (3)F- 值 F- 值是一个综合查准率和查全率的衡量指标公式为 : (2-5) 第 12 页共 37 页

18 (2-6) 其中 β 是一个调整参数, 一般取值为现有文本分类系统的局限性迄今为止, 国内专家学者在汉语文本分类研究的领域已取得不小的进展, 如 NLPIR 分词工具的开发等等, 但是目前自然语言处理仍面临着许多难题, 主要存在于文本模型表示方法和特征抽取方式上 : 尽管现有文本表示方法在解决面向主题分类的任务时表现出了良好的性能和效果, 但是在处理文本情感倾向性等问题上仍然存在着诸多不合理性例如 : 文本空间向量表示法虽然能够提取出原始文本中的关键词语, 但是却破坏了原有的词语的顺序和逻辑文本空间向量模型虽然简化了文本分类的任务, 但是也使得原始文本丢失了很多重要的信息, 而这些信息往往是文本情感分析等自然语言处理新的应用的一些重要特征举个简单的例子 : 这瓶洗发水, 适合头发很干的人用用了这瓶洗发水, 头发变得很干这两句句子的主要成分差不多, 如果使用文本空间向量表示模型也都能提取出洗发水很干等几个关键词在文本空间向量表示模型中, 两个文本所表示成的向量距离并不是很大, 但是其原本含义却差之千里因此, 如果不对文本特征表示方法进行改进, 使其包含足够多的特征信息, 普通的基于机器学习的文本分类方法是无法完成这种文本分类任务的显然, 传统的文本分类模型把所有文本特征词以无序集合的形式组织在一起的方法不适合新的文本分类的研究领域鉴于此, 本课题提出了一种文本纹理的概念, 这种概念模型能够很好地保留文本中词语之间的关系文本纹理应包含词语间的依赖关系词性组合句式句型修辞手法等等在这个概念之上, 将这些特征表达为文本纹理模型, 并将其应用到真实的文本数据中 2.4 本章小结在本章中, 本文主要介绍了传统文本分类系统的各个部分以及其主要的理论基础首先, 本文介绍了自然语言文本分类的主要流程其次, 介绍了在各个流程中的主要技术手法和手段, 如 : 文本预处理文本分词停用词表技术文本表示模型文本特征抽取特征降维分类算法等等最后, 本章分析了现有文本分类系统的局限性, 并说明了本课题研究的文本纹理模型的改进方式和重要性, 引出了下一章节的文本纹理的概念第 13 页共 37 页

19 第三章文本纹理模型文本纹理模型是本文提出的一个新的文本表示模型, 在表现文本文意方面, 文本纹理模型不仅考虑了以词为基础元素的分析模式, 也考虑了词和词之间的关系组合排列句子的结构标点的使用等等信息图 3-1 文本纹理模型及其应用之间的关系图文本分类问题的研究在于所采用的特征表示方法是否合理传统的文本表示模型无法很好地处理新型的自然语言文本分类任务, 因此, 本课题提出并完善了一种新的刻画文本信息的模型文本纹理模型以解决新的应用需求本课题达到的目的如下 : (1) 提出并完善文本纹理概念 (2) 提出文本纹理建模方法 (3) 提出基于文本纹理模型的特征表示方法 (4) 研究合适的机器学习模型和分类算法 (5) 解决新型应用问题 3.1 文本纹理的范畴纹理是一种普遍存在的视觉现象, 目前对于纹理的精确定义还未形成统一认识, 根据定义 : 纹理的定义是指物体上呈现的线形纹路, 泛指物体面上的花纹或线条在计算机图形学中, 纹理既包括通常意义上物体表面的纹理 ( 使物体表面呈现凹凸不平的沟纹 ), 同时也包括在物体的光滑表面上的彩色图案 ( 通常被称为花纹 ) 简而言之, 纹理就是对物体表面结构的刻画, 反映了图像本身的属性文本纹理, 则是对文本信息和文本内容结构的刻画, 反映了文本的固有属性, 通常应包含以下两个方面 : 第 14 页共 37 页

20 (1) 按一定规则对元素 (elements) 或基元 (primitives) 进行排列所形成的重复模式 (2) 如果图像函数的一组局部属性是恒定的, 或者是缓变的, 或者是近似周期性的, 则称图像中的对应区域具有恒定的纹理文本纹理定义的基本范畴包括如下内容 : (1) 单位文本的属性是指单位文本的总体属性例如, 长度总体统计量分布句模修辞手法等 (2) 组成文本的基元基元基本上类似于传统文本向量空间模型中的特征向量元素根据划分的颗粒程度, 可以分为 : 字词级基元句子级基元 (3) 基元的模式是指组成该文本的基本元素及元素之间的模式如 : 字词词性等构成了基元 ; 基元 ( 词词性 ) 的排列组合推理统计等构成了具体的模式本文中, 把基元的模式分为四类 : 基元的排列模式基元的组合模式基元的推理模式基元的统计模式在本文中, 文本纹理 (Text Texture) 的定义为 : 文章表达风格写作方式的抽象概念确定文本纹理特征, 并以此建模解决实际问题是本课题的研究中心 3.2 文本纹理建模文本表示是文本信息处理中的基础问题在没有转化为可计算的数学模型之前, 文本是语言的自然序列描述, 计算机难以直接处理这些自然序列的文本因此, 在处理文本数据时, 特别是计算文本相似度信息过滤文本分类时, 需要把文本映射成可以计算的形式, 也就是文本表示文本表示的主要目的是给出适合的数学模型, 依据该数学模型提取文本特征项, 并给出权重当采用相同的机器学习算法时, 一个好的文本表示模型能够提高解决问题的精度在特征表示方面, 传统的文本表示模型具有广泛的计算方法, 而且每种方法的都具有雄厚的数学基础传统文本分类中用到的特征项集中于词性词语等元素, 而忽视了上下文的信息, 以及元素之间的排列组合信息以向量空间模型 (VSM Vector Space Model) 为代表的文本表示模型假设特征项之间是平等的无序的相互独立的, 各个项的区别仅仅体现在特征值上由于向量空间模型几乎没有考虑特征项之间的序关系层次关系依赖关系, 因此, 会造成文本语义和外在信息的损失本课题研究中, 提出了文本纹理模型的概念, 目的是为了保留文本中除了词语本身含义之外的文本信息, 即词语之间的互信息, 因此, 文本纹理包括而不限于 : 词语间依赖关系词性组合句型句式结构句子修辞手法等文本纹理模型具有以下的几个特点 : (1) 层次划分文本纹理模型在对文本信息描述时, 对内容分为三层 : 第一层是文本的总体属性, 包括长度总体统计量总体修辞手法等 ; 第二层组成文本的基元, 如 : 情感词词性等等 ; 第三层为基元之间的各种模式分别组成一个层次整个文本纹理模型可以表示为一个三层的文本模型 (2) 序关系序关系, 即基元的排列模式基于 (1) 的描述, 基元的模式拟包括如下几种 : 组合模式 ( 不考虑顺序的基元模式 ); 排列模式 ( 考虑先后顺序的基元模式 ); 推理模式 ( 基元之间具有计算关系 ); 基元的统计模式 ( 统计计算出现的次数 ) 等 (3) 依赖关系第 15 页共 37 页

21 基元之间的计算模式暗含了依赖关系可参照基于上下文图模型基于迭代矩阵模型等模型, 通过矩阵的计算来分析词语之间的互相推荐关系这部分纹理特征拟在今后的研究中进一步探索在 3.3 章节中详细介绍了文本纹理特征的表示方法,3.4 节提出了一种基于结构法的文本纹理特征表示和分类方法 3.3 文本纹理特征表示方法提出一个合适的特征表示方法是本课题的核心研究内容之一, 也就是提出基于文本纹理模型的特征表示方法基于文本纹理的特征表示方法研究如何构造合适的特征文本的特征表示文本纹理的三层计算模型用来描述原始自然语言文本该模型可以抽取的文本特征如下 : (1) 文本总体属性包括文本的总长度分句长度文本总体字数统计是否使用标点符号情感词是否使用了高级词汇 ( 即相对于日常用语较为文雅的词汇 ) (2) 组成文本纹理的基元 1) 字词级基元 : 内容词 : 主要指名词动词形容词情感词 : 正向形容词反向形容词以及修饰这些形容词的副词语气助词 : 传统方法都停用的语气助词, 例如, 啊呀嘛等标点符号 :!,!!,!!!,!?,?? 特殊字符 :CCTV GCD SB 等等特殊含义的缩写字母组合 2) 句子级基元 : 修辞手法 : 识别每个句子的修辞手法汉语的修辞手法主要包括, 比喻比拟借代夸张对偶排比设问反问语气 : 句子的语气判断, 主要包括, 陈述疑问祈使感叹和虚拟 ( 英语的语气 ) 3) 语法级基元 : 构词方法 : 构词方法是指由最小语素合成为词组的方法项目拟参考标准的构词法以及中文信息处理研究者们总结的便于计算机识别的组词法至少包括如下内容 : 的字句复指短语固定短语偏正短语主谓短语并列短语等词性 : 是指在对句子进行分词和词性标注后所得到的每个词的词性句模 : 是指句子的构成方式中国传媒大学的候敏大连理工大学的林鸿飞等在分析比较句和否定句是也总结了大量句子构造模式 (3) 基元的模式 1) 基元的组合模式, 不考虑顺序的基元模式, 是把 (2) 中的基元直接无序地放在一起组成的多个向量 2) 基元的排列模式, 考虑先后顺序的基元模式传统的 N-Gram 就在某种程度上包含了字的顺序信息项目把 N-Gram 修改为 N-I-Gram, 即跳跃式的选取 Gram, 不需要连续提取需要提取基于字 N-Gram, 基于词的 N-I-Gram, 以及基于词性的 N-I-Gram 例如提取词性的位置顺序时, 只需要提取形容词副词动词名词助词的排列信息, 第 16 页共 37 页

22 其他的词性可能忽略 3) 基元的推理模式, 包含了基元之间的计算关系典型的推理模式主要包括 3 类第一类, 是指对于形容词, 但前面有副词修饰时, 根据副词的修饰程度改变形容词的程度, 当被否定修饰时改变极性第二类是固定搭配 : 情感词在特定情况下表达不同的情感, 例如, 价格高和质量高中的高表达的情感相反, 但在固定搭配中情感方向却是明确的第三类是指常识性的推理在比较句中, 形容一个公司的创新能力像 google, 则是褒义的推理 4) 基元的统计模式, 统计该基元在总体文本中的占比值在上述提取的特征中, 有些特征对文本情感倾向性分类贡献较大, 有些贡献相对较小, 因此我们抽取了一些特征形成了基于结构法的分域表示文本纹理模型 (TTM, Text Texture Model) 该模型可以表示成一个 7 元组 <SetT, SetP, D, Rc, Ra, Ri, Rs> 其中, SetT, 表示文本的总体属性集合 SetP, 表示文本的基元集合 D(Distribution), 表示文本的某个属性的统计分布特征 Rc(Combination), 表示基元之间的组合关系 Ra(Arrangement), 表示基元之间的排列关系 Ri(Inference), 表示基元之间的推理关系 Rs(Statistics), 表示基元之间的统计关系特征获取文本纹理模型提取特征的流程如下图 3-2 所示 : 图 3-2 文本纹理模型特征提取流程面向结构法的文本纹理特征表示模型传统的分类算法采用特征向量来表示待分类对象特征向量空间的维度, 也就是文本特第 17 页共 37 页

23 征总数, 反映了向量空间模型的表示粒度然而,1 维的空间向量模型无法包含大量的语义信息排列和依赖信息等因此, 面向结构法的文本纹理特征表示模型采取了分域治之的模型表示方法, 把出现在不同区域的相同特征当作同级别的特征对待, 而多域表示方法则视其为不同级别的特征, 很显然, 多域表示包含的信息量更大, 区别力也会更强因此, 对于文本纹理模型而言, 更倾向于采用多域模型来表示根据文本纹理模型的定义, 结构法至少可以把文本纹理特征表示为 N 个域, 这 N 个域分别是 : D = (F 1, F 2, F N ), 其中 D 是原始文本,F i (i=1,2, N) 表示域其中, F 1 = ( f 1 :w 1, f 2 :w 2,, f m1 :w m1 ) F 2 = ( f 1 :w 1, f 2 :w 2,, f m2 :w m2 ) F N = ( f 1 :w 1, f 2 : w 2,, f mn, w mn ) 其中,f i 表示特征,w i 表示该特征对应的向量,m i (i=1,2, N) 表示每个域的最大维数很显然, 在一般情况下, 各个域对应的向量的维度是不一样的用结构法表示文本纹理模型体现了一种分治的思想, 充分利用了文本纹理的多层结构的特点, 将不同的文本特征划分为相对简单的子分类问题, 最后再将子分类问题的结果综合起来采用结构法表示文本纹理模型的优点在于各分域间的特征独立性更强, 减少特征之间的互相干扰面向结构表示法的分类算法研究结构法把某一篇文章的纹理表示成多个层次的特征, 因此, 是一种分域的特征表示法面对这种分域的特征表示, 不能简单地采用传统的分类方法直接处理本课题拟采用独立 - 综合的方法实现针对结构法表示的文章的分类把一个复杂的分域特征当作多个相对简单的子分类问题于是, 子分类问题有其自身的特征空间分类模型和分类结果, 最后将多个子问题的结果综合起来在独立 - 综合思想的指导下, 本课题研究了两方面的问题 : 一是为每个子分类问题选择合适的分类算法 ; 二是选择合适的模型, 把子分类问题的分类结果综合为一个全局结果 (1) 为每个子分类问题选择合适算法每个子分类问题都是一个单独的文本分类问题, 可以看成独立的特征向量, 可以在现有的分类算法中选择合适的算法在选择算法时, 应考虑到样本不平均的情况 : 正负面文本数量相差悬殊的情况 (2) 综合算法或策略综合策略是本项目研究的关键之一, 它直接决定了各个子分类算法的结果如何有效地组合在一起在考虑综合算法时, 可选择线性叠加非线性叠加和基于专家的层次分析法来处理整体的文本纹理模型 3.4 基于结构法的文本纹理特征表示和分类方法基于结构的纹理特征表示和分类方法是一种分域的特征表示方法, 基于该表示法的分类过程或者算法不同于传统的 Bayes SVM KNN 等分类该方法分为 3 个步骤 : 首先, 对文本进行特征提取, 并形成分域的表示模型 ; 然后, 为每一个域选择合适的分类器算法, 并给出独立的结果 ; 最后, 将多个域的分类结果按照综合策略组合成一个结果, 这个组合的结第 18 页共 37 页

24 果就是文本分类的最终结果基于结构法的文本纹理特征表示和分类方法的处理流程如下图 3-3 所示 : 图 3-3 基于结构法的文本纹理特征表示和分类法的处理流程纹理模型分域表示文本纹理模型在结构上将文本纹理的特征划分为多个域, 即多个不相关的分类子问题基于结构法的纹理模型分域表示可以将文本表示为以下几个域 : F1 : 文本的总体属性向量文本总体属性向量域中包含了文本总长度文本分句平均长度, 是否使用了标点符号, 是否使用了语气词, 以及是否含有高级词汇这五个特征元素 F2 : 内容词组合内容词组合分域包含了对原始文本中名词动词形容词这三种含有实际含义的内容词的提取及组合 F3 : 情感词组合情感词组合分域包含了对原始文本中形容词副词的提取及组合 F4 : 语气助词标点符号特殊字符组合语气助词标点符号特殊字符组合分域包含了对原始文本中语气助词标点符号特殊字符的提取及组合 F5 : 句子级修辞手法语气组合句子级修辞手法语气组合分域包含了对原始文本中使用的修辞手法, 如 : 比喻比拟借代夸张对偶排比设问反问, 以及对语气 : 陈述疑问祈使感叹和虚拟的提取和组合 F6 : 构词方法组合构词方法组合分域包含了对原始文本中的字句复指短语固定短语偏正短语主谓短语并列短语的提取和组合 F7 : 词性组合第 19 页共 37 页

25 词性组合分域包含了对原始文本中动词名词形容词副词和助词这五类词性组合的特征提取 F8 : 句模组合句模组合分域包含了对原始文本中句模特征的提取 F9 : 情感词排列 (N-GRAM) 情感词排列 (N-GRAM) 分域包含了对情感词 ( 副词形容词 ) 排列特征的提取, 需要考虑情感词在文本中出现的先后顺序 F10 : 词性排列 (N-I-GRAM) 词性排列 (N-I-GRAM) 分域包含了对原始文本中动词名词形容词副词和助词这五类词性排列的特征提取, 在提取时不一定要求两个词性连续, 可以跳跃着提取 F11 : 句子级修辞手法语气排列 (N-GRAM) 句子级修辞手法语气组合分域包含了对原始文本中使用的修辞手法, 如 : 比喻比拟借代夸张对偶排比设问反问, 以及对语气 : 陈述疑问祈使感叹和虚拟的提取和排列 F12 : 副词形容词推理副词形容词搭配出现时, 副词的修饰程度改变形容词的程度副词形容词推理分域包含了对原始文本中副词的修饰使得形容词极性程度改变的特征的提取 F13 : 部分基元统计值部分基元统计值分域包含了对原始文本中名词动词形容词副词助词语气词这几类词在原始文本中所占的比例进行特征提取分域分类算法选择为每个域选择分类器的主要依据是详细分析现有经典分类算法的具体特点国内外学者在探讨分类算法时, 经常会探讨分类算法在如下几点的表现能力, 例如 : 是否能适应类别分布不平衡的样本? 是否依赖完整的主题词表? 是否能处理小样本? 对高维向量的适应性? 在线识别时的速度怎么样? 基于以上的几点考虑, 本课题在实验中分别对每一个分域子分类问题使用不同的文本分类算法, 并分析各种算法对分域模型的适用性, 并为每一个分域模型选择最合适的分类算法组合策略在为每个分域选择了最合适的分类算法后, 还需要将所有的模型用一种综合的算法来统一起来 (1) 线性统计加权方法该方法是一种比较简单直观的方法, 即将所有分域的分类结果 r 1,r 2,r 3,,r 13 通过一种线性组合的方式得到整体的分类结果 R 考虑到各分域对整体的分类结果的贡献度不同, 为每一部分附上一个权重 w i (i=1,2,3,,13), 则加权后的计算方法如下所示, R = r 1 *w 1 + r 2 *w 2 + +r n *w n (3-1) 第 20 页共 37 页

26 线性组合方法能够高速地计算权值, 比较适合在线应用 (2) 基于专家的层次分析法层次分析法 (AHP - Analytic Hierarchy Process) 是一种定性分析与定量分析相结合的系统分析方法, 是将人的主观判断用数量形式表达和处理的方法层次分析法是把复杂问题分解成各个组成因素, 又将这些因素按支配关系分组形成递阶层次结构通过两两比较的方式确定各个因素相对重要性, 然后综合决策者的判断, 确定决策方案相对重要性的总排序层次分析法的基本步骤 : 1) 建立层次结构模型, 将有关的各个因素按照不同属性自上而下地分解成若干层次 2) 构造成对比较阵 3) 计算权向量, 并做一致性检验 4) 计算组合权向量, 并做组合一致性检验 3.5 本章小结本章中详细论述了文本纹理模型的概念首先, 本章第一节提出了本课题研究的文本纹理模型的应用, 然后提出了文本纹理模型的建模方法, 包括文本纹理的定义及其分域模型表示最后本章讨论了基于结构法的文本纹理特征表示和分类方法, 包括了文本分域模型分类算法选择和综合算法的选择, 形成了一套完整的文本纹理分类系统第 21 页共 37 页

27 第四章基于文本纹理模型的主客观分类系统目前, 随着互联网上评价信息的增加, 对于互联网上海量文本信息进行处理和分类的需求正在与日剧增与传统的文本主题分类任务相比, 新的自然语言文本分类任务更多地关注了文本中所传达的信息文本情感倾向性文本情感倾向性分析的研究在现实世界中有着极为广泛的应用如 : 消费者可以通过对某商品海量的评价文本进行自动分类, 来获取其客观评价或正 / 负面评价作为购物的参考 ; 同时, 商家也可以以此来分析消费者的反馈并改进自己的产品文本情感倾向性分析的研究可以为政府企业和个人提供决策上的支持本文前三章依次论述了文本情感倾向性分析研究的现状和意义, 现有文本分类系统技术手段和理论基础, 以及本文中提出了一种改进的基于文本纹理模型的文本情感倾向性分析系统在本章中, 将会基于上一章提出的文本纹理模型, 对实际文本语料库进行情感倾向分类, 并详细描述整个实验系统的架构以及实验步骤, 并对实验结果数据进行比对分析, 对这个分类系统的性能做出总结阐述第 22 页共 37 页

28 4.1 系统构造阐述图 4-1 基于文本纹理模型的情感倾向性分类系统整体流程图基于文本纹理模型的情感倾向性分类系统主要由这几个部分组成 : 文本预处理过程特征向量提取和构造过程分类器训练过程测试样本预测及结果评估的部分其中, 文本预处理过程中, 作者主要使用了 IKAnalyzer 和 NLPIR 分词工具分词在特征向量提取和构造过程中, 使用 Java 和 python 对预处理后的样本进行特征提取和构造在分类器训练过程和测试样本预测及结果评估的部分, 作者使用了 Weka 开源数据挖掘平台及不同的文本分类算法构造分类器并训练, 最后使用测试集测试分类器的准确性其中, 本文研究的重点为特征向量的构造以及分类结果的评估特征向量构造的各部分功能作用如下 : (1)NLPIR 分词工具提供了文本分词的功能, 并将分词后的文本标注词性作者在 Java 工程中调用了 NLPIR 的分词库接口, 对原始数据文本进行批量分词和词性标注 (2) 特征抽取部分提取文本中的基元, 如 : 词性情感词内容词标点符号等基元第 23 页共 37 页

29 (3) 特征构造部分是利用 (2) 中抽取出的文本基元, 形成基元的排列组合推理统计模式, 即分域模型 (4) 特征降维部分是从 (3) 中构造的分域模型中, 除去低频特征, 从而加快分类速度, 节约时间和空间使用 (5) 分类器训练部分采用的是由新西兰怀卡托大学用 Java 开发的开源数据挖掘平台 Weka Weka 数据挖掘平台支持多种文本分类算法在实验中, 作者在 Java 工程中调用了 Weka 的库, 实现了对文本分类器的训练 (6) 分类结果评估部分采用查准率查全率 F 值特征维度数量作为分类评估效果的参数图 4-2 基于文本纹理的情感倾向性分类系统特征向量构造部分流程图 4.2 Weka 开源数据挖掘平台 Weka 智能分析环境 (Waikato Environment for Knowledge Analysis) 是一个基于 Java 实现的开源数据挖掘平台, 由新西兰的怀卡托大学开发 [31] Weka 开源数据挖掘平台包含了各类数据分析分类的算法和预测模型, 可以对数据进行预处理分类聚类关联规则等一系列操作, 其 Windows 下的可视化操作界面如下 : 第 24 页共 37 页

30 图 4-3 Weka 开源数据挖掘平台主界面 Weka Explorer 中支持了对数据预处理分类聚类关联规则等操作, 见下图 4-4 所示, 也是本课题中主要使用的功能此外,Weka Experimenter 中允许用户创建执行修改和分析实验结果在 Weka KnowledgeFlow( 知识流界面 ) 是 Explorer 的另一种选择 Weka KnowledgeFlow 界面是包含了 Weka 核心算法的图形前端, 允许用户将各组件, 如 : 分类器数据格式转换器数据筛选器等功能组件直观地连接在一起生成一个系统模型, 最大的特点是让用户直观地看到数据流的操作图 4-4 Weka Explorer 数据分类操作界面 - 分类算法选择 Weka 的数据格式是特定的,Weka 处理的数据集是一个 arff 格式二维的表格, 如下图 4-5 所示 : 第 25 页共 37 页

31 图 4-5 Weka ARFF 格式数据 Weka 储存数据的格式是 ARFF(Attribute-Relation File Format) 文件首先, 是数据文件的属性声明, 按顺序定义了每一个实例 (Instance) 向量的属性 (Attribute), 定义的属性可以为数值型字符串型后面的每一行是一个数据实例, 在图示中一共有 14 个实例 4.3 文本情感倾向性分析文本语料库本课题中设计的文本情感倾向性分析实验分为 : 主客观文本分类和文本褒贬性情感分析两类文本分类任务, 并分别使用传统的空间向量模型和本文提出的文本纹理模型来表示和文本分类, 并评估其分类结果, 比较其文本分类准确性和空间复杂度上的差别主客观文本分类语料使用了 :2012 年 3 月的微博热门主题 # 疯狂的大葱 # 讨论语料集, 文本分三类 : 主观客观其他, 共有 1448 个文本, 其中主观 431 个, 客观 1009 个, 其他 9 个文本褒贬性情感分析语料使用了谭松波从携程网上收集整理的某酒店的正负面评价语料, 共 6000 文本语料集为平衡语料, 正负类各 3000 篇 4.4 分域模型实验及结果在本课题的实验中, 我们分别使用传统的向量空间模型和本文提出的文本纹理模型来处理主客观文本分类和文本褒贬性情感分析两类文本分类任务实验中主客观文本分类抽取 1000 个文本作为训练集 ( 其中主观 298 个, 客观 697 个, 其他 5 个 ),448 个文本作为测试集文本褒贬性情感分析语料集抽取 4000 个 ( 其中正负各第 26 页共 37 页

32 2000 个 ) 文本作为训练集, 剩余作为测试集训练集测试集比例约为 2:1 实验中, 分域模型采用了 :F1: 文本的总体属性向量 ;F2: 内容词组合 ;F3: 情感词组合 ; F4: 语气助词标点符号特殊字符组合 ;F7: 词性组合 ;F9: 情感词排列 (N-GRAM);F10: 词性排列 (N-I-GRAM);F13: 部分基元统计值等 8 个分域模型对文本进行表示和分类主客观文本分类表 4-1 传统的向量空间模型分类结果分类文本文本分类算法特征向量维度查准率查全率 F- 值主观评价 SVM 客观评价 SVM 表 4-2 文本的总体属性向量分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-3 内容词组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-4 情感词组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-5 语气助词标点符号特殊字符组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-6 词性组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes 第 27 页共 37 页

33 J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-7 情感词排列 (N-GRAM) 分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-8 词性排列 (N-I-GRAM) 分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-9 部分基元统计值分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 文本褒贬性情感分析表 4-10 传统的向量空间模型分类结果分类文本文本分类算法特征向量维度查准率查全率 F- 值褒义评价 SVM 贬义评价 SVM 表 4-11 文本的总体属性向量分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-12 内容词组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes 第 28 页共 37 页

34 J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-13 情感词组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-14 语气助词标点符号特殊字符组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-15 词性组合分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-16 情感词排列 (N-GRAM) 分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-17 词性排列 (N-I-GRAM) 分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes J48(Decision Tree) SMO(SVM) IBK(KNN) 表 4-18 部分基元统计值分域模型分类结果文本分类算法特征向量维度查准率查全率 F- 值 Naïve Bayes 第 29 页共 37 页

35 J48(Decision Tree) SMO(SVM) IBK(KNN) 实验结果分析根据 4.4 节的实验结果, 可以得出以下结论 : 第一, 对于不同的文本集 ( 主客观文本分类和文本褒贬性情感分析文本 ), 传统的空间向量模型的分类结果表现差别很大在主客观文本分类中, 传统的空间向量模型分类方法可以达到将近 90% 的查准率和查全率, 而对于文本褒贬性情感分析文本集, 其负面评价的查准率仅为 57% 通过人为的对数据文本的观察可以发现, 该酒店评论的正面评价文本评价方式和内容比较集中统一, 而负面评价之间往往差别很大, 这也是为什么通过提取文本关键字特征的传统分类手段无法满足这类文本分类的需求与本文提出的文本纹理模型相比, 传统的空间向量模型分类方法在分类准确率和稳定性上有一定的差距第二, 对于相同的文本分类语料库, 不同的分域模型对分类准确率的贡献不同在主客观文本分类实验中, 部分基元统计值分域模型的分类准确率最高, 词性组合分域模型的分类结果较差而在文本褒贬性情感分析实验中, 词性排列 (N-I-GRAM) 分域模型情感词排列 (N-GRAM) 分域模型情感词组合分域模型和内容词组合分域模型的分类结果表现出众, 均达到了 90% 以上的分类准确率, 语气助词标点符号特殊字符组合分域模型及文本的总体属性向量分域模型的分类结果较差第三, 对于不同的文本分类语料库, 相同的分域模型表示得到的分类结果也不尽相同其中, 内容词组合分域模型情感词组合分域模型词性排列 (N-I-GRAM) 分域模型和情感词排列 (N-GRAM) 分域模型等表现较为一致, 其分类结果准确率均比较高 ; 而语气助词标点符号特殊字符组合分域模型的分类结果不稳定, 可能会随着文本的变化而有较大差异第四, 基于文本分类评估结果的综合参数 F- 值的考虑, 作者为每一个分域模型选择了适合的经典文本分类算法 : F1: 文本的总体属性向量 :KNN 算法 F2: 内容词组合 :SVM 算法 F3: 情感词组合 :KNN 算法 F4: 语气助词标点符号特殊字符组合 :SVM 或 KNN 算法 F7: 词性组合 :SVM 算法 F9: 情感词排列 (N-GRAM):SVM 或 KNN 算法 F10: 词性排列 (N-I-GRAM):KNN 算法 F13: 部分基元统计值 :KNN 算法第五, 基于上述实验结果, 考虑到分类结果的准确性稳定性, 以及对系统资源的要求, 选择分类效果优于传统空间向量模型的分域模型进行线性加权, 并根据其综合分类效果 F- 值作为权重的大小本文提出两种推荐的综合策略 : (1) 线性统计加权方法 : 对于主客观文本分类任务 : R = (0.89* r *r *r *r *r *r 6 ) / 4.6 其中,r 1 为文本的总体属性向量分域模型,r 2 为内容词组合分域模型,r 3 为情感词组合第 30 页共 37 页

36 分域模型,r 4 为情感词排列 (N-GRAM) 分域模型,r 5 为词性排列 (N-I-GRAM) 分域模型, r 6 为部分基元统计值分域模型对于文本褒贬性情感分析任务 : R = (0.84*r *r *r *r *r *r *r 7 ) / 6.49 其中,r 1 为文本总体属性向量分域模型,r 2 为内容词组合分域模型,r 3 为情感词组合分域模型,r 4 为词性组合分域模型,r 5 为情感词排列 (N-GRAM) 分域模型,r 6 为词性排列 (N-I-GRAM) 分域模型,r 7 为部分基元统计值分域模型 (2) 层次分析法 : 本实验中采用的文本分类数据集为小量文本数据, 若将文本纹理模型应用在工程应用中 ( 如 : 在线实时文本数据挖掘 ), 除了考虑其分类准确率之外, 还应考虑其时间空间复杂性等在本次实验中, 作者采用了基于词频 ( 特征频率 ) 的特征降维的方式本实验中 N-GRAM 的 N 均取值为 2,N-I-GRAM 的 N 均取值为 3 尽管 N 取值较小, 但是生成的特征维度仍然很高, 例如 : 情感词排列分域模型中, 情感词的提取将近 500 个, 则其排列方式有将近个如此高维的特征向量势必会引入很多噪声, 降低文本分类结果的准确性和效率作者在实验中分别两次降维, 第一次在情感词的提取时, 第二次在情感词的排列时, 分别除去了特高频 ( 如 :# 疯狂的大葱 # 中的疯狂 ) 及低频向量, 将特征维度控制在计算机计算可以承受的范围之内因此, 本文提供了一种具有参考性的层次分析模型, 如下图 4-6 所示 : 图 4-6 基于层次分析法的文本纹理模型第六, 作者不排除本实验中文本语料库的某些特性影响了实验结果的准确性为了说明文本纹理模型的分类优势, 还需要进一步采用标准化分类语料进行分析, 并与其他文本分类模型和方法做比较 4.6 本章小结本章基于上一章提出的文本纹理模型, 对实际文本语料库进行情感倾向分类, 并详细描第 31 页共 37 页

37 述整个实验系统的架构以及实验步骤, 并对实验结果数据进行比对分析, 对这个分类系统的性能做出总结阐述第 32 页共 37 页

38 第五章结论与展望 5.1 结论随着互联网的普及, 网络上的信息以极快的速度膨胀, 并产生了大量的带有情感色彩的文本如果这些文本加以适当的处理和挖掘, 便可以提取到其中蕴含的潜在价值如何自动化地处理挖掘, 并提取到海量文本中的信息成为了当今的一个热门的研究课题在互联网信息时代, 文本分类技术有着良好的发展前景随着越来越多的专家学者投入到自然语言处理领域的探索和研究, 这个领域正在得到越来越多的关注随着研究的深入, 对文本分类的准确性和系统的稳定性需求也不断上升本文提出了文本纹理的概念, 并给出了文本纹理的定义, 旨在改进传统的文本分类系统在特征提取时会损失文本间词语依赖词语和句子结构之间的信息, 有效提高分类的准确性和稳定性, 广泛地适应新的文本分类任务本文的研究工作主要如下 : (1) 定义了文本纹理的概念, 并给出了基于结构法的文本纹理模型 (2) 对于主客观文本分类和文本褒贬性情感分析两种文本分类任务, 分别采用传统的空间向量模型和本文提出的文本纹理模型对其表示和分类, 并对其结果进行分析和评估实验的结果表明, 文本纹理模型在文本情感倾向分析上较于传统的文本分类系统有着明显的准确性优势, 文本纹理特征的提取可以更好地保留原始文本的信息 5.2 展望本文较为系统地给出了文本纹理的定义特征的形式, 以及文本纹理模型的构造, 但是由于时间紧迫, 作者未能完成全部的文本纹理分域模型的实现此外, 在实验中仅仅选取了两种比较典型的文本情感倾向分类任务, 各选一种文本语料集作为实验分类语料库, 该语料集并不带有代表性和普适性, 但是可以说明文本纹理在对文本间信息的刻画上的优势另外, 特征维度的选择对于文本分类的准确性有着一定的关系 : 维度过高会导致特征向量存在信息的冗余白噪声, 在分类算法计算时会导致时间空间复杂度增加 ; 维度过低会导致特征向量对文本信息刻画的缺失, 同样造成分类准确性的下降本文对文本纹理的研究仅仅是一个开始, 是对文本纹理挖掘的一次探索, 在这个方向上仍然还有很多方面值得我们探索和尝试 : (1) 继续完善基于结构法的文本纹理分域模型作者完成了对总体属性向量分域模型内容词组合分域模型情感词组合分域模型情感词排列 (N-GRAM) 分域模型词性排列 (N-I-GRAM) 分域模型和部分基元统计值分域模型等八个分域模型的实现, 今后还可以对句模句式等文本特征进行挖掘, 形成新的分域模型并扩充进来 (2) 本文并未对特征降维的阈值进行深入研究由于计算性能受限, 本文将所有的特征维度控制在维以下, 但是部分实验模型中, 或许已经对特征向量造成了过度降维, 第 33 页共 37 页

39 导致文本信息丢失准确率下降如果进一步探索, 可以考虑如何合理地进行特征降维 (3) 本课题实验中所采用的文本分类语料库分别为文本褒贬性分类语料 ( 携程网上对某酒店的评价 ) 主客观分类语料(2012 年 3 月微博热门讨论话题 # 疯狂的大葱 #) 其中, 文本褒贬性分类语料为对称语料集, 主客观分类语料为非对称语料集这两个文本语料集并不具有普适性和广泛性为了证明文本纹理模型的优势和特点, 还应当采用大量的标准化的语料集进行实验和结果评估 (4) 一些特殊的文本特征, 如 : 讽刺语气修辞手法等, 在现阶段的文本分类技术下, 仍然不能有效地识别, 需要通过人为的方式来标注因此, 实现文本纹理模型分类系统需要更高的人工智能技术的辅助 (5) 由于语料集的特性, 本文只尝试了二分类和三分类的文本分类实验今后的实验中可以尝试多分类的文本分类任务第 34 页共 37 页

40 参考文献 [1] Yao T F, Cheng X, Xu F, et al. A survey of opinion mining for texts[j]. Journal of Chinese information processing, 2008, 22(3): [2] Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectives[c]//proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 1997: [3] Kim S M, Hovy E. Automatic detection of opinion bearing words and sentences[c]//proceedings of IJCNLP. 2005, 5. [4] 百度百科. 自然语言处理, [EB/OL][D]., [5] Wiebe J. Learning subjective adjectives from corpora. In: Schultz AC, ed. Proc. of the AAAI. Menlo Park: AAAI Press, [6] 赵妍妍, 秦兵, 刘挺. 文本情感分析 [J]. 软件学报, 2010, 21(8): [7] Peter D. Turney, Michael L. Littman. Measuring praise and criticism: Inference of semantic orientation from association[j].acm Transactions on Information Systems (TOIS).2003,Volume 21 Issue 4: [8] Theresa Wilson, Janyce Wiebe, and Paul Hoffmann.Recognizing Contextual Polarity:An Exploration of Features for Phrase-Level Sentiment Analysis[J].Computational Linguistics,2009,35(3): [9] Prem Melville, Wojciech Gryc, and Richard D. Lawrence.Sentiment analysis of blogs by combining lexical knowledge with text classification[a]. KDD '09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining[c].new York, USA:ACM, 2009, [10] 张紫琼. 面向中文情感分析的词类组合模式研究 [D]. 哈尔滨工业大学, [11] 徐琳宏, 林鸿飞, 杨志豪. 基于语义理解的文本倾向性识别机制 [J]. 中文信息学报, 2007, 21(1): [12] Joon Ho Lee. Properties of extended Boolean models in information retrieval. Proceedings of the 17th annual international ACM SIGIR conference on Research and development in Information Retrieval. 1994: [13] Salton G,E A Fox and H.Wu. Extended boolean information retrieval. Communications of the ACM. 198 [14] Gerard Salton, A. Wong, and CS Yang. A vector space model for information retrieval. Communications of the ACM, 18(11): , November [15] Tanaka T. Statistical-mechanics analysis of Gaussian labeled-unlabeled classification problems[c]//journal of Physics: Conference Series. IOP Publishing, 2013, 473(1): [16] 李荣陆, 王建会, 陈晓云, 等. 使用最大熵模型进行中文文本分类 [J]. 计算机研究与发展, 2005, 42(1): [17] Somashekara M T, Kiran R R S, Muralidhara B L. Probabilistic Measures of Similarity Dissimilarity Between Markov Models for Construction of Guide Tree for Multiple Sequence Alignment[J]. IJECCE, 2013, 4(3): [18] 于津凯, 王映雪, 陈怀楚. 一种基于 N-Gram 改进的文本特征提取算法 [J]. 图书情报工第 35 页共 37 页

41 作. 2004,48(8): [19] Metzler D. Generalized inverse document frequency[c]//proceedings of the 17 th ACM conference on Information and knowledge management. ACM, 2008: [20] 李耀林. 面向评价对象的商品评论情感倾向性分析研究 [D]. 浙江工商大学, [21] 刘依璐. 基于机器学习的中文文本分类方法研究 [D]. 西安电子科技大学西安电子科技大学 : 情报学,2009. [22] 周俊生, 戴新宇, 尹存燕, 等. 基于层叠条件随机场模型的中文机构名自动识别 [J]. 电子学报, 2006, 34(5): [23] Tan, S., and Zhang, J. An empirical study of sentiment analysis for Chinese documents. Expert Systems with Applications, 34, 4 (2008), [24] Wang, S., Li, D., Song, X., Wei, Y., and Li, H. A feature selection method based on improved fisher's discriminant ratio for text sentiment classification. Expert Systems with Applications, 38, 7 (2011), [25] Li Y, Luo C, Chung S M. Text clustering with feature selection by using statistical data[j]. Knowledge and Data Engineering, IEEE Transactions on, 2008, 20(5): [26] Yang, Y. and Pedersen, J. O. A comparative study on feature selection in text categorization. In Proceedings of the ICML, 1997, [27] Vapnik V.Nature of Statistical Learning Theory(2nd edition)[m]. New York: Springer Press [28] 姚天昉, 娄德成. 汉语情感词语义倾向判别的研究 [C]// 中国计算技术与语言问题研究第七届中文信息处理国际会议论文集年, [29] 代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究 [J]. 中文信息学报, 2004, 18(1): [30] Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis[j]. Computational linguistics, 2009, 35(3): [31] Witten I H, Frank E. Data Mining: Practical machine learning tools and techniques[m]. Morgan Kaufmann, [32] 叶强, 张紫琼, 罗振雄. 面问互联网评论情感分析的中文主观性自动判别方法研究![J] [33] Wiebe J, Wilson T, Bell M. Identifying collocations for recognizing opinions[c]//proceedings of the ACL-01 Workshop on Collocation: Computational Extraction, Analysis, and Exploitation. 2001: 第 36 页共 37 页

42 谢辞本论文是在我的导师刘功申副教授的悉心指导下完成在整个论文的选题构思实验设计到论文定稿都得到了刘老师的精心指导和大力支持从论文的课题研究到实验, 再到论文的撰写过程中遇到了无数的困难与坎坷, 查阅了无数的文献资料, 唯有不断地思考和尝试, 脚踏实地, 才是一名本科生追求知识的正确方向大学四年的生活已接近尾声, 回首奋斗于毕业的三个月里, 感觉十分充实, 随着本次论文的完成, 也将要给本科生涯划下完美的句号在此, 我要衷心地感谢刘功申老师对我毕业设计的指导和启发, 以及徐佳俊同学在毕业设计实验时的帮助, 感谢自然语言处理领域的专家学者和前辈们的辛勤付出和宝贵的研究资料感谢上海交通大学对我的培养, 感谢信息安全工程学院的老师在我本科期间传道授业解惑第 37 页共 37 页

43 ANALYSIS AND RESEARCH ON EMOTION INCLINATION BASED ON TEXT TEXTURE MODEL With the rapid development of the Internet, information on the Internet is increasing explosively. The Internet has become an interactive platform to express people s personal opinions. This massive information on the Internet has great potential values to be explored and utilized. Hence, how to effectively deal with the emotional texts on the Internet becomes a very meaningful topic. By performing a fast, accurate, effective analysis on these texts with emotional tendencies, we can dig out these potential opinions and attitudes in order to provide strategies for the government, enterprise and single persons. Manual text classification is accurate, but it consumes a lot of time and energy. Thus, we are seeking out a way to classify emotional texts automatically and efficiently. With more and more experts and scholars have devoted to Natural Language Processing exploration and research field, the field is getting more and more attention. With the in-depth study, the accuracy and stability of the demand system of text classification is also rising. Traditional text classification is mostly based on subject classification without concerning for the potential and value of information contained in the text. However, the new classification need to care more about complex text information. In order to meet the new classification application requirements, we put forward a new text feature description model -- text texture model. This paper proposes a new concept of text texture model, and gives the definition, characteristic of this model. The model can depict the original text and retain the original text information to a great extent. Text classification task refers to classify the original text by means of the assistance of computers. Text sentiment classification is a new application in text classification. Analysis of text sentiment orientation refers to how to automatically identify the sentiment in the article such as: commendatory (support), negative (against), neutral, etc.. Text classification system is generally divided into three parts: document representation, classifier training phase and the classification phase. Among them, the text representation stage involves the extraction of text features, is the most crucial step. At present, the research on natural language text classification is mostly focused on the study on text representation model. The text expression stage is one of the most critical parts of the whole text classification system, which is divided into the following steps: text preprocessing, model representation, feature extraction, feature dimension reduction. Training is the core part of the text representation of computer aided processing classification task, also embodies the application of machine learning, this stage only exist in supervised learning. The testing stage and classification stage is testing a classifier performance stage. In the testing stage, the test set is input into the classifier with classification rules after pretreatment and classification results come out as the output. By analyzing the results, we can determine whether the classifier accuracy meet classification tasks. If not, we can turn back and turn the parameters of classifier, or 第 1 页共 3 页

44 text processing methods, or feature extraction methods and etc.. Text segmentation is unique Chinese text classification task step. Nowadays, NLPIR Chinese word segmentation system (NLPIR, ICTCLAS2013) is widely used for Chinese text segmentation. It is developed by Dr. Huaping Zhang from NLP group in Computing Technology Institute, CAS. Dimension reduction is a way to improve the computational efficiency, removing redundant information and noise. There are several approaches to reduce dimensions. The most common one is DF(document frequency) methods. DF refers to the frequency of a word appearing in the whole text. When the frequency is below a threshold, we can remove the dimension. Moreover, there are a variety of ways to present Chinese text features. For example, text feature based on words, text feature based on phrases, text feature based N-GRAM, text feature based on N-POS and etc.. Text classification means to classify the unknown object categories in the text space to the specified class space. This process requires constructing a classification function or classification model, which is the core of text classification. At present, natural language text classification algorithm based on the vector space representation of the model is as follows: Support Vector Machine, the basic idea of the algorithm is to find a hyper plane which enables to divide the training data into two separate parts and the vertical distance between the hyper plane and categories of the boundary is the longest. Naïve Bayes is a classification algorithm based on statistics. The basic idea of the algorithm is based on the Bias theorem, calculating the probability of a text which it should belong to a certain category. And then the text is classified in this category with maximum probability. K-Nearest Neighbor, the basic idea of the algorithm is to find out K text to be classified marked text recent distance. Decision Tree, based on the known circumstances occurrence probability, through the form of decision tree to calculate the net present value of the expected value of the probability is greater than or equal to zero. Vector Distance, the basic idea of the algorithm is based on the arithmetic mean as the center of each kind of text vector calculated the genre, in judging the text categories, similarity computation center vector feature vector of the text and each kind of text, and then takes the text similarity class of the highest for the text category. Deep Learning, is generally regarded as the realization method of a depth of artificial intelligence, many companies often use this method in solving practical problems. Weka intelligent analysis environment (Waikato Environment for Knowledge Analysis) is an open source data mining platform based on Java, developed by the University of Waikato in New Zealand. Weka open source data mining platform includes the algorithm and the prediction model of all kinds of data analysis, classification, the data preprocessing, classification, clustering, association rules and a series of operations. Weka Explorer in support of the operation on the data preprocessing, classification, clustering, association rules, is also the subject of the main use of function. In addition, Weka Experimenter allows users to create, execute, modify and analysis of experimental results. In the Weka Knowledge Flow (knowledge flow interface) is another option Explorer. Weka Knowledge Flow interface contains a graphical front-end to Weka core algorithm, allows the user to the components, such as: classifier, data format converter, data filter and other functional components directly connected together to generate a system model, the biggest characteristic is to let users visually see the operation of data stream. Text texture model proposed in this paper is a new text representation model. Text texture 第 2 页共 3 页

45 model considers not only used the word as analysis model of basic elements, but also the relationship between word and word, permutation and combination, sentence structure, punctuation and so on. Research on text classification problems lays on whether method is reasonable. The traditional text representation models are unable to deal with natural language text classification task model, so we create a new model - text texture model. This research purpose is as follows: (1) Propose the concept of text texture (2) Propose text texture modeling method (3) Propose a presenting method of text features based on text texture model (4) Study the appropriate machine learning model and the classification algorithm (5) Solve the problems of new text classification application Text representation is the basis of text processing. The text is a natural sequence of language description; the computers cannot process on these natural sequences before they are transformed into calculable mathematical model. The main purpose of the text is to gives a suitable model based on the mathematical model of text feature extraction, and gives the weights. When using the same machine learning algorithms, a good text representation model can improve the accuracy of solving problems. In this paper, we put forward the concept of text texture model in order to keep the text information besides the meanings of the words themselves, such as the mutual information between words. Hence, the definition of text texture includes but not limited to: the dependencies between words, word combination, sentence, sentence structure, sentence rhetoric and etc.. Putting forward a suitable feature representation method is one of the core contents of this research; it means to propose a feature representation of text based on texture model, indicating how the construction method is suitable for text based on the texture feature. For the subjective and objective text classification and appraise the emotional analysis of two kinds of text classification tasks, we use text texture model vector space model and the traditional representation to present and classify texts, analyze and evaluate the results. The experimental results show that, the text categorization system texture model in the analysis of the text affective tendency compared with traditional has obvious advantages of text extraction accuracy, texture feature information can be better to retain the original text. This paper systematically presents the definition, text texture form, and constructs the text texture model, but because of time constraints, the author fails to complete the full text texture domain model. In addition, in the experiment only selected two typical kinds of text sentiment orientation classification task. The data set does not have a representative and universality, but it still shows significantly the advantages the text texture possessed in the portrayal of the text information on the edge. Moreover, there is a certain relationship between the accuracy of text classification and the choice of characteristic dimensions: High dimension of feature vectors can cause information redundancy, white noise; leading to the time, the space complexity increase during calculating. Too low dimensions will lead to lack of feature vector of text information description, which also causes decreased classification accuracy. This paper studies on the text of texture is just a beginning, is an exploration of the texture of text mining, in this direction, there are still many aspects worthy of our exploration and attempt. 第 3 页共 3 页

2013-comp-022.dvi

2013-comp-022.dvi 4 2014 7 ( ) Journal of East China Normal University (Natural Science) No. 4 Jul. 2014 : 1000-5641(2014)04-0062-07, (, 200062) :,.,,, ; N-POSW, 2-POS W,.,, F 7%. : ; ; N-POSW ; : TP39 : A DOI: 10.3969/j.issn.1000-5641.2014.04.008