201902

Size: px
Start display at page:

Download "201902"

Transcription

1 ,55(2) 文本分类 TF-IDF 算法的改进研究 1,2 1,2 1,2 叶雪梅, 毛雪岷, 夏锦春, 王波 1. 合肥工业大学管理学院, 合肥 Computer Engineering and Applications 2. 合肥工业大学过程优化与智能决策教育部重点实验室, 合肥 ,2 摘要 : 中国互联网环境的发展, 让大量蕴含丰富信息的新词得以普及 而传统的特征词权重 TF-IDF(Term Frequency and Inverted Document Frequency) 算法主要考虑 TF 和 IDF 两个方面的因素, 未考虑到新词这一新兴词类的优势 针对特征项中的新词对分类结果的影响, 提出基于网络新词改进文本分类 TF-IDF 算法 在文本预处理中识别新词, 并在向量空间模型表示中改变特征权重计算公式 实验结果表明把新词发现加入文本预处理, 可以达到特征降维的目的, 并且改进后的特征权重算法能优化文本分类的结果 关键词 : 新词 ; 词频 - 逆文档频率 (TF-IDF); 向量空间模型 ; 文本分类 文献标志码 :A 中图分类号 :TP391 doi: /j.issn 叶雪梅, 毛雪岷, 夏锦春, 等. 文本分类 TF-IDF 算法的改进研究.,2019,55(2): YE Xuemei, MAO Xuemin, XIA Jinchun, et al. Improved approach to TF-IDF algorithm in text classification. Computer Engineering and Applications, 2019, 55(2): Improved Approach to TF-IDF Algorithm in Text Classification YE Xuemei 1,2, MAO Xuemin 1,2, XIA Jinchun 1,2, WANG Bo 1,2 1.School of Management, Hefei University of Technology, Hefei , China 2.Key Laboratory of Process Optimization and Intelligent Decision- Making(MoE), Hefei University of Technology, Hefei , China Abstract:With the development of Internet environment in China, a lot of new words with rich information have been popularized. The traditional term weight algorithm named TF-IDF(Term Frequency and Inverted Document Frequency) mainly considers two factors named TF and IDF without the advantage of new words. In view of the influence of new words in feature items on classification results, an improved TF- IDF algorithm based on new words of network is proposed in text classification. Research recognizes new words in the text preprocessing, and improves the weight calculation formula of them in the vector space model representation. Experimental results show that adding new word discovery process to text preprocessing can reduce feature dimension, meanwhile, the improved TF-IDF algorithm can optimize the result of text classification. Key words:new words; Term Frequency and Inverted Document Frequency(TF-IDF); vector space model; text classification 1 引言随着互联网的发展, 网络成为用户获取信息的主要渠道, 而信息的爆炸式增长使得用户难以从海量数据中获得需要的信息 为提升用户体验, 对网络信息进行分类变得越来越重要 文本分类是指通过分类算法对未 [1] 知类别的文档进行处理, 判断它所属的预定义类别 [2] [3] 目前存在的分类算法主要有 Bayes 算法 KNN 算法 [4] [5] 支持向量机 (SVM) 算法 神经网络等 分类算法主要建立在向量空间模型的基础上, 特征 项权重算法的优劣直接影响文本分类的精准度 TF-IDF 算法是经典的特征项权重算法, 众多学者就 TF-IDF 算 法存在的问题提出不同改进方案 徐凤亚和罗振声考 虑特征项在类间和类内的分布情况, 对分布信息和低频 高权特征信息进行联合加权 [6] Soucy 等人基于对词语 基金项目 : 安徽省年度重点科研项目计划 (No.JZ2016AKKG0825); 国家自然科学基金创新群体项目 (No ) 作者简介 : 叶雪梅 (1994 ), 女, 硕士, 研究领域为数据挖掘, @qq.com; 毛雪岷 (1974 ), 男, 副教授 收稿日期 : 修回日期 : 文章编号 : (2019) CNKI 网络出版 : ,

2 叶雪梅, 等 : 文本分类 TF-IDF 算法的改进研究 2019,55(2) 105 重要性的统计估计提出一种新的加权方法对 TF-IDF 进 [7] 行改进 熊忠阳等人考虑特征项在类间 类内和不完文本是非结构化数据, 而分类算法所能处理的是结全分类的分布信息的不足, 引入特征项在类间和类内分构化的数字数据 所以把文本从非结构化转化为结构布的离散度来改进 TF-IDF [8] 郭红钰综合考虑权重计化这一过程是整个文本分类工作的基石, 这一转化过程算时特征项在各类别中的分布, 提出了一种基于类别分的好坏将直接影响到最终的分类结果 目前常用的文布的权值计算的方法 ETFIDF [9] 现有算法改进研究主本表示方法有 : 布尔模型 (Boolean Model) [12] 概率模要集中在算法的本身缺陷, 忽视了文本表达方式变化带型 (Probabilistic Model) 向量空间模型 (Vector Space 来的影响 Model) [13], 其中又以向量空间模型 ( 简称 VSM) 的使用网络信息是一类特殊信息, 形式自由多样, 内容更最为简单 新频繁, 在中国互联网环境下容易产生大量新词 新词 VSM 模型中有三个重要概念 : 一是特征项 (Term), 一般伴随着社会热点产生, 具有不同于基础词汇的新形特征项是经过特征选择所得的最能表达文本内容的词 [10] 式与新用法, 往往蕴含着丰富信息, 以此改进 TF-IDF 语 ; 二是特征项权重 (Weight), 特征项权重是使用相应算法将大大优化文本分类的结果 因此, 本文针对中国的特征权重算法对特征词赋值所得的权值 ; 三是特征向互联网环境提出了基于新词发现改进的特征权重算法, 量 (Feature Vector), 特征向量是用特征项和特征项权重在文本预处理中识别新词并对原始文本重新分词, 在向共同表示的文本数字化向量 量空间模型表示中根据新词信息量大的特点重新分配 VSM 把每篇文档都表示为特征词 - 权重向量, 把文权重进而提高分类器的性能, 即提高网络信息分类的正本看作是一系列特征项 t 的集合, 对每个特征项赋予对确率 应的权值 特征项 t 1,t 2,,t n 可以看作是一个 n 维坐 2 文本分类的实现 2.1 文本分类流程 分词处理分词是使用分词算法把文本切割成单个字词 词语或短语的过程 对于英文文本来说, 单词是用空格分割的, 英文文本可以直接使用空格进行切分而不会产生歧义 但是, 中文文本的字 词 短语之间没有间隔, 它们是以连续的字符串形式呈现的 随着互联网和移动终端的普及, 以及微博 微信 QQ 等社交媒体的广泛使用, 类似于 戏精 二次元 等新词大量出现并迅速传播 网络媒体中出现的新词能反映出社会的热点事件, 当热点事件的热度降低时, 新词却仍可以保留 新词的出现使得中文分词的准确率降低, 由新词导致的分词错误率日益上升, 因此有必要将新词加入用户词典, 来提高分词的准确性 特征词选择当文档集中的中文文本数目过千时, 每篇文档分词所得的词语数量将会大大增加, 如果将这些词语全部作为特征项, 在后期计算机处理时, 将会大大增加程序运行的空间复杂度和时间复杂度 因此, 对分词结果进行特征降维尤为重要 特征降维的方法有两种, 一种是特征选择 (Feature Selection), 就是从原始全部的空间维度中选取最具表征信息的部分维度, 这个新的特征集是原始特征的子集 ; 另一种是特征提取 (Feature Extraction), 它通过一种映射 ( 或变换 ) 的方法将原始高维的特征向 [11] 量映射到低维的特征空间 本文使用特征提取来减少特征词的数量, 将文本数据转化为结构化的数据, 从而达到降维的目的 文本表示 标系, 而权值 w 1,w 2,,w n 表示其对应的坐标值, 每篇文档 d i 映射为该向量坐标空间中的一个特征向量 V(d i ) = (t 1,w i1 ; t 2,w i2 ; ; t n,w in ) 文档集总体的 VSM 表示见表 1 表 1 文本的向量空间模型 t 1 t 2 t 3 d 1 w 11 w 12 w 13 d 2 w 21 w 22 w d m w m1 w m2 w m3 2.2 文本分类算法文本分类算法是采用特定的训练方法训练类分类器, 当类分类器训练完成之后, 通过比较测试样本与类分类器的相似度, 判断其所属的预定义类别 目前存在多种基于 VSM 模型的分类算法, 常用的有 SVM 支持向量机算法, 朴素贝叶斯算法,K 近邻算法 (K-Nearest Neighbor,KNN) 在中文文本分类领域,SVM 算法对核函数的选择缺乏指导, 再加上核函数类型的限制, 难以对具体的分类问题选择最佳的核函数 在朴素贝叶斯算法中, 文本属于某个类别的概率等于该文本中每个词属于该类别概率乘积, 而每个词所属的类别概率是用该词在该类别训练文本中出现的概率近似表示 但是组成文本的词语并不是相互独立的, 而且该算法只有在训练样本数量非常多的情况下, 才会取得比较好的效果 K 近邻算法是基于某种距离度量找出训练集中与给定测试样本最靠近的 k 个训练样本, 然后综合这 k 个邻居的类别作为该测试样本所属类别 它能很好地适应分类标准的变化, 训练的时间复杂度比 SVM 算法低 ; t n w 1n w 2n w mn

3 ,55(2) 与朴素贝叶斯相比, 它对数据没有假设且对异常点不敏 感, 本文将采用 K 近邻算法来做文本分类 在文本表示中距离度量使用余弦相似度来代替, 余 弦相似度的值越大表示越相似 待分类文本 d i 与训练 集文本 d j 的相似度 Sim(d i,d j ) 计算公式如下 : Sim(d i,d j ) = æ ç è n k = 1 n w 2 ik k = 1 w ik w jk öæ ç øè Computer Engineering and Applications n w 2 jk k = 1 ö ø (1) 其中,w ik 表示待分类文本 d i 的特征向量,w jk 表示训 练集文本 d j 的特征向量,n 表示训练集中所有特征项 的个数 选取距离待分类文本 d i 最近的 K 个训练文本, 即 余弦相似度最大的 K 个样本 这里的 K 是经验值, 从 几十到几千不等, 一般可以根据样本的分布, 通过交叉 验证选取一个合适的 K 值 通过统计这 K 个训练文本 中属于类 c i 的文本权重 P(d,c i ) 的大小, 进一步判断它 们所属的预定义类别, 计算公式如下 : P(d,c i ) = d j KNN(d) Sim(d,d j ) f (d j,c i ) (2) f (d j,c i ) = ì í î 1,d j c i 0,d j c i (3) 公式 (3) 为类别判别函数, 如果 d j 属于 c i 类, 则该 项取 1, 否则取 0 比较各类权重 P(d,c i ), 将待分类文 本 d i 分到权重最大的类别中 3 传统的 TF-IDF 算法 3.1 特征项频率 TF TF(Term Frequency) 是词语在文档中出现的词 频 由于不同文档的长度不同, 这些频次差距较大, 因 此需要将其规范化, 从而使这些频次可以在同等的环境 下进行对比 为了实现规范化, 通常的做法是取频次和 其所在文档中所有单词总数的比值 3.2 逆文档频率 IDF 特征赋权的方式较多, 主要分为 均权 和 非均权 两类 均权 认为特征项在整个训练集中的重要程度相 同, 它们不会对分类结果产生任何实质性的影响, 所以 给所有的特征项赋予相同的权重 而 非均权 认为特 征项的重要程度不同, 可以通过赋权处理提升主要特征 项的作用, 降低次要特征项的作用 目前的研究接受度 较高的是 非均权 类方式, 其中最具代表性的就是 IDF 权 逆文档频率 IDF(Inverse Document Frequency) 表 示给定单词的重要性, 其主要思想是如果某个特征项在 一个文本中出现频率很高, 同时在其他文本中出现的频 率低, 说明此特征项具有很好的类别区分能力, 应该给 予较高的权重 [14] 当需要计算词频时, 先假定所有单词 是同等重要的 这时, 为了抗衡那些经常出现的单词的 频率, 需要用一个系数将其权重变小, 逆文档频率 IDF 就是对文档总数目和该单词出现的文档数目的比值取 对数 3.3 特征项的长度信息 特征项长度可以作为衡量该特征项重要程度的一 个关键因素 中文分词后的统计结果表明 : 出现频率最 高的是单字词, 出现频率较低的是多字词 事实表明单 字词所能表达的信息很少 ; 而多字词却可以表达大量信 息, 相对的它们的重要度也较高 一般来说, 较长的特 征项可以表示专指的概念, 比如 九华山风景区 专指 旅游, 因此需要给这样的多字段词以更高的权重 3.4 传统 TF-IDF 算法的不足 传统的 TF-IDF 算法主要考虑特征项的 TF 和 IDF 两 个方面的信息, 而 TF 和 IDF 都未考虑到新兴词汇的特 殊性 新词的发现不仅可以丰富中文语料库 帮助解决 一些中文分词过程中出现的歧义切分的问题, 提高中文 分词的准确度 而且, 根据特定情境产生的新词往往能 更准确地表达相关概念, 提高以词语为特征项的向量空 间模型的表达能力, 从而进一步提高中文文本特征向量 的质量 [15] 因此本文针对现有的特征权重算法未考虑 到文本表达方式变化所产生的新词的影响, 提出了基于 新词发现特征权重算法的改进策略 4 改进的 TF-IDF 算法 4.1 TF-IDF 算法公式 TF-IDF 表示的是 TF IDF 其表达式为 : w dt = tf dt lg(n/n t ) (4) 其中,w dt 为特征项 t 在文本 d 中的权重,tf dt 为特征项 t 在文本 d 中出现的频率,N 为文本语料库中文本的总 数,n t 为文本语料库中包含特征项 t 的文本数 TF 指特征项在文档中出现的频次, 在这种定义下 会出现某个词语在长文本中出现的频次比短文本中出 现频次高, 和小数据集 lg 函数为零的情形 所以在实际 处理过程中应避免 TF 对长文本的偏袒, 通过取频次和 文档中所有单词个数的比值对 TF 规范化, 基于此将公 式 (4) 改进为 : w dt =(m dt /M t ) lg(n/n t ) (5) 其中,m dt 表示特征项 t 在文本 d 中出现的次数,M t 表 示文本 d 中的词语总数, 其他参数与公式 (4) 中相同 目前 TF-IDF 最常用的是一种名为 TFC [16] 的改进算 法, 该算法在避免对长文本偏袒的同时, 将特征词的权 重归一化 众多学者的研究中提到的 TF-IDF 算法都是 指改良之后的计算公式, 其中 TFC 的应用最为广泛, 其 表达式为 :

4 叶雪梅, 等 : 文本分类 TF-IDF 算法的改进研究 2019,55(2) 107 w dt = K P = 1 tf dt lg(n/n t ) [tf dt lg(n/n t )] 2 (6) 其中,K 为文本 d 中特征项的个数, 其他参数与公式 (4) 中相同, 本文基于新词的独特性在公式 (6) 的基础上提 出改进 4.2 新词集合的构建 新词的发现主要有两种方法 : 一种是使用统计方法 通过对词共现的概率进行统计而得, 另一种是基于规则 的方法使用标注字典以及组词规则来识别新词 [17] 本 文综合两种方法, 使用 NLPIR PARSE 中文分词工具完 成新词发现与自适应分词功能 在新词集合构建中需要考虑计算新词与类别标识 名之间的相似度 词语相似度计算方法主要可分为两 大类 : 一类是基于词典, 多是利用词典中现有的层次关 系来计算词语之间的相似度 ; 另一类是基于大规模语料 库, 多是利用上下文的特征, 用向量表示词语来进一步 计算词语之间的相似度 [18] 但是新词暂未加入词典, 也 不在已有的中文语料库中, 因此无法使用现有的词语相 似度计算方法计算新词与类别标识名之间的相似度 基于此, 本文在新词的构建过程中, 对整体实验语料进 行处理, 把所有新词存放在一个文档中, 然后剔除与分 类主题无关的新词, 如 : 新闻来源 发表时间等 4.3 特征权重算法的改进 特定情境下的新词往往更能表达出文本信息, 对新 词赋予更高的权重将会优化分类结果 加大网络新词 的权重是特征提取的进一步工作, 它是在特征提取之 后, 对信息含量大的特征项赋予更高的权重, 目的是提 高分类的准确率但是没有减少特征向量的维度 而主 成分分析 (PCA) 法, 是特征提取的经典方法之一, 该方 法将原始的 n 维特征映射到 k 维空间上 (k < n), 这 k 维 特征是利用协方差矩阵对特征值分解, 得到前 k 个大的 特征值所对应的特征向量, 是全新的正交特征, 目的是 使信息丢失量小的同时较好地表达了原始样本的信息 并且减少了特征向量的维度 本文基于新词的重要性 及特殊性在公式 (6) 的基础上进行改进, 提出 NewTFIDF 公式, 见公式 (7): w' dt = K P = 1 tf dt lg(n/n t ) + len(t) [tf dt lg(n/n t )] 2 + len(t) (7) 其中 len(t) 指的是新词的长度,w' dt 指采用 NewTFIDF 计算出的特征项 t 在文本 d 中的权重, 其他参数与公 式 (4) 中相同 将分子, 分母同时加上 len(t) 将会提高特 征项 t 在文本 d 中的权重 特征词集合 (Term), 是新词集合 (NewTerm) 和普通 特征词集合的并集 普通特征词和新词将会选用不同 的权重计算方法, 当特征项属于 NewTerm 时, 使用公 式 (7) 计算特征项的权重 ; 否则, 使用公式 (6) 计算特征 项的权重, 得到公式 (8): w dt (t Term)= ì í î w' dt,t NewTerm w dt,t NewTerm (8) 改进的特征权重算法对特征项的赋值过程如下 : (1) 把文档 d 转化为词频向量 (2) 导入特征提取器, 提取特征并构建特征词典 TermDict (3) 对于文档 d 中的特征项 t, 判断它属于新词集 合还是普通特征词集合 (4) 若 t 属于新词集合, 使用公式 (6) 计算特征权 重 ; 否则使用公式 (7) 计算特征权重 图 1 (5) 根据 (4) 的结果, 将词频向量转化为特征向量 基于新词改进的 TFIDF 算法的文本分类流程图如 5 实验分析 5.1 实验语料 本文使用网络爬虫从新浪网新闻中心上抓取新闻 数据构成实验语料, 该平台提供全面及时的新闻资讯, 内容覆盖国内外突发新闻事件和重大新闻事件 实验 语料包含 4 个话题, 分别为 暴恐事件, 踩踏事故, 火灾, 九华山, 共 篇新闻 网页数据是由 HTML 文本语料库 预处理 文本分词 新词发现 文本表示 词频矩阵 特征选择 特征矩阵 新词 否 是 NewTFC 矩阵 新词 TFC 矩阵 文本分词 训练语料库 测试结果 测试语料库 预测 分类器 分类及预测 分类器训练 图 1 基于新词改进的 TFIDF 算法的文本分类流程图

5 ,55(2) 标签和文字段落组成的非结构数据, 实验中对网页标记 和特殊符号进行处理, 提取出其中的文字信息, 除去图 集新闻 视频新闻和重复报道后, 共得到 篇只包含 搜索关键字的新闻片段文章作为本实验的数据集 实 验采用随机取样的方式,75% 的数据用于训练分类器, 25% 的数据用于测试分类结果 ( 即训练集样本数量为 3 000, 测试集样本数量为 1 000) 5.2 实验流程 基于新词改进的 TFIDF 算法的文本分类流程 : (1) 预处理 1 文本分词, 去除停用词 无意义的虚词还有标点 符号, 如 的, 了, 吗,?,!,, 等 本文采用 NLPIR PARSER 中文分词工具, 它分词速度快, 准确度 Computer Engineering and Applications 高, 具有命名实体识别和关键词提取功能, 最重要的是 该工具具有新词发现功能 2 采用基于信息交叉熵算法发现新词, 经过筛选 后, 把新词加入用户词典 本文对整体实验语料进行处 理, 把所有新词存放在一个文档中, 然后把诸如 央行网 站, 发布消息, 中新网 9 月, 新华社快讯 等与分 类主题无关的新词剔除, 这样便完成了新词集合的构建 3 导入用户词典重新分词 这时便可识别诸如 朝觐者踩踏事故, 打击暴恐, 四大佛教名山, 外 滩踩踏事件 等能看出包含文本信息的新词 选择 (2) 文本表示 1 把文本转换为对应的词频矩阵 2 使用特征提取方法提取重要特征来完成特征 3 定义 TF-IDF 变换器把词频矩阵转换为 TFIDF 矩 阵, 针对特征词的种类不同, 使用不同的特征权重算法 4 完成文本的向量空间表达, 得到其特征向量 (3) 分类及预测 1 针对实验语料, 分析选择 KNN 算法最佳的 K 值 和投票策略 2 使用特征向量训练分类器 3 用训练所得的分类器预测测试语料所属的类别 本实验采用 KNN 分类算法做了三次实验 第一次 实验, 用 NLPIR PARSER 中文分词工具对原始文档集 进行分词处理, 然后采用传统的 TF-IDF 算法为特征权 重赋值 ; 第二次实验仍然使用 NLPIR PARSER 中文分 词工具对原始文档进行处理, 不同的是在处理的过程中 发现新词, 然后将筛选后的新词加入用户词典中, 导入 用户词典重新对原始文档集进行分词处理, 对特征权重 赋值依然采用传统的 TF-IDF 算法 ; 第三次实验在实验 二的基础上, 增加对特征词的词类判断步骤, 对普通特 征项权重赋值使用传统的 TF-IDF 算法, 对新词使用改 进的 NewTFIDF 算法赋权值 实验过程中对 K 近邻分类模型中的最近邻的数量 K 值和投票策略 weights 这两个参数进行分析选择 图 2 为实验效果随 K 值及不同投票策略变化的情况 score 图 2 从图 2 可以看出, 使用 uniform 投票策略 ( 即投票权 重都相同 ) 的情况下, 分类器随着 K 的增长, 预测性能 先是缓慢下降, 然而当 K 在 左右的位置, 预测性 能是急速下降 这是因为当 K 增大时, 输入实例较远 的训练实例也会起到预测作用, 从而使预测发生错误 在使用 distance 投票策略下 ( 即投票权重与距离成反 比 ), 分类器随着 K 的增长, 对测试集的预测性能相对 比较稳定 这是因为虽然 K 增大时, 输入实例较远的 训练实例对预测起作用, 但因为距离较远, 其影响会小 很多 当判断文章所属类别时,K 越大, 计算代价越高 经过分析比较, 本实验设定参数 K=20,weights=distance 在参数设定的情况下, 用 KNN 分类算法分别执行上述 的三个实验过程 5.3 评价标准 对于文本分类的性能评估测试, 国际上通用的评价 指标为精度 (Precision) 召回率 (Recall) 和 F1 得分 (F1 score) 精度 ( 又称查准率 ) 是指被分类器正确分类的样本 数量占分类器总分类样本数量的百分比, 分类器在类 c i 上的精度定义如下 : P i = N cpi N pi (9) 其中,N cpi 是分类器正确分类的文档数,N pi 是分类器 预测为 c i 类的文档数 召回率 ( 又称查全率 ) 是指应被正确分类的样本数 量占某分类总样本数量的百分比, 分类器在类 c i 上的召 回率定义如下 : R i = N cpi N ci (10) 其中,N ci 是实际属于 c i 类的文档数 查准率和查全率 是衡量分类效果的两个不同指标, 它们是二律背反的, 为使这两个指标相对均衡, 引入 F1 值 对类别 c i, 其 F1 值为 : testing score:weights=uniform training score:weights=uniform testing score:weights=distance training score:weights=distance K 实验效果随 K 值及不同投票策略变化的情况

6 叶雪梅, 等 : 文本分类 TF-IDF 算法的改进研究 2019,55(2) 109 F1 = 2R i P i (11) R i + P i 此外还有宏平均, 微平均两种来计算 P,R,F1 的方 法 本实验记录 KNN 分类器的查准率 查全率 F1 值 和宏平均值, 最终采用 F1 值和宏平均值作为评价标准 5.4 实验结果及分析 实验结果 根据实验结果随机给出 8 个新词, 以及它们在测试 集中的使用传统的 TFIDF 算法和基于新词改进的 NewTFIDF 算法的值以示参考, 见表 2 表 2 将 暴恐事件, 踩踏事故, 火灾, 九华山 分别 记为 类别 1, 类别 2, 类别 3, 类别 4 表 3 和图 3 中 TFIDF 代表实验一的过程, 即直接对文档集分词并采 用传统的 TF-IDF 特征权重算法 ;TFIDF&NewTerm 代表 实验二的过程, 即在分词过程中加入新词发现的过程并 采用传统的 TFIDF 特征权重算法 ;NewTFIDF&New- Term 代表实验三的过程, 即在分词过程中加入新词发 现的过程, 但是采用的是基于新词发现改进的 TFIDF 算 法 为了避免实验的偶然性, 每组实验独立重复进行 5 次, 以其算数平均值为最终的性能指标, 分别记录每组 实验中这四个类别对应的 P 值,R 值,F1 值和宏平均 值 ( 记为 avg/total), 见表 3 图 3 在表 3 的基础上通过一 个对比图来直观表示分类效果 结果分析 NewTerm 踩踏事故 暴恐分子 朝觐者踩踏事故 暴恐音视频 中国佛教四大名山 网上暴恐 风景名胜区 消防人员 类别标号 avg/total 传统的 TFIDF 算法和基于新词改进的 NewTFIDF 算法对应的新词权重对比表 (1) 在实验中发现未加入新词发现过程时, 特征项 的总数量是 ; 而加入新词发现过程后, 特征项的 总数量是 9 759, 实验表明把新词发现加入文本预处理 的过程中能减少特征词的数量, 达到特征降维的目的 (2) 从表 3 中可得实验一 F1 的宏平均值为 92.14%, 实验二 F1 的宏平均值为 96.41%, 实验三 F1 的宏平均 P TFIDF 表 3 TFIDF R TFIDF 和 NewTFIDF 的 KNN 评价指标对比 NewTFIDF F P TFIDF&NewTerm R F1/% F 值为 98.40%, 对比发现实验一的分类效果相对较差, 实 验三的分类效果相对较好 其中实验二的 F1 值比起实 验一的 F1 值均有明显的提升, 其中 暴恐事件 提升了 2.66%, 踩踏事故 提升了 0.38%, 火灾 提升了 4.57%, 九华山 提升了 9.85%; 同时实验三的 F1 值比实验二 也有所提升, 其中 暴恐事件 提升了 1.79%, 踩踏事 故 提升了 2.72%, 火灾 提升了 2.11%, 九华山 提升 了 1.30% 从图 3 中也可以明确看出 TFIDF 和 NewTerm 相结合的分类能力优于 TFIDF, 同时 NewTFIDF 和 NewTerm 相结合的分类能力又优于 TFIDF 和 NewTerm 相结合的 通过实验对比可得, 发现新词并把它们加入 分词过程中能使分类结果有所提升, 而且在发现新词的 同时给它们赋予更高的权重又能进一步优化分类结果 6 结束语 本文通过对搜索关键字按相关度排序, 抓取包含搜 索关键字的新闻片段作为实验语料库 在文本预处理 中识别新词并对其进行筛选, 进而在文本表示中, 针对 新词和关键词采用不同的权重赋值公式 最后对 KNN 分类模型中的重要参数进行分析比较, 选择恰当的参数 去完成文本分类实验 实验结果表明, 将新词发现加入 文本预处理过程能降低特征空间的维度, 同时基于新词 发现改进的 TF-IDF 特征权重算法能有效提高分类器性 能, 优化分类结果 参考文献 : NewTFIDF&NewTerm [1] 郑霖, 徐德华. 基于改进 TFIDF 算法的文本分类研究 [J]. 计 算机与现代化,2014(9):6-9. P R TFIDF TFIDF&NewTerm NewTFIDF&NewTerm % F 分类类别 图 3 实验结果对比图 ( 下转第 161 页 )

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位 自然科学版 文章编号 视网膜图像中视盘的快速自动定位方法 赵晓芳 林土胜 李碧 摘 要 基于眼底视网膜血管的分布结构及视盘本身的特点 提出一种快速自动定位视盘的方法 首先根据视网膜血管的网络分布结构大致定位视盘的垂直坐标 然后根据视盘 的亮度信息及视盘与血管的关系来定位视盘的水平坐标 最后把视盘限定在以粗定位的视盘为中心的一个小窗口内 用 变换精确定位视盘中心 该方法不需要事先分割视网膜血管 也不需要对算法进行训练

More information

摘要 随着 Internet 的迅猛发展和日益普及, 网络文本信息急剧增长, 如何有效的 组织和管理这些海量信息, 并能够快速 准确 全面地获得用户所需要的信息是 当今信息科学技术领域面临的一大挑战 文本分类作为处理和组织大量文本数据 的关键技术, 可以在较大程度上解决信息杂乱现象的问题, 方便用户准确地定位 所需要的信息和分流信息 而且作为信息过滤 信息检索 搜索引擎 文本数据库 数字化图书馆等技术基础,

More information

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析 电子科学技术电子科学技术第 02 卷第 03 期 Electronic 2015 年 Science 5 月 & Technology Electronic Science & Technology Vol.02 No.03 May.2015 年 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 刘高军, 李丹, 程利伟, 钱程, 段然 ( 北方工业大学计算机学院, 北京,100144)

More information

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table 38 2 2010 4 Journal of Fuzhou University Natural Science Vol 38 No 2 Apr 2010 1000-2243 2010 02-0213 - 06 MLP SVM 1 1 2 1 350108 2 350108 MIP SVM OA MLP - SVM TP391 72 A Research of dialectical classification

More information

1988 11 20 1 ( ) ( ) ( ) ( ) 2 ( ) (, ) 3 ( ) ( ) ( ) ( ) ò ò ó í è

More information

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多 2014 年 4 月 图 学 学 报 April 2014 第 35 卷 第 2 期 JOURNAL OF GRAPHICS Vol.35 No.2 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 王 向 东 1, 张 静 文 2, 毋 立 芳 2, 徐 文 泉 (1. 国 家 体 育 总 局 体 育 科 学 研 究 所, 北 京 100061;2. 北 京

More information

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

2015 年 第 24 卷 第 11 期  计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临 计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2015 年 第 24 卷 第 11 期 1 面 向 电 子 病 历 中 文 医 学 信 息 的 可 视 组 织 方 法 徐 天 明 1,2, 樊 银 亭 3, 马 翠 霞 1, 滕 东 兴 1 ( 中 国 科 学 院 软 件 研 究 所 人 机 交 互 技 术 与 智 能 信 息 处 理 实 验 室, 北 京 100190)

More information

Microsoft Word - A201210-60_1349949005.doc

Microsoft Word - A201210-60_1349949005.doc 5 10 15 20 25 一 种 针 对 在 线 旅 游 线 路 网 页 判 别 算 法 的 研 究 与 实 现 徐 显 炼, 郭 燕 慧 ( 北 京 邮 电 大 学 信 息 安 全 中 心, 北 京 100876) 摘 要 : 随 着 近 年 来 在 线 旅 游 业 的 快 速 发 展, 在 线 旅 游 搜 索 引 擎 己 经 成 为 当 前 搜 索 引 擎 发 展 的 一 个 热 门 方 向

More information

标题

标题 第 19 卷 摇 第 4 期 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 模 式 识 别 与 人 工 智 能 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Vol. 19 摇 No. 4 摇 006 年 8 月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 PR & AI 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Aug 摇 摇

More information

1 引言

1 引言 P P 第 40 卷 Vol.40 第 7 期 No.7 计 算 机 工 程 Computer Engineering 014 年 7 月 July 014 开 发 研 究 与 工 程 应 用 文 章 编 号 :1000-348(014)07-081-05 文 献 标 识 码 :A 中 图 分 类 号 :TP391.41 摘 基 于 图 像 识 别 的 震 象 云 地 震 预 测 方 法 谢 庭,

More information

5 551 [3-].. [5]. [6]. [7].. API API. 1 [8-9]. [1]. W = W 1) y). x [11-12] D 2 2πR = 2z E + 2R arcsin D δ R z E = πr 1 + πr ) 2 arcsin

5 551 [3-].. [5]. [6]. [7].. API API. 1 [8-9]. [1]. W = W 1) y). x [11-12] D 2 2πR = 2z E + 2R arcsin D δ R z E = πr 1 + πr ) 2 arcsin 38 5 216 1 1),2) 163318) 163318). API. TE256 A doi 1.652/1-879-15-298 MODE OF CASING EXTERNA EXTRUSION BASED ON THE PRINCIPE OF VIRTUA WORK 1) ZHAO Wanchun,2) ZENG Jia WANG Tingting FENG Xiaohan School

More information

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系 电子科学技术 Electronic Science & Technology 电子科学技术第 02 卷第 05 期 2015 年 9 月 Electronic Science & Technology Vol.02 No.05 Sep.2015 年 一种卫星遥测在线状态监测及分析系统的设计 董房 1,2, 刘洋 2, 王储 2 2, 刘赞 (1. 上海交通大学, 上海,200240; 2. 上海卫星工程研究所,

More information

FinalZUBAN.dvi

FinalZUBAN.dvi 第 50 卷 第 6 期 2014 年 12 月 兰 州 大 学 学 报 ( 自 然 科 学 版 ) Journal of Lanzhou University (Natural Sciences) Vol. 50 No. 6 Dec. 2014 文 章 编 号 : 0455-2059(2014)06-0892-05 基 于 Hadoop 的 Web 文 本 分 类 系 统 设 计 研 究 赵 文

More information

ó ì ì ò = 4( +5 / 3 ) 3 12.478 = 2.32 23.2 (47) 1 365 4 1 4 1 19 365 1 365 4 = 29 499 4 235 940 V M = 1 3300 182 M M á

More information

ó ì ì ò = 4( +5 / 3 ) 3 12.478 = 2.32 23.2 (47) 1 365 4 1 4 1 19 365 1 365 4 = 29 499 4 235 940 V M = 1 3300 182 M M á

More information

基于 SVM 的地理试题自动分类 作者机构基金项目预排期卷摘要关键词作者简介中图分类号访问地址发布日期 朱刘影, 杨思春安徽工业大学计算机科学与技术学院安徽省高校自然科学研究重点项目 (KJ2016A098) 计算机应用研究 2018 年第 35 卷第 9 期针对地理课程自动解题, 采用 SVM 学

基于 SVM 的地理试题自动分类 作者机构基金项目预排期卷摘要关键词作者简介中图分类号访问地址发布日期 朱刘影, 杨思春安徽工业大学计算机科学与技术学院安徽省高校自然科学研究重点项目 (KJ2016A098) 计算机应用研究 2018 年第 35 卷第 9 期针对地理课程自动解题, 采用 SVM 学 基于 SVM 的地理试题自动分类 作者机构基金项目预排期卷摘要关键词作者简介中图分类号访问地址发布日期 朱刘影, 杨思春安徽工业大学计算机科学与技术学院安徽省高校自然科学研究重点项目 (KJ2016A098) 计算机应用研究 2018 年第 35 卷第 9 期针对地理课程自动解题, 采用 SVM 学习算法实现地理试题自动分类 通过采用 TF-IDF 技术提取地理试题文本中的特征关键词, 并选取 LIBSVM

More information

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli 1 2 3 1. 310030 2. 100054 3. 116000 CFS BP doi 10. 13928 /j. cnki. wrahe. 2016. 04. 020 TV697. 1 A 1000-0860 2016 04-0088-05 Abandoned water risk ratio control-based reservoir pre-discharge control method

More information

张成思 本文运用向量系统下的协整分析方法 针对 年不同生产和消 费阶段的上中下游价格的动态传导特征以及货币因素对不同价格的驱动机制进行分析 研究结果表明 我国上中下游价格存在长期均衡关系 并且上中游价格对下游价格具有显 著动态传递效应 而下游价格对中游价格以及中游价格对上游价格分别存在反向传导的 倒逼机制 另外 货币因素对上游价格的动态驱动效果最为显著 但并没有直接作用于下 游价格 因此 虽然货币政策的现时变化可能在一段时间内不会直接反映在下游居民消费价格的变化上

More information

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) = 2007 4 4 :100026788 (2007) 0420114206, (, 430074) :,,,,,,GIS.,,. : ; ; ; ; : TP391 ;P338 : A Development of Combinatorial Intelligentized Decision2Making Support System and Its Utilization in Runoff Forecasting

More information

í í í é é é è è í í í é é í é è è í è í í è í é í í è é è é è è é é é í è è

More information

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :, 3 1 Vol. 3. 1 2008 2 CAA I Transactions on Intelligent Systems Feb. 2008, (,210093) :.,; 3., 3. :; ; ; ; : TP391 :A :167324785 (2008) 0120001208 A system f or automatic generation of 3D building models

More information

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz 31 3 Vol. 31 No. 3 218 9 Journal of Shijiazhuang Tiedao University Natural Science Edition Sep. 218 1 1 2 1 2 1 1. 543 2. 543 U462. 3 217-2 - 16 A 295-373 218 3-63 - 6 1-4 5-7 8-11 1 11 11 398 mm 86 mm

More information

Microsoft Word - 122046.doc

Microsoft Word - 122046.doc 第 38 卷 第 20 期 Vol.38 No.20 计 算 机 工 程 Computer Engineering 2012 年 10 月 October 2012 人 工 智 能 及 识 别 技 术 摘 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 汤 亚 玲 1, 崔 志 明 (1. 安 徽 工 业 大 学 计 算 机 学 院, 安 徽 马 鞍 山 243002;2.

More information

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN 21 11 2011 11 COMPUTER TECHNOLOGY AND DEVELOPMENT Vol. 21 No. 11 Nov. 2011 510006 PEN3 5 PCA + PCA+LDA 5 5 100% TP301 A 1673-629X 2011 11-0177-05 Application of Electronic Nose in Discrimination of Different

More information

æ æ æ æ æ æ 1.1 y x 2 æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ æ

More information

028 1982 285 1981 826 1982 335 272 277 2171528 1982 335 338 339 1988 3 1 1974 1 1973 2 115 116 1330 è 1975 2 335 1973 203 333 179 1983 1984 10 197 198 1990 2 é ò 1978 222 1985

More information

ò í ú ó ì à ò è 5500 500 2 5500 x 23 50 2 5 2 5 9 5 10 9 5 9 9 4 4 10 64 9 9 74 10 1 5 2 1 9 5 5 4 9 7 1 5 1 3 2 1 3 1 5 1 3 1 5 1 1 5 1 3 1 1 1 4 1 4 2 40 40 1

More information

. 3. MOOC 2006 MOOC Automated Text Marker 2014 e-rater Yigal et al MOOC Coursera Edx 97

. 3. MOOC 2006 MOOC Automated Text Marker 2014 e-rater Yigal et al MOOC Coursera Edx 97 23 3 2017 6 Open Education Research Vol. 23 No. 3 Jun. 2017 1 2 1 2 1. 100875 2. 100875 PPT G434 A 1007-2179 2017 03-0096-09 Coursera Edx MOOC 100 2 3- social network services SNS 4 2008 2009 2017-03-

More information

á á á ú é ó é é á í í á ú á é á á í í é

More information

ú ì à ì ù ù é à à à í ú ì ì à í à é ì ó à è à ù ì é á ù ú ò ù ù ò

More information

长 安 大 学 硕 士 学 位 论 文 基 于 数 据 仓 库 和 数 据 挖 掘 的 行 为 分 析 研 究 姓 名 : 杨 雅 薇 申 请 学 位 级 别 : 硕 士 专 业 : 计 算 机 软 件 与 理 论 指 导 教 师 : 张 卫 钢 20100530 长安大学硕士学位论文 3 1 3系统架构设计 行为分析数据仓库的应用模型由四部分组成 如图3 3所示

More information

è

è è à à à í á à à ì ú ú á ú ú ì ì í ù í à ú è ò ò ì ù ì à ì à í ì ì è è è é à ì é é á è í í à ì è ì ú í ù ì ò è à í ì à á è ì ó ú è é é ì é ì ì ì ú ó ì à ú á

More information

涓浗鏂囧寲

涓浗鏂囧寲 第 三 部 分 中 国 文 化 一 选 择 题 111. 中 国 古 代 伟 大 的 思 想 家 和 教 育 家 被 联 合 国 教 科 文 组 织 列 为 世 界 十 大 文 化 名 人 之 一 A. 庄 子 B. 老 子 C. 韩 非 子 D. 孔 子 答 案 :D 112. 第 一 部 被 介 绍 到 西 方 去 的 中 国 古 代 戏 曲 是, 它 是 著 名 的 元 杂 剧 四 大 悲 剧

More information

ttian

ttian í á é ì ì ì ó á ú è ù ó è á á é ì ú á á ò á è è ó é è ì á à á

More information

í í à ù à à í è è ú ì á á í à ú á è á ú à é à ù ú ì ì ì ò í è ì ì í ì ì ì è ì ì à é ó ò ó ú é ì ù ì í ó è ì à è á à ì à à à í í é á à ù ì ò ì é ú í í à à à à

More information

ì

ì ì ó à á à í é é è ú à ú ù è í ù è á ú é ù í é à ú á à í ó ò è ì ì é à à á ò à ú è ó á à í ù ú ì ì í ì á è ù ù ò ó á ì ì à è á á ì à ó è ì á ì ì à é ì ó é à ú í ì í á à á

More information

1989 67 1993 125 305 1989 251 1964 8 1990 231 1983 608 1987 207 1990 6 ú é ì à í à ó 1990 51 é í í ù è ì ò ú à ù ó ú è í à ì è è è í á ó ì á á ò ì á ò

More information

ò à í é ì è ì é á à è à è è ì á á à à à

More information

ò ó ì á è ó

ò ó ì á è ó ò ó ì á è ó à à è ì è á ó ì à ì à à à á ì ó à ì ì è ó à ú ì í í á ù ò ò í ì ó à ò ú ó ì à à à à à à í á ì ù ù è ù è ò è ù é à

More information

ó ú à ù á í í ì ì ù á ù í í ò ó ú ù à ì ì è á í í ì è á ù è ì à ú ì ù ì í à ì ì ó ì ì è ì è á ó à ó ò é ú? à á á ú á í é ì é ì á à á ù á à ò á ò é ù? ì

More information

030 í á ì ú è ì à é ù ò í í ú ù ù á í í ì ù ó ù ì è à é é ú í ì ù ì è ò á à ì ì ì ì ì á ú ì é í í é ò í ì é è ú ú í é ú è à è è à è ó à ò ù à à ù ó ì ì ì à à ù à á ú á ì á ù ù è

More information

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L 一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE LOIS2016-85(2017-03) Technical Report INFORMATION AND

More information

é ú í í à á í à ù à é ó à è á ù á à à ì á á à é í á ò è ì í ì ù à é ì ì à à è ù é à ù à é ú ì ú ù 1 1 3 4

More information

ú á à à á á è ù? ì í ì á ì ò é? é à ì? à ó é à ì à à ì é í ì è? à ì á ú ó á á ì ù ì è ù

More information

Microsoft Word - 专论综述1.doc

Microsoft Word - 专论综述1.doc 2016 年 第 25 卷 第 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 1 基 于 节 点 融 合 分 层 法 的 电 网 并 行 拓 扑 分 析 王 惠 中 1,2, 赵 燕 魏 1,2, 詹 克 非 1, 朱 宏 毅 1 ( 兰 州 理 工 大 学 电 气 工 程 与 信 息 工 程 学 院, 兰 州 730050) 2 ( 甘 肃 省 工 业 过 程 先

More information

ò ú ó ó ú ó ú ó ú ú ó G L E = G W à è í ü í ü ü á á á á á á á á

More information

Lecture5-Classification.pptx

Lecture5-Classification.pptx 内容回顾 试解释基于用户反馈的查询扩展 试解释自动查询扩展的工作原理 试计算 acb 和 abd 的编辑距离 (Edit distance) 1 信息检索原理 课程 第五讲文本分类与聚类技术 授课人 : 孙海龙 2016.10.21 1 提纲 文本分类概述 无监督的机器学习算法 有监督的机器学习算法 3 概述 物以类聚 : 对于大量的文档, 如何能够按照某个主题进行搜索 按照共同的主题对文档进行分组

More information

第期 陈功平等!基于内容的短信分类技术 短 信 的 主 体 内 容 由 文 本 组 成因 此 可 以 把 短 信 的分类转化为对短 信 文 本 的 分 类本 文 将 短 信 分 为 和垃圾 短 信 在 文 本 分 类 算 法 中贝 叶 斯 方法拥有很多的优 势并 且 在 垃 圾 邮 件 过 滤 方

第期 陈功平等!基于内容的短信分类技术 短 信 的 主 体 内 容 由 文 本 组 成因 此 可 以 把 短 信 的分类转化为对短 信 文 本 的 分 类本 文 将 短 信 分 为 和垃圾 短 信 在 文 本 分 类 算 法 中贝 叶 斯 方法拥有很多的优 势并 且 在 垃 圾 邮 件 过 滤 方 华 东 理 工 大 学 学 报 自 然 科 学 版!!!!!! ^ F! O Y 6 M J F 6 M S!! 文章编号 基于内容的短信分类技术 陈功平!!! 沈明玉!! 王! 红!!! 张燕平 合肥工业大学计算机与信息学院!合肥 安徽大学计算机科学与技术学院! 合肥 六安职业技术学院信息工程系!安徽 六安!! 摘要研究了 一 种 基 于 改 进 贝 叶 斯 算 法 的 短 信 分 类 方 法 对

More information

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1 C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 月 3 日 1 1 INPUTOUTPUT 1 InputOutput 题目描述 用 cin 输入你的姓名 ( 没有空格 ) 和年龄 ( 整数 ), 并用 cout 输出 输入输出符合以下范例 输入 master 999 输出 I am master, 999 years old. 注意 "," 后面有一个空格,"." 结束,

More information

关 于 学 生 手 册 的 说 明 为 规 范 南 开 大 学 现 代 远 程 教 育 学 院 各 项 教 学 教 务 管 理, 加 强 对 学 习 中 心 管 理 人 员 的 工 作 指 导, 特 汇 编 本 学 生 手 册 学 院 将 根 据 实 际 情 况, 不 断 修 订 完 善 该 学 生

关 于 学 生 手 册 的 说 明 为 规 范 南 开 大 学 现 代 远 程 教 育 学 院 各 项 教 学 教 务 管 理, 加 强 对 学 习 中 心 管 理 人 员 的 工 作 指 导, 特 汇 编 本 学 生 手 册 学 院 将 根 据 实 际 情 况, 不 断 修 订 完 善 该 学 生 南 开 大 学 现 代 远 程 教 育 学 院 School of Modern Distance Education, Nankai University ( 教 学 教 务 管 理 规 定 ) 学 生 手 册 ( 内 部 资 料 ) 二 一 年 十 二 月 汇 编 关 于 学 生 手 册 的 说 明 为 规 范 南 开 大 学 现 代 远 程 教 育 学 院 各 项 教 学 教 务 管 理, 加

More information

27 :OPC 45 [4] (Automation Interface Standard), (Costom Interface Standard), OPC 2,,, VB Delphi OPC, OPC C++, OPC OPC OPC, [1] 1 OPC 1.1 OPC OPC(OLE f

27 :OPC 45 [4] (Automation Interface Standard), (Costom Interface Standard), OPC 2,,, VB Delphi OPC, OPC C++, OPC OPC OPC, [1] 1 OPC 1.1 OPC OPC(OLE f 27 1 Vol.27 No.1 CEMENTED CARBIDE 2010 2 Feb.2010!"!!!!"!!!!"!" doi:10.3969/j.issn.1003-7292.2010.01.011 OPC 1 1 2 1 (1., 412008; 2., 518052), OPC, WinCC VB,,, OPC ; ;VB ;WinCC Application of OPC Technology

More information

9, : Java 19., [4 ]. 3 Apla2Java Apla PAR,Apla2Java Apla Java.,Apla,,, 1. 1 Apla Apla A[J ] Get elem (set A) A J A B Intersection(set A,set B) A B A B

9, : Java 19., [4 ]. 3 Apla2Java Apla PAR,Apla2Java Apla Java.,Apla,,, 1. 1 Apla Apla A[J ] Get elem (set A) A J A B Intersection(set A,set B) A B A B 25 9 2008 9 M ICROEL ECTRON ICS & COMPU TER Vol. 25 No. 9 September 2008 J ava 1,2, 1,2, 1,2 (1, 330022 ; 2, 330022) :,. Apla - Java,,.. : PAR ;Apla - Java ; ;CMP ; : TP311 : A : 1000-7180 (2008) 09-0018

More information

2011年上海市高校精品课程申报表(本科)

2011年上海市高校精品课程申报表(本科) 2012 年 度 上 海 高 校 市 级 精 品 课 程 申 报 表 ( 本 科 ) 学 校 名 称 课 程 名 称 课 程 类 型 上 海 电 机 学 院 数 据 库 原 理 及 应 用 理 论 课 ( 不 含 实 践 ) 理 论 课 ( 含 实 践 ) 实 验 ( 践 ) 课 所 属 一 级 学 科 名 称 工 学 所 属 二 级 学 科 名 称 课 程 负 责 人 计 算 机 科 学 与 技

More information

Microsoft Word - 全文.doc

Microsoft Word - 全文.doc 在 鲜 于 璜 碑 全 国 书 法 名 家 作 品 邀 请 展 开 幕 式 上 的 致 辞 张 勇 尊 敬 的 各 位 领 导 各 位 嘉 宾 书 法 界 的 朋 友 们 : 大 家 上 午 好! 天 高 气 爽, 秋 月 墨 香 今 天, 鲜 于 璜 碑 全 国 书 法 名 家 作 品 邀 请 展 开 幕 式 在 武 清 隆 重 举 行, 这 是 书 法 界 的 一 大 盛 事, 也 是 武 清

More information

附3

附3 普 通 高 等 学 校 本 科 专 业 设 置 申 请 表 ( 备 案 专 业 适 用 ) 080910T 3-6 2 016 7 6 4884878 目 录 填 表 说 明 ⒈ ⒉ ⒊ ⒋ ⒌ 1. 普 通 高 等 学 校 增 设 本 科 专 业 基 本 情 况 表 080910T 3-6 1978 36 ( 1978) ( 2008) 2017 60 120 / S J ⒉ 学 校 基 本 情

More information

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2 10 2016 10 No. 10 Modular Machine Tool & Automatic Manufacturing Technique Oct. 2016 1001-2265 2016 10-0012 - 05 DOI 10. 13462 /j. cnki. mmtamt. 2016. 10. 004 * 116024 MIMO TH166 TG502 A Dynamic Performance

More information

Microsoft Word - 专论综述1.doc

Microsoft Word - 专论综述1.doc 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 系 统 徐 兰 静, 李 珊, 严 钊 ( 南 京 航 空 航 天 大 学 经 济 与 管 理 学 院, 南 京 211100) 摘 要 : 近 年 来 信 息 过 载 问 题 的 出 现 使 得 个 性 化 推 荐 技 术 应 运 而 生, 其 中 协 同 过 滤 推 荐 技 术 通 过 在 用 户 和 信 息 之 间 建 立 联 系, 被

More information

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公 2013 年 度 上 海 高 校 市 级 精 品 课 程 申 报 表 ( 本 科 ) 学 校 名 称 东 华 大 学 课 程 名 称 计 算 机 系 统 与 网 络 技 术 课 程 类 型 理 论 课 ( 不 含 实 践 ) 理 论 课 ( 含 实 践 ) 实 验 ( 践 ) 课 所 属 一 级 学 科 名 称 所 属 二 级 学 科 名 称 课 程 负 责 人 申 报 日 期 工 科 计 算 机

More information

基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 传统的空间向量

基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长, 这些海量的信息蕴含着潜在的信息价值亟待人们探索和挖掘, 促使人们寻找一种自动化的方法来分析文本隐藏的价值 自然语言文本情感分析是一个新兴的研究课题, 具有很大的研究价值和应用价值 传统的空间向量 SHANGHAI JIAO TONG UNIVERSITY 学士学位论文 THESIS OF BACHELOR 论文题目 : 基于文本纹理的情感倾向性分析研究 学生姓名 : 任彦斌 学生学号 : 5100369074 专 业 : 信息安全 指导教师 : 刘功申副教授 学院 ( 系 ): 电子信息与电气工程学院 基于文本纹理的情感倾向性分析研究 摘要 随着信息时代互联网技术的不断发展, 互联网上的信息呈指数级增长,

More information

标题

标题 DOI:0.3878 / j.cnki.jnuist.206.03.009 来 鹏 赵 茹 蕾 郭 利 珍 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究 摘 要 当 今 银 行 之 间 的 竞 争 日 益 加 剧, 能 有 效 地 挖 掘 潜 在 客 户 并 为 之 提 供 差 异 化 服 务, 对 提 高 银 行 竞 争 力 尤 为 重 要. 用 决 策 树 算 法 对 可

More information

胡 鑫 陈兴蜀 王海舟 刘 磊 利用基于协议分析和逆向工程的主动测量方法对 点播系统进行了研究 通过对 点播协议进行分析 获悉该协议的通信格式和语义信息 总结出了 点播系统的工作原理 在此基础上设计并实现了基于分布式网络爬虫的 点播系统主动测量平台 并对该平台获取的用户数据进行统计分析 获得了 点播系统部分用户行为特征 研究结果对 点播系统的监控及优化提供了研究方法 点播 协议分析 爬虫 主动测量

More information