Similar documents







中国佛教净土宗教育研究

企业慈善行为研究



模糊数学在飞行控制系统故障诊断的应用


I














非营利组织专职人员专业化问题研究











禁毒非营利组织及其运作机制研究——以上海市S社会工作机构为个案



唐宋时期城市保护神研究——以毗沙门天王和城隍神为中心





2


!"# $! "##$! $ "%& % & #$# & ()% & "!! * "! * #! * * $! ((!"# "##$ + #++ * * * * * * * * * * + $," ("# +### "##$ $ + + & $ ### "%& % & #$# & ()% & " "

























法 与 采 购 模 式, 不 仅 不 能 保 证 一 些 战 略 性 物 资 的 充 分 供 应, 很 容 易 造 成 供 应 风 险, 而 且 会 影 响 供 应 链 的 后 续 活 动 因 此, 必 须 对 当 前 的 物 资 分 类 加 以 改 革 2 集 中 采 购 供 应 商 准 入 门



























Transcription:

山东师范大学硕士学位论文数据挖掘中聚类分析算法的研究姓名 : 王鑫申请学位级别 : 硕士专业 : 计算机软件与理论指导教师 : 刘希玉 ; 王洪国 20060419

数据挖掘中聚类分析算法的研究 作者 : 王鑫 学位授予单位 : 山东师范大学 相似文献 (10 条 ) 1. 学位论文许存兴聚类分析在数据挖掘中的应用 2004 聚类分析是数据挖掘方法中的一个重要的方法. 该文首先对数据挖掘进行了简要的描述 ; 其次 着重对数据挖掘中的聚类分析法进行讨论 ; 最后 以一 个超市的商品销售为例, 用数据挖掘中的聚类分析法进行了挖掘. 因此, 该文从研究数据挖掘的算法角度出发, 从三个方面对数据挖掘进行了论述 : 一 数据 挖掘的概述通过对数据挖掘的概念 方法 过程 特点 作用及其与统计学关系的描述, 使我们对数据挖掘有一个整体的了解. 二 聚类分析在数据挖掘 中的应用在这部分首先介绍了统计学中的聚类分析基础知识, 即距离与相似系数和聚类的特征与聚类间的距离. 其次, 介绍了具体的聚类分析方法, 包括分 层聚类法 ( 最短距离法 最长距离法和中间距离法 ) 分割聚类算法 (PAM 算法 CLARA 算法 ) 基于密度的方法 基于网格的方法和基于模型的方法. 三 数 据挖掘在超市中的应用在这部分以某一超市为例, 以数据挖掘的过程为线索, 对这个超市的销售数据用聚类分析法中的层次法进行了数据挖掘 ; 其次, 对数 据挖掘的结果进行了描述 ; 最后, 分析了数据挖掘的结果. 2. 期刊论文陈学进.CHEN Xue-jin 数据挖掘中聚类分析的研究 - 计算机技术与发展 2006,16(9) 聚类分析是由若干个模式组成的, 它在数据挖掘中的地位越来越重要. 文中阐述了数据挖掘中聚类分析的概念 方法及应用, 并通过引用一个用客户交 易数据统计出每个客户的交易情况的例子, 根据客户行为进行聚类. 通过数据挖掘聚类分析, 可以及时了解经营状况 资金情况 利润情况 客户群分布等 重要的信息. 对客户状态 交易行为 自然属性和其他信息进行综合分析, 细分客户群, 确定核心客户. 采用不同的聚类方法, 对于相同的记录集合可能有不 同的划分结果对其进行关联分析, 可为协助各种有效的方案, 开展针对性的服务. 3. 学位论文席景科数据挖掘中聚类分析的研究与实现 2003 该文首先概述了数据挖掘的概念 分类和数据挖掘过程 ; 其次, 介绍了聚类分析的定义, 对聚类分析算法进行了系统地归纳和总结, 并简要介绍了每一 种代表性算法的实现思想及其优点和不足 ; 然后, 重点讨论了 k-prototypes 算法 一种能对数值型和分类型混合属性数据集进行聚类的算法, 在此基础上, 提出了基于 k-prototypes 算法的改进算法, 并使用实验室数据集对改进算法进行了测试, 证明新算法是有效的 ; 最后, 根据目前的研究状况, 提出了聚类分 析技术需要进一步的研究方向. 4. 学位论文宋宇辰数据挖掘的聚类分析在物化探资料处理中的应用研究 2006 聚类分析应用研究是数据挖掘技术中一个重要的研究方向 聚类分析方法在模式识别等领域获得了较为广泛的研究与应用, 但是在地质资料处理方 面聚类分析方法的应用研究甚少 为了研究与探索地质资料处理的新方法与新理论, 利用数据挖掘技术发现地质数据中隐含的地学模式, 如地球物理模 式 地球化学模式, 我们进行了 数据挖掘的聚类分析在物化探资料处理中的应用研究 研究内容主要包括 :<br> (1) 聚类分析算法研究 目前聚类分析算法在智能性 稳定性 有效性 可扩展性等方面存在各种问题 因此, 在详细分析和研究了现存的各种有代表 性的聚类算法的基础上, 对它们的缺点 优点以及各自所适应的具体应用前提 性能进行了比较全面的对比与总结 ; 提出了对基于划分的方法 (K- Means 算法 ) 和基于密度分布函数的聚类方法 (DENCLUE 算法 ) 进行整合的设想, 依此来提高聚类方法智能性 ( 实现无指导挖掘 ) 稳定性 有效性和可扩展性, 同时给出了两种算法的整合方法 在实现整合算法的过程中, 同时也对聚类对象属性 ( 变量 ) 进行了加权处理 基于复相关系数倒数的欧氏距离加权, 其目的是通过消除对象属性间的相关性来提高聚类结果的准确性 ; 根据两种算法的整合设想, 进一步提出了一种新的聚类算法 基于密度和对象方 向的聚类算法 CADD(Clustering Algorithm based on Density and Direction of Objects), 详细介绍了 CADD 算法的定义 数据结构 模型的建立 算 法的具体实现与实验分析 <br> (2) 利用 CADD 算法对物化探实测资料的分析研究 利用 CADD 聚类分析算法首次对我国银川平原地区一千多个测深点视电阻率测深曲线和我国西部某地区 化探采样数据进行了聚类分析应用研究 结果标明, 聚类分析方法能够有效地确定出测区内电性特征区域变化模式和化探区域内化学元素的区域分异特 征模式 <br> 通过对不同测试数据集和实测数据的聚类分析结果的分析与研究表明, 改进算法的设计与实现是成功的, 具有良好的可伸缩性, 可发现任意形状的聚类, 处理噪声数据的能力强, 且具有较强的可解释性和适用性 CADD 聚类分析算法能够自动确定对象的聚类数目和聚类中心, 这样就避免了传统聚类算法 需要用户事先给出聚类参数的困难局面和随机选择初始聚类中心造成聚类结果的不稳定 ; 克服了聚类算法 ( 如 K-Means 算法等 ) 对孤立点数据的敏感问题, 使得 CADD 聚类算法能够有效地应用于地质资料处理 5. 期刊论文梁志荣.Liang Zhirong 数据挖掘中聚类分析的技术方法 - 电脑开发与应用 2007,20(6) 数据挖掘是信息产业界近年来非常热门的研究方向, 聚类分析是数据挖掘中的核心技术. 对各种聚类算法进行了分类, 对代表算法作了详细的分析, 并 对这些算法从多个方面进行了比较, 从而为研究和在不同领域使用这些算法提供了参考. 同时还阐述了聚类分析在数据挖掘中的应用. 6. 学位论文周东华数据挖掘中聚类分析的研究与应用 2006 数据挖掘是目前信息领域和数据库技术的前沿研究课题, 被公认为是最具发展前景的关键技术之一 数据挖掘涉及到统计学 人工智能 ( 特别是机器 学习 ) 模糊理论和数据库技术等多种技术, 它强调的是大量数据和算法的可伸缩性, 是一门很接近实用的技术, 其技术含量比较高, 实现难度也较大 聚类分析是数据挖掘的重要功能之一, 近年来在该领域的研究取得了长足的发展, 出现了许多聚类分析方法, 如划分聚类方法 层次聚类方法 基 于密度的聚类方法 基于网格的聚类方法 基于模型的聚类方法等 这些方法所涉及的领域几乎遍及人工智能科学的方方面面, 而且在特定的领域中, 特定的情形下取得了良好的效果 但是当处理数大量数据 具有复杂数据类型的数据集时, 仍存在若干尚未解决的问题 本文系统地研究了数据挖掘的概念 功能 处理过程及技术算法, 数据挖掘的核心技术是数据挖掘的算法, 本文就数据挖掘的算法做了分析和比较, 选取了 K 平均算法和 DBSCAN 算法做了深入的研究, 并给出了一种基于距离的异常数据挖掘算法 本文以山西省一所高职院校的学生成绩数据为背景, 通过数据预处理工作, 应用以上几种算法对上述数据进行了聚类分析, 实现了可视化, 最终挖掘到一定价值的信息 7. 期刊论文王虹. 时文.Wang Hong.Shi Wen 基于 SOFM 的聚类分析在数据挖掘中的应用研究 - 交通与计算机 2005,23(3) 阐述了聚类分析在数据挖掘中的应用及地位, 研究并分析了通过 SOFM 实现聚类分析的算法, 并用该算法进行了数据挖掘的仿真实验. 结果表明, 基于 SOFM 聚类分析方法可将抽象的数学聚类问题转化为直观的空间分布问题, 降低了聚类分析的难度, 说明了其可操作性及鲁棒性. 8. 学位论文李浪波聚类分析在科学数据挖掘中的应用研究 2006 如何让各种数据挖掘技术更好地为实际工程所服务, 一直是数据挖掘领域的一个挑战 一方面是人们对快速 准确而全面获取信息的渴望, 而另一 方面却是各种信息的纷繁芜杂, 在这两者之间架设一座桥梁的确是一个巨大的挑战 聚类分析在数据挖掘技术中占有重要的位置 所谓聚类, 是将一个 数据单位的集合 ( 数据源 ) 分割成几个称为类或类别的子集, 每个类内的对象之间是相似的, 但不同类的对象间区别相对较大 聚类分析是在没有先验知 识支持的前提下, 根据事物本身的特性研究被聚类对象的类别划分, 实现满足这种要求的类的聚合, 它所依据的原则是使同一类中的对象具有尽可能大 的相似性, 而不同类中的对象具有尽可能大的差异性 论文基于大规模核物理科学数据挖掘的背景, 全面介绍了数据挖掘的关键技术和主要任务, 从理论 算法和应用三个层次, 结合科学数据的特点来 分析预处理技术和聚类方法, 提出了很多实用的预处理方法 : 对 HDF5 科学数据进行分块 除噪 集成 变换等, 同时对它使用 截断法 和 逐层求差 法 进行规约, 并对数据进行信息提取 在聚类方面, 经过比较各种聚类算法和分析科学数据的特点, 提出了结合 k 一平均思想的改进型系统聚类算法 此聚类算法有如下特点 : 能生成具有代表性的数据簇中心 ; 使用相似系数计算距离, 避免了距离受量纲影响的缺点 ; 不需要多次迭代计算, 减少了计算

量 ; 不需要指定初始中心 ; 改进了聚类图, 更容易得出聚类阀值 实验结果表明这种改进的系统聚类算法非常适合科学数据的处理 本文最后简单介绍了我们开发的科学数据挖掘系统 其中重点介绍了聚类分析模块的设计和功能 9. 学位论文陈志强数据挖掘中聚类分析技术的研究及应用 2004 随着计算机技术的发展, 数据库得到了广泛应用. 在数据库中积累了大量可用的数据, 但是数据库管理系统却没有提供有效的工具和方法来分析和利用 这些数据, 如何充分利用这些数据, 进行决策支持成为当今需要深入研究的课题. 数据库的知识发现或数据挖掘随之出现, 成为有效利用数据, 进行数据分析 的有力武器. 聚类分析是数据挖掘的重要组成部分, 应用范围非常广泛, 其常规应用包括 : 模式识别 空间数据分析 图像处理 经济学 ( 尤其是市场研究方 面 ) www 文档分类等等, 因而成为各界研究的对象. 本文首先阐述了数据挖掘技术, 是本文的研究背景和基石 ; 接着讨论了聚类分析技术, 是本文研究的核心 和关键 ; 最后在以上两部分基础之上开展应用研究, 是本文理论结合实际 多种技术和知识综合应用的体现. 由此本文通过对以上各部分的研究, 提供了一 个实用的 有效的数据挖掘中聚类分析技术应用的参考模型, 可供准备开展数据挖掘项目的广大企业用户参考使用, 这也正是本文研究的创新和目的所在. 本文分为五章, 内容结构如下 : 第 1 章绪论介绍了本文的研究背景, 所做的主要工作和本文的内容结构. 第 2 章数据挖掘技术概述详细介绍了数据挖掘理论和 技术, 包括 : 数据挖掘和数据库知识发现定义, 数据挖掘起源, 数据挖掘处理过程模型, 数据挖掘技术, 数据挖掘分类, 数据挖掘与相关学科的区别与联系, 数 据挖掘研究现状及存在的问题. 第 3 章聚类分析技术概述详细介绍了聚类分析技术, 包括 : 聚类分析综述, 聚类分析中常用的两种数据结构, 聚类分析中常用 的几种数据类型, 聚类分析中的常用方法. 第 4 章聚类分析应用研究在以上两章的基础上, 结合一个具体的数据挖掘任务实例, 研究了数据挖掘应用的解决方 案, 包括 : 数据挖掘技术应用方案研究, 聚类分析应用实例, 实例系统的技术重点与难点及不足, 实例系统的使用介绍. 第 5 章结束语总结全文, 给出本文研究 中存在的问题和今后研究工作的方向. 10. 期刊论文中国人民大学统计系数据挖掘中心数据挖掘中的聚类分析 - 统计与信息论坛 2002,17(3) 文章从聚类分析的作用 相异性度量 算法简介及计算机操作程序四个方面论述了如何在数据挖掘中进行聚类分析. 本文链接 :http://d.g.wanfangdata.com.cn/thesis_y920054.aspx 授权使用 :wfhydrgd(wfhydrgd), 授权号 :a4569848-aa5d-4a6a-a80e-9e75010698a0 下载时间 :2011 年 1 月 24 日

Click below to find more Mipaper at www.lcis.com.tw Mipaper at www.lcis.com.tw