<4D F736F F D20B6E0D4AACAFDBEDDB7D6CEF64D61746C6162B9A4BEDFCFE4BCF2BDE92E646F63>

Similar documents
08-01.indd

一 课 程 基 本 情 况 课 程 名 称 工 程 应 用 数 学 ( 计 算 机 类 ) 编 码 所 属 部 门 工 业 中 心 课 程 所 属 专 业 课 程 所 属 模 块 数 学 计 算 机 类 任 课 教 师 情 况 ( 人 数 ) 教 授 副 教 授 讲 师 助 教 3

<4D F736F F D20B5DACAAED5C220CBABCFDFD0D4BAAFCAFDA3A8BDB2D2E5A3A92E646F63>


! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $ %% " $ "--/


论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作

Microsoft PowerPoint - 概率统计Ch02.ppt [Compatibility Mode]

Remark:随机变量不只离散和连续两种类型


谚语阐因


IDEO_HCD_0716


高等数学A


序 1995 年 我 走 进 了 朝 阳 区 将 台 乡 五 保 老 人 院, 如 今 17 年 后, 十 分 欣 喜 有 机 会 为 这 本 流 金 岁 月 小 集 作 序 在 多 年 陪 伴 孤 单 老 人 的 过 程 中, 我 深 深 地 体 会 到 每 位 老 人 的 生 命 里 其 实 都

43081.indb


一 天 吃 两 顿, 从 不 例 外 我 上 班 就 是 找 一 个 网 吧 上 网 上 网 的 内 容 很 杂, 看 新 闻, 逛 论 坛, 或 者 打 打 小 游 戏 如 果 没 钱 上 网, 我 会 独 自 一 个 人 到 一 个 偏 僻 的 地 方, 静 静 地 坐 着 发 呆 这 也 是

工 造 价 15 邗 江 南 路 建 设 工 一 标 市 政 公 用 6000 中 机 环 建 集 团 有 限 公 胡 美 娟 16 邗 江 南 路 建 设 工 二 标 市 政 公 用 品 尊 国 际 花 园 1# 2# 3# 4# 7# 9# 10# 11# 楼 地 库 C 区 工

第一篇 建置区划

untitled

31 121

ǎà

78 云 芝 79 五 加 皮 80 五 味 子 81 五 倍 子 82 化 橘 红 83 升 麻 84 天 山 雪 莲 85 天 仙 子 86 天 仙 藤 87 天 冬 88 天 花 粉 89 天 竺 黄 90 天 南 星 91 天 麻 92 天 然 冰 片 ( 右 旋 龙 脑 ) 93 天 葵



第四期:加强服务在内地港人及吸引人才

Microsoft Word - A doc

幻灯片 1

试卷

10-03.indd

國家圖書館典藏電子全文

数学分析(I)短课程 [Part 2] 4mm 自然数、整数和有理数

02所有分支机构的营业场所和电话.xls

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP: ******************* * 关于 Java 测试试题 ******

数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器

untitled

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用


C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1

交易所网站定位.doc

07-3.indd

6.3 正定二次型

( ) t ( ) ( ) ( ) ( ) ( ) t-


M ( ) K F ( ) A M ( ) 1815 (probable error) F W ( ) J ( ) n! M ( ) T ( ) L ( ) T (171

<4D F736F F D20B9A4C9CCB9DCC0EDD1A7D4BAC1AED5FEB7E7CFD5B9DCC0EDD6C6B6C8BBE3B1E02E646F63>

! %! &!! % &

¹ º» ¼ ½ ¹ º» ¼ ½

第一章三角函数 1.3 三角函数的诱导公式 A 组 ( ) 一 选择题 : 共 6 小题 1 ( 易诱导公式 ) 若 A B C 分别为 ABC 的内角, 则下列关系中正确的是 A. sin( A B) sin C C. tan( A B) tan C 2 ( 中诱导公式 ) ( ) B. cos(


6寸PDF生成工具

第五章 数理统计中的统计量 及其分布

ChinaBI企业会员服务- BI企业

Born to win 2019 年全国硕士研究生入学统一考试数学一试题解析 一 选择题 :1~8 小题, 每小题 4 分, 共 32 分, 下列每小题给出的四个选项中, 只有一项 符合题目要求的, 请将所选项前的字母填在答题纸... 指定位置上. k (1) 当 x 0 时, 若 x tan x与

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

untitled

第六組公文傳閱表

Microsoft Word 年临沭县教育系统部分事业单位公开招聘教师笔试成绩公示

精勤求学自强不息 Bor to w! (4) 设函数 s k l( ) 收敛, 则 k ( ) (A) (B) (C)- (D)- 答案 C k s k l( ) o( ) k o( ) 6 k ( k) o( ) 6 因为原级数收敛, 所以 k k. 选 C. (5) 设 是 维单位列向量, E

untitled

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0

4.C ( 详细解析见视频课程 绝对值 01 约 21 分 15 秒处 ) 5.E ( 详细解析见视频课程 绝对值 01 约 32 分 05 秒处 ) 6.D ( 详细解析见视频课程 绝对值 02 约 4 分 28 秒处 ) 7.C ( 详细解析见视频课程 绝对值 02 约 14 分 05 秒处 )

! #

年第 期

关于公布2015年度兰陵县事业单位公开招聘工作人员进入面试资格审查范围人员名单的公告

一 國 兩 制 研 究 2013 年 第 1 期 ( 總 第 15 期 ) 5. 對 一 國 兩 制 抱 否 定 態 度 對 一 國 兩 制 的 理 論 和 政 策, 部 分 人 士 從 懷 疑 逐 步 發 展 到 公 然 否 定 一 國 兩 制, 主 要 是 對 涉 及 一 國 原 則 的 堅 持


自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

语文 语文 语文 语文 语文

2014 年全国硕士研究生入学统一考试 数学三试题 一 选择题 :1~8 小题, 每小题 4 分, 共 32 分, 下列每小题给出的四个选项中, 只有一项符合题目要求 的, 请将所选项前的字母填在答题纸... 指定位置上. (1) 设 lim a = a, 且 a 0, 则当 n 充分大时有 ( )


Microsoft PowerPoint - FE11

教授:

1 线性空间 基 维数和坐标 3 子空间 4 线性空间的同构 5 线性映射 6 线性映射的像与核 7 线性变换 8 不变子空间 厦门大学数学科学学院网址 :gdjpkc.xmu.edu.c; IP://

0 1 VaR 2 VaR 3 VaR 4 5 VaR 6 7 VaR 2

重 要 声 明 长 城 证 券 股 份 有 限 公 司 编 制 本 报 告 的 内 容 及 信 息 来 源 于 陕 西 东 岭 工 贸 集 团 股 份 有 限 公 司 提 供 的 证 明 文 件 以 及 第 三 方 中 介 机 构 出 具 的 专 业 意 见 长 城 证 券 对 报 告 中 所 包

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /.

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %!

关卫和等 我国压力容器行业 检测技术的应用和进展中国工业检验检测网

多元统计分析

骨头的故事

ⅠⅡⅢ Ⅳ

®Ñ¥U41.indb

基于不同协方差矩阵的VaR度量比较

2017創形パンフ表1_表4

K-means





<313034A4BDB67DA4C0B56FBA5DB3E65FBD64A5BB2E786C7378>

Microsoft PowerPoint 兩性簡報

????????

untitled

2017ÅàÑø·½°¸

山 东 大 学 信 号 与 系 统 和 数 字 信 号 处 理 (833) 考 研 内 部 精 华 资 料...27 山 东 大 学 信 号 与 系 统 和 数 字 信 号 处 理 (833)(70% 信 号 与 系 统,30% 数 字 信 号 处 理 不 含 滤 波 器 设 计 )/ 考 研 内


Transcription:

Matlab 工具箱中多元统计分析的部分应用 目录 Matlab 工具箱中多元统计分析的部分应用...2 聚类分析...2 研究动机...2 理论原理...2 Matlab 工具箱展示...3 Iris 数据...3 K-Mean s 分类法...3 多层分类法...6 判别分析...8 研究动机...8 理论原理...9 Matlab 工具箱展示...9 判别分析...9 决策树法...11 因子分析...12 研究动机...12 理论原理...12 Matlab 工具箱展示...14 成绩数据...14 函数演示...14

Matlab 工具箱中多元统计分析的部分应用 本文将对 Matlab 工具箱中多元统计分析分支的部分内容 聚类分析, 判别分析, 因 子分析等进行简单的介绍 每一项内容我都将分为三个步骤进行介绍 : 研究动机, 理论原理, Matlab 工具箱展示 聚类分析 研究动机 我们经常面临这样的问题 : 对于一组观测样本, 我们已知它们的某些性质, 要通过这些性质将样本进行分类, 并且要求分在同一类的样本要比分在不同类的样本更加相似 举例来说, 假设我们对 100 个天体进行研究, 通过观测我们得到了每个天体的质量, 有效温度, 红移等性质, 我们现在通过这些性质将这 100 个天体进行分类, 并认为分到同一组的天体为相同的天体 ( 如同是星系或同是恒星等 ) 聚类分析的特点是在分类之前并不知道任何其它信息, 完全是按照已知的那些性质进行的分类, 也就是说假如我们将上诉 100 个天体分为两类, 并认为一类为恒星, 一类为星系, 在聚类分析的时候, 我们是不知道任何关于恒星和星系的性质的, 我们只是按照观测得到的质量, 有效温度, 红移等性质将天体的进行分类 理论原理 现在我们有三个问题需要解决 : 第一, 我们说在分类时将相似的分到一类, 那么什么叫相似呢? 对于这个问题在数学上是很简单的, 我们可以定义距离或相似系数等参数, 并规定距离近或相似系数大的为相似 然而在现实工作中经常有一些是无法用数学的方法来确定其相似与否的, 这时往往利用人的主观感觉进行定性的判断, 在本文中, 我们只讨论可以用数学方法定量判断的问题 第二, 既然要使用数学方法, 就一定要懂得如何将所有属性量化 首先, 要量化样本的所有性质 对于一个变量 ( 性质 ), 可分为三类 : 间隔尺度 : 变量是用连续的量来表示的, 如长度, 时间间隔, 速度等 有序尺度 : 变量度量时没有明确的数量表示, 而是划分一些等级, 如上中下, 左右等 名义尺度 : 变量度量时没有数量关系也没有顺序划分, 如红黄蓝, 男女等 对于不同类别的变量, 在量化时以致后面定义距离等时有很大的不同, 在这里不作详细描述 本文主要研究间隔尺度的变量 其次, 要对样本之间的关系进行量化, 也就是定义距离 相似系数等参量 每种参量都有许多种不同的定义方法, 要视具体情况来选择,Matlab 为我们提供了很多种距离的定义方法, 我们可以在调用函数时自行选择 第三, 如何分类? 解决了量化问题之后, 我们已经可以确定任意两个样本之间的亲疏关系了, 但我们还必须制定一套合理的分类规则, 或者说要确定一个判断标准, 以最终确定在什么情况下我们

的分类是合理的 举例来说, 我们可以定义当所有点距离本组中心的距离之后最小分组为合理的 有了类似这样的规则之后, 我们就可以对任意的样本群进行聚类分析了 Matlab 工具箱展示 在此, 将展示 Matlab 工具箱中两种聚类分析的方法, 在进行函数分析之前, 对这两种方法先简要介绍如下 : K-Mean s 分类法 : 将样本分为 K 组, 并满足对任意样本点, 其性质与本组所有样本点的相似性都高于它与外组样本点的相似性 该方法的特点是必须事先给定要分的组数 多层分类法 : 将所有样本作为最终的节点做成一个分类树 其好处是可以截取任意想要的组数 下面本文将对这两种方法在 Matlab 中的具体应用形式进行具体说明 Iris 数据 本文此部分以及后面的判别分析部分使用到的数据都为 Iris 数据, 其中包含 150 个鸢尾花样本的花蕊和萼片的长宽, 以及这 150 个样本的真实分类的情况 ( 由于这是一个检验方法的试验, 所以真实的分类结果是已知的 ) K-Mean s 分类法 在 Matlab 中使用 K-Mean s 分类法, 主要用 kmeans 内置函数, 其中我们选择好要分的组数, 以及距离的形式 分类的方法等参数, 就可以将样本分类了 分类之后我们可以使用 silhouette 函数来判断分类的好坏 此函数会定义一个新的参量 对于任意样本点其得到的 S(i) 的绝对值越接近于 1, 其性质与本组所有样本点的相似性越高于它与外组样本点的相似性

此图即为使用 K-Means 方法对 Iris 数据进行分类的结果分析, 从中可以看出对大部分点 S(i) 是比较接近于 1 的, 即分组效果还可以 当然我们还可以将分类结果可视化 其结果为

带叉的圆圈为该组的中心 由于 Matlab 中 K-Means 方法的算法是先随机取三个中心, 然后进行迭代, 如果我们想关注 一下这些中间算法过程, 我们可以使用函数 对于 Iris 数据, 若我们将样本分为三组, 则可以标记出错分的样本点

多层分类法 在 Matlab 中, 多层分类法主要使用 linkage 函数生成一个分类树, 其中我们同样可以选择距 离的定义方式以及分类方法, 并且可以利用 cohenet 函数以及 dendrogram 函数交验以及将 树进行可视化

改变上述 dendrogram 函数中 0 为其它数字, 则可得到相应个最终节点数的数, 如

最后, 我们同样可以将多层分类的结果可视化 判别分析 研究动机 我们有时也会面临这样的问题, 就是我们已经有了若干组分好类别的样本, 现在又新得到了一组样本, 想把这些新的到的样本归属到现有组中 这时我们就可以使用判别分析法 判别分析法的特点是需要已经存在若干组, 通过判别新的样本点与哪个组更接近, 从而给新的样本点分类

理论原理 如前面聚类分析一样我们需要量化, 定义距离等工作, 之后再制定一套规则或者说再定义一个标准来判断新的样本点到底与哪个组更接近, 这样我们就可以进行判别分析了 Matlab 工具箱展示 在 Matlab 工具箱中关于判别分析的部分, 一共介绍了两个内容 : 一是判别分析法 ; 另一个是决策树法 其中决策树法是计算机发展起来之后兴起的一种新的判别方法 他先把已知数据完全告诉计算机, 让计算机自己从中发现一些分类的规律, 即生成一个决策树, 然后利用新生成的决策树来对新的数据进行判别归类 判别分析 我们同样使用 Iris 数据进行演示 Matlab 中使用 classify 函数进行分类分析,classify(A, B, C) 中,A 参数为需要分类的样本数据,B 参数为已知的数据,C 参数为已知数据的分组信息 在 classify 函数中, 我们同样可以修改距离的定义以及判别规则的定义 同时, 由于我们是对原数据本身进行分类, 我们可以使用 strcm 函数判断误判情况, 从而对所选用方法进行评价 并且, 我们可以应用 lot 函数将结果可视化

图中画叉的为误判点 其实, 我们完全可以按照已知数据将整个平面进行分类, 来看一下我们所使用的判别 方法的效果

从此图可以看出, 对于 Iris 数据我们现在采用的判别方法效果还是不错的 如果效果不 好, 即分类的界限不明显, 则我们就要调整距离或判别方法的定义了 决策树法 Matlab 中的决策树法使用 treefit 函数生成决策树, 再用 treeval 函数利用生成决策树对新的 样本点进行分类 同样我们能够通过对平面进行分类来判断方法好坏 从图中可以看出对于 Iris 数据决策树法并不十分理想 有时我们会想利用最简单的决策树来 获得最小的误判率, 这是可以实现的

因子分析 研究动机 我们有时还会遇见这样的问题, 就是每个样本的属性太多了, 并且彼此之间又有很多交叉, 我们试图找到一组彼此相互独立的参量来代替所有的这些属性 这就好像是线性代数里面通过构造一组正交基来表示一些不完全线性无关的向量 举例来说, 某企业招聘人才, 对每位应聘者进行外貌 申请书的形式 专业能力 讨人喜欢的能力 自信心 洞察力 诚实 推销本领 经验 积极性 抱负 理解能力 潜在能力 实际能力 适应性等 15 个方面的考核 这 15 个方面可归结为应聘者的外露能力 讨人喜欢的能力 经验 专业能力 4 个方面, 每一方面称之为一个公共因子 企业可根据这 4 个公共因子的情况来衡量应聘者的综合水平 理论原理 因子分析的基本思想 : 是通过变量 ( 或样品 ) 的相关系数矩阵 ( 对样品是相似系数矩阵 ) 内部结构的研究, 找出能控制所有变量 ( 或样品 ) 的少数几个随机变量去描述多个变量 ( 或样品 ) 之间的相关 ( 相似 ) 关系, 但在这里, 这少数几个随机变量是不可观测的, 通常称为因子 X = ( x,,, ) 设 1 x2 x 为观察到的随机向量, F = ( F1, F2,, Fm ) 是不可观测的向量 有 x1 = a11f1 + + a1 mfm + ε1 x 2 = a F 21 1 + + a F 2m m + ε 2

x = a F + + a 1 即 X = AF + ε ε = ( ε,, )' 其中 1 ε 称作误差或特殊因子 满足假设 : 1) m 2) cov( F, ε ) = 0, 3) var( F ) = I m var( ε) = diag( σ,, ), 1 σ 称 Fi 为第 i 个公共因子, 为因子载荷 下面我们看看因子载荷的意义是什么 由于 x m a ij 1 2 m F 2 i m + ε = a F + + a F + ε i1 1 in m i i = 1,, E( xi F j ) = aik E( Fk F j ) = aik r( F F a k j ) = ij 则 K = K = 由于 F F r 1 1 k, j ( ) 1 不相关, 且 Fj F = 1 即 a, = r ij x i F j ij a 因子载荷 m 是第 i 个变量与第 j 个公共因子的相关系数 也就是说, 因子载荷的 大小反应了新的因子与原有因子的相关性的大小, 归一化后, 因子载荷 F j 越接近于一, 则 对应的新的公共因子越能反映对应的原有变量 xi. 下面的问题就是如何求出因子载荷 由于公共因子是不可观测量, 因此我们是通过变量 ( 或样品 ) 的相关系数矩阵 ( 对样品是相似系数矩阵 ) 内部结构的研究求出的因子载荷 具体求解方法如下 : X = ( x, )' 这是常用的主成分法, 设随机向量 1, x 的协方差为 Σ, Σ 的特征值为 λ1 λ2 λ > 0 e,, 其相应的特征向量为, 1 e2 e ( 标准正交基 ) 则 : Σ = Udiag ( λ1,, λ ) U ' = λieiei ' = ( λ1 e1,, λ e )( λ1 e1 ',, λ e ')' i= 1 当公共因子 Fi 有 P 个时, 特殊因子为 0, 所以, X = AF A 为因子载荷阵 因此, D ( X ) = var( AF ) = A var( F ) A' = AA' 所以, Σ = AA ', 因此,A 为 λ 1e1,, λ e A = ( λ, ) ), 所以, 1e1, λ e 所以第 j 列因子载荷为第 j 个主成分 ( e j 与 λ j 的乘积 所以称为主成分法 当最后 m λ 个特征根很小时, 去掉 m + 1em + 1,, λ e (, ) 此时, A = λ e, λ e 1 1 m m, 方差 Σ = AA ' +Σ ε ( λ, ) = e, λ 1 1 e ( e ',, λ e ' m m 1 1 m m )' λ ( σ,, ) +diag 1 σ Σ s Σ, 或样本相关阵 R λ ˆ λ 代替 一般设 ˆ1 为 R e eˆ ˆ1,, m, 则因子载荷 A ˆ = ( ˆ ) A = ˆ λ e ˆ,, ˆ λ ˆ ) 另外, 当未知时, 用样本协方差代替 样本相关阵的特征根, 相应的标准正交化特征向量为 设 a ij ( 1 阵的估计为即 1 m 求解出因子载荷后, 我们自然期望个因子载荷要么趋于 0 要么区域 1, 若把各个相互独立的公共因子看成各个坐标轴, 我们期望所有的原有性质因子都贴近于某个坐标轴 当所求结果不满足要求时, 我们常常通过旋转坐标轴的方法达到满意的效果 ( 旋转有垂直和非垂直两种, 这里不详述 ) m e a ij 2 2

简单总结一下因子分析的过程 首先假设一组相互独立的公共因子, 然后求出因子载荷, 然后旋转得到满意的结果 结果满意后, 我们往往要将新得到公共因子赋予一定的现实意义 举例来说, 假如有 50 名学生考试, 共考了语文, 历史, 数学, 几何四门 我们将每门功课看成是每名学生的一个属性, 现在用两个公共因子来代替他们 得到因子载荷并旋转之后, 我们可以定义这两个因子一个为理科因子, 一个为文科因子 ( 与数学, 几何相关性大的为理科因子 ) 最后, 我们换个角度来考虑上面的例子, 假如我们已知因子载荷, 我们想知道对于某个学生的理科能力和文科能力具体怎么样, 也就是说我们想求出公共因子的大小, 这个问题叫做预测因子得分, 在这里不详述其原理, 在后面的 Matlab 应用中会有它的专有函数来解决这个问题 Matlab 工具箱展示 成绩数据 在因子分析演示中, 我们将使用一组新的数据, 它包含 120 个学生的 5 们成绩 (2 门文学,2 数学,1 门综合 ) 函数演示 Matlab 中使用 factoran 函数进行因子分析, 其中我们可以选择公共因子的个数 旋转方式以及计算因子载荷所使用的是原数据的相关矩阵还是协方差矩阵, 我们还可以以公共因子为坐标轴使用 bilot 函数将得到的因子载荷可视化

我们还可以将旋转后的坐标轴可视化 ( 其中包括垂直和非垂直的 ) 同样应用 factoran 函数我们可以进行预测因子得分

图中的红点为每个学生的因子得分