<4D F736F F D20B6E0D4AACAFDBEDDB7D6CEF64D61746C6162B9A4BEDFCFE4BCF2BDE92E646F63>

Matlab 工具箱中多元统计分析的部分应用目录 Matlab 工具箱中多元统计分析的部分应用...2 聚类分析...2 研究动机...2 理论原理...2 Matlab 工具箱展示...3 Iris 数据...3 K-Mean s 分类法...3 多层分类法...6 判别分析...8 研究动机...8 理论原理...9 Matlab 工具箱展示...9 判别分析...9 决策树法...11 因子分析...12 研究动机...12 理论原理...12 Matlab 工具箱展示...14 成绩数据...14 函数演示...14

Matlab 工具箱中多元统计分析的部分应用本文将对 Matlab 工具箱中多元统计分析分支的部分内容聚类分析, 判别分析, 因子分析等进行简单的介绍每一项内容我都将分为三个步骤进行介绍 : 研究动机, 理论原理, Matlab 工具箱展示聚类分析研究动机我们经常面临这样的问题 : 对于一组观测样本, 我们已知它们的某些性质, 要通过这些性质将样本进行分类, 并且要求分在同一类的样本要比分在不同类的样本更加相似举例来说, 假设我们对 100 个天体进行研究, 通过观测我们得到了每个天体的质量, 有效温度, 红移等性质, 我们现在通过这些性质将这 100 个天体进行分类, 并认为分到同一组的天体为相同的天体 ( 如同是星系或同是恒星等 ) 聚类分析的特点是在分类之前并不知道任何其它信息, 完全是按照已知的那些性质进行的分类, 也就是说假如我们将上诉 100 个天体分为两类, 并认为一类为恒星, 一类为星系, 在聚类分析的时候, 我们是不知道任何关于恒星和星系的性质的, 我们只是按照观测得到的质量, 有效温度, 红移等性质将天体的进行分类理论原理现在我们有三个问题需要解决 : 第一, 我们说在分类时将相似的分到一类, 那么什么叫相似呢? 对于这个问题在数学上是很简单的, 我们可以定义距离或相似系数等参数, 并规定距离近或相似系数大的为相似然而在现实工作中经常有一些是无法用数学的方法来确定其相似与否的, 这时往往利用人的主观感觉进行定性的判断, 在本文中, 我们只讨论可以用数学方法定量判断的问题第二, 既然要使用数学方法, 就一定要懂得如何将所有属性量化首先, 要量化样本的所有性质对于一个变量 ( 性质 ), 可分为三类 : 间隔尺度 : 变量是用连续的量来表示的, 如长度, 时间间隔, 速度等有序尺度 : 变量度量时没有明确的数量表示, 而是划分一些等级, 如上中下, 左右等名义尺度 : 变量度量时没有数量关系也没有顺序划分, 如红黄蓝, 男女等对于不同类别的变量, 在量化时以致后面定义距离等时有很大的不同, 在这里不作详细描述本文主要研究间隔尺度的变量其次, 要对样本之间的关系进行量化, 也就是定义距离相似系数等参量每种参量都有许多种不同的定义方法, 要视具体情况来选择,Matlab 为我们提供了很多种距离的定义方法, 我们可以在调用函数时自行选择第三, 如何分类? 解决了量化问题之后, 我们已经可以确定任意两个样本之间的亲疏关系了, 但我们还必须制定一套合理的分类规则, 或者说要确定一个判断标准, 以最终确定在什么情况下我们

的分类是合理的举例来说, 我们可以定义当所有点距离本组中心的距离之后最小分组为合理的有了类似这样的规则之后, 我们就可以对任意的样本群进行聚类分析了 Matlab 工具箱展示在此, 将展示 Matlab 工具箱中两种聚类分析的方法, 在进行函数分析之前, 对这两种方法先简要介绍如下 : K-Mean s 分类法 : 将样本分为 K 组, 并满足对任意样本点, 其性质与本组所有样本点的相似性都高于它与外组样本点的相似性该方法的特点是必须事先给定要分的组数多层分类法 : 将所有样本作为最终的节点做成一个分类树其好处是可以截取任意想要的组数下面本文将对这两种方法在 Matlab 中的具体应用形式进行具体说明 Iris 数据本文此部分以及后面的判别分析部分使用到的数据都为 Iris 数据, 其中包含 150 个鸢尾花样本的花蕊和萼片的长宽, 以及这 150 个样本的真实分类的情况 ( 由于这是一个检验方法的试验, 所以真实的分类结果是已知的 ) K-Mean s 分类法在 Matlab 中使用 K-Mean s 分类法, 主要用 kmeans 内置函数, 其中我们选择好要分的组数, 以及距离的形式分类的方法等参数, 就可以将样本分类了分类之后我们可以使用 silhouette 函数来判断分类的好坏此函数会定义一个新的参量对于任意样本点其得到的 S(i) 的绝对值越接近于 1, 其性质与本组所有样本点的相似性越高于它与外组样本点的相似性

此图即为使用 K-Means 方法对 Iris 数据进行分类的结果分析, 从中可以看出对大部分点 S(i) 是比较接近于 1 的, 即分组效果还可以当然我们还可以将分类结果可视化其结果为

带叉的圆圈为该组的中心由于 Matlab 中 K-Means 方法的算法是先随机取三个中心, 然后进行迭代, 如果我们想关注一下这些中间算法过程, 我们可以使用函数对于 Iris 数据, 若我们将样本分为三组, 则可以标记出错分的样本点

多层分类法在 Matlab 中, 多层分类法主要使用 linkage 函数生成一个分类树, 其中我们同样可以选择距离的定义方式以及分类方法, 并且可以利用 cohenet 函数以及 dendrogram 函数交验以及将树进行可视化

改变上述 dendrogram 函数中 0 为其它数字, 则可得到相应个最终节点数的数, 如

最后, 我们同样可以将多层分类的结果可视化判别分析研究动机我们有时也会面临这样的问题, 就是我们已经有了若干组分好类别的样本, 现在又新得到了一组样本, 想把这些新的到的样本归属到现有组中这时我们就可以使用判别分析法判别分析法的特点是需要已经存在若干组, 通过判别新的样本点与哪个组更接近, 从而给新的样本点分类

理论原理如前面聚类分析一样我们需要量化, 定义距离等工作, 之后再制定一套规则或者说再定义一个标准来判断新的样本点到底与哪个组更接近, 这样我们就可以进行判别分析了 Matlab 工具箱展示在 Matlab 工具箱中关于判别分析的部分, 一共介绍了两个内容 : 一是判别分析法 ; 另一个是决策树法其中决策树法是计算机发展起来之后兴起的一种新的判别方法他先把已知数据完全告诉计算机, 让计算机自己从中发现一些分类的规律, 即生成一个决策树, 然后利用新生成的决策树来对新的数据进行判别归类判别分析我们同样使用 Iris 数据进行演示 Matlab 中使用 classify 函数进行分类分析,classify(A, B, C) 中,A 参数为需要分类的样本数据,B 参数为已知的数据,C 参数为已知数据的分组信息在 classify 函数中, 我们同样可以修改距离的定义以及判别规则的定义同时, 由于我们是对原数据本身进行分类, 我们可以使用 strcm 函数判断误判情况, 从而对所选用方法进行评价并且, 我们可以应用 lot 函数将结果可视化

图中画叉的为误判点其实, 我们完全可以按照已知数据将整个平面进行分类, 来看一下我们所使用的判别方法的效果

从此图可以看出, 对于 Iris 数据我们现在采用的判别方法效果还是不错的如果效果不好, 即分类的界限不明显, 则我们就要调整距离或判别方法的定义了决策树法 Matlab 中的决策树法使用 treefit 函数生成决策树, 再用 treeval 函数利用生成决策树对新的样本点进行分类同样我们能够通过对平面进行分类来判断方法好坏从图中可以看出对于 Iris 数据决策树法并不十分理想有时我们会想利用最简单的决策树来获得最小的误判率, 这是可以实现的

因子分析研究动机我们有时还会遇见这样的问题, 就是每个样本的属性太多了, 并且彼此之间又有很多交叉, 我们试图找到一组彼此相互独立的参量来代替所有的这些属性这就好像是线性代数里面通过构造一组正交基来表示一些不完全线性无关的向量举例来说, 某企业招聘人才, 对每位应聘者进行外貌申请书的形式专业能力讨人喜欢的能力自信心洞察力诚实推销本领经验积极性抱负理解能力潜在能力实际能力适应性等 15 个方面的考核这 15 个方面可归结为应聘者的外露能力讨人喜欢的能力经验专业能力 4 个方面, 每一方面称之为一个公共因子企业可根据这 4 个公共因子的情况来衡量应聘者的综合水平理论原理因子分析的基本思想 : 是通过变量 ( 或样品 ) 的相关系数矩阵 ( 对样品是相似系数矩阵 ) 内部结构的研究, 找出能控制所有变量 ( 或样品 ) 的少数几个随机变量去描述多个变量 ( 或样品 ) 之间的相关 ( 相似 ) 关系, 但在这里, 这少数几个随机变量是不可观测的, 通常称为因子 X = ( x,,, ) 设 1 x2 x 为观察到的随机向量, F = ( F1, F2,, Fm ) 是不可观测的向量有 x1 = a11f1 + + a1 mfm + ε1 x 2 = a F 21 1 + + a F 2m m + ε 2

x = a F + + a 1 即 X = AF + ε ε = ( ε,, )' 其中 1 ε 称作误差或特殊因子满足假设 : 1) m 2) cov( F, ε ) = 0, 3) var( F ) = I m var( ε) = diag( σ,, ), 1 σ 称 Fi 为第 i 个公共因子, 为因子载荷下面我们看看因子载荷的意义是什么由于 x m a ij 1 2 m F 2 i m + ε = a F + + a F + ε i1 1 in m i i = 1,, E( xi F j ) = aik E( Fk F j ) = aik r( F F a k j ) = ij 则 K = K = 由于 F F r 1 1 k, j ( ) 1 不相关, 且 Fj F = 1 即 a, = r ij x i F j ij a 因子载荷 m 是第 i 个变量与第 j 个公共因子的相关系数也就是说, 因子载荷的大小反应了新的因子与原有因子的相关性的大小, 归一化后, 因子载荷 F j 越接近于一, 则对应的新的公共因子越能反映对应的原有变量 xi. 下面的问题就是如何求出因子载荷由于公共因子是不可观测量, 因此我们是通过变量 ( 或样品 ) 的相关系数矩阵 ( 对样品是相似系数矩阵 ) 内部结构的研究求出的因子载荷具体求解方法如下 : X = ( x, )' 这是常用的主成分法, 设随机向量 1, x 的协方差为 Σ, Σ 的特征值为 λ1 λ2 λ > 0 e,, 其相应的特征向量为, 1 e2 e ( 标准正交基 ) 则 : Σ = Udiag ( λ1,, λ ) U ' = λieiei ' = ( λ1 e1,, λ e )( λ1 e1 ',, λ e ')' i= 1 当公共因子 Fi 有 P 个时, 特殊因子为 0, 所以, X = AF A 为因子载荷阵因此, D ( X ) = var( AF ) = A var( F ) A' = AA' 所以, Σ = AA ', 因此,A 为 λ 1e1,, λ e A = ( λ, ) ), 所以, 1e1, λ e 所以第 j 列因子载荷为第 j 个主成分 ( e j 与 λ j 的乘积所以称为主成分法当最后 m λ 个特征根很小时, 去掉 m + 1em + 1,, λ e (, ) 此时, A = λ e, λ e 1 1 m m, 方差 Σ = AA ' +Σ ε ( λ, ) = e, λ 1 1 e ( e ',, λ e ' m m 1 1 m m )' λ ( σ,, ) +diag 1 σ Σ s Σ, 或样本相关阵 R λ ˆ λ 代替一般设 ˆ1 为 R e eˆ ˆ1,, m, 则因子载荷 A ˆ = ( ˆ ) A = ˆ λ e ˆ,, ˆ λ ˆ ) 另外, 当未知时, 用样本协方差代替样本相关阵的特征根, 相应的标准正交化特征向量为设 a ij ( 1 阵的估计为即 1 m 求解出因子载荷后, 我们自然期望个因子载荷要么趋于 0 要么区域 1, 若把各个相互独立的公共因子看成各个坐标轴, 我们期望所有的原有性质因子都贴近于某个坐标轴当所求结果不满足要求时, 我们常常通过旋转坐标轴的方法达到满意的效果 ( 旋转有垂直和非垂直两种, 这里不详述 ) m e a ij 2 2

简单总结一下因子分析的过程首先假设一组相互独立的公共因子, 然后求出因子载荷, 然后旋转得到满意的结果结果满意后, 我们往往要将新得到公共因子赋予一定的现实意义举例来说, 假如有 50 名学生考试, 共考了语文, 历史, 数学, 几何四门我们将每门功课看成是每名学生的一个属性, 现在用两个公共因子来代替他们得到因子载荷并旋转之后, 我们可以定义这两个因子一个为理科因子, 一个为文科因子 ( 与数学, 几何相关性大的为理科因子 ) 最后, 我们换个角度来考虑上面的例子, 假如我们已知因子载荷, 我们想知道对于某个学生的理科能力和文科能力具体怎么样, 也就是说我们想求出公共因子的大小, 这个问题叫做预测因子得分, 在这里不详述其原理, 在后面的 Matlab 应用中会有它的专有函数来解决这个问题 Matlab 工具箱展示成绩数据在因子分析演示中, 我们将使用一组新的数据, 它包含 120 个学生的 5 们成绩 (2 门文学,2 数学,1 门综合 ) 函数演示 Matlab 中使用 factoran 函数进行因子分析, 其中我们可以选择公共因子的个数旋转方式以及计算因子载荷所使用的是原数据的相关矩阵还是协方差矩阵, 我们还可以以公共因子为坐标轴使用 bilot 函数将得到的因子载荷可视化

我们还可以将旋转后的坐标轴可视化 ( 其中包括垂直和非垂直的 ) 同样应用 factoran 函数我们可以进行预测因子得分

图中的红点为每个学生的因子得分