第 10 章 SPSS 的 聚 类 分 析 10.1 聚 类 分 析 的 一 般 问 题 10.2 层 次 聚 类 10.3 K-MEANS 聚 类
10.1 聚 类 分 析 的 一 般 问 题 概 念 : 聚 类 分 析 是 统 计 学 中 研 究 物 以 类 聚 的 一 种 方 法, 属 多 元 统 计 分 析 方 法 例 如 : 细 分 市 场 高 校 分 类 - 聚 类 分 析 是 建 立 一 种 分 类, 是 将 一 批 样 本 ( 或 变 量 ) 按 照 在 性 质 上 的 亲 疏 程 度, 在 没 有 先 验 知 识 的 情 况 下 进 行 分 类 的 方 法. 其 中 : 类 内 个 体 具 有 较 高 的 相 似 性, 类 间 的 差 异 性 较 大.
编 号 购 物 环 境 服 务 质 量 A 73 68 B 66 69 C 84 82 D 91 88 E 94 90 依 据 平 均 得 分 的 差 距, 差 距 较 小 的 为 一 类. 分 类 过 程 中, 没 有 事 先 指 定 分 类 的 标 准. 完 全 根 据 样 本 数 据 客 观 产 生 分 类 结 果 : 分 两 类 :(A B) (C D E); 三 类 :(A B) (C) (D E)
亲 疏 远 程 度 的 衡 量 指 标 相 似 性 : 数 据 间 相 似 程 度 的 度 量 距 离 : 数 据 间 差 异 程 度 的 度 量. 距 离 越 近, 越 亲 密, 聚 成 一 类 ; 距 离 越 远, 越 疏 远, 分 别 属 于 不 同 的 类 定 距 型 个 体 间 的 距 离 : 把 每 个 个 案 数 据 看 成 是 n 维 空 间 上 的 点, 在 点 和 点 之 间 定 义 某 种 距 离. 一 般 适 用 于 定 距 数 据 欧 氏 距 离 (EUCLID) 平 方 欧 氏 距 离 (SEUCLID)... EUCLID( x, y) = ( x y ) k i= 1 i i 2
定 距 型 个 体 间 的 距 离 矩 阵 ( 示 例 : 商 厦 评 分.sav ) Case 1:A 商 厦 2:B 商 厦 3:C 商 厦 4:D 商 厦 5:E 商 厦 Proximity Matrix Euclidean Distance 1:A 商 厦 2:B 商 厦 3:C 商 厦 4:D 商 厦 5:E 商 厦 This is a dissimilarity matrix.000 8.062 17.804 26.907 30.414 8.062.000 25.456 34.655 38.210 17.804 25.456.000 9.220 12.806 26.907 34.655 9.220.000 3.606 30.414 38.210 12.806 3.606.000 对 称 阵, 主 对 角 线 元 素 为 零
品 质 型 个 体 间 的 距 离 简 单 匹 配 (simple matching) 系 数 : 适 用 二 值 变 量 a 为 个 体 i 与 个 体 j 在 所 有 变 量 上 同 时 取 1 的 个 数 ; d 为 同 时 取 0 的 个 数 ; a+d 反 映 了 两 个 个 体 的 相 似 程 度 b 为 个 体 i 为 1 且 j 为 0 的 个 数 ; c 为 个 体 i 为 0 且 j 为 1 的 个 数, c+d 反 映 了 两 个 个 体 的 差 异 程 度 个 体 i 个 体 j 1 0 1 a b 0 c d Si (, j) b+ c = a + b + c + d
品 质 型 个 体 间 的 距 离 - 简 单 匹 配 (simple matching) 系 数 示 例 姓 名 上 课 方 式 上 机 时 间 选 某 门 课 程 张 三 1 1 1 李 四 1 1 0 王 五 0 0 1 ( 张 三, 李 四 ):a=2 b=1 c=0 d=0 S(x,y)=1/(1+2)=1/3 ( 张 三, 王 五 ):a=1 b=2 c=0 d=0 S(x,y)=2/(1+2)=2/3 故 : 李 四 与 王 五 相 比, 李 四 近 张 三 更 距
品 质 型 个 体 间 的 距 离 雅 科 比 (Jaccard) 系 数 : 适 用 二 值 变 量 a 为 个 体 i 与 个 体 j 在 所 有 变 量 上 同 时 取 1 的 个 数 ; d 为 同 时 取 0 的 个 数 ; a+d 反 映 了 两 个 个 体 的 相 似 程 度 b 为 个 体 i 为 1 且 j 为 0 的 个 数 ; c 为 个 体 i 为 0 且 j 为 1 的 个 数, c+d 反 映 了 两 个 个 体 的 差 异 程 度 个 体 i 个 体 j 1 0 1 a b 0 c d b+ c Jij (, ) = a + b + c 雅 科 比 系 数 忽 略 两 个 个 体 同 时 为 0的 频 数 ( 医 学 上 指 标 阴 性 为 正 常, 参 考 意 义 不 大 )
品 质 型 个 体 间 的 距 离 -Jaccard 系 数 示 例 姓 名 性 别 发 烧 咳 嗽 检 查 1 检 查 2 检 查 3 检 查 4 张 三 男 1 0 1 0 0 0 李 四 女 1 0 1 0 1 0 王 五 男 1 1 0 0 0 0 0+ 1 J ( 张 三, 李 四 ) = = 0.33 2+ 0+ 1 1+ 1 J ( 张 三, 王 五 ) = = 0.67 1+ 0+ 1 结 论 : 张 三 和 李 四 最 有 可 能 得 类 似 的 病 ; 李 四 和 王 五 不 太 有 可 能 1+ 2 J ( 李 四, 王 五 ) = = 0.75 1+ 1+ 2
简 单 匹 配 系 数 - 雅 科 比 系 数 比 较 示 例 : 姓 名 上 课 方 式 上 机 时 间 选 某 门 课 程 张 三 1 (0) 1(0) 1(0) 李 四 1 (0) 1(0) 0(1) 王 五 0 (1) 0(1) 1(0) ( 张 三, 李 四 ) 1: a=2 b=1 c=0 d=0 S(x, y)=1/(1+2)=1/3 ( 张 三, 李 四 ) 2: a=0 b=0 c=1 d=2 S(x, y)=1/(1+2)=1/3 ( 相 同 ) ( 张 三, 李 四 ) 1: a=2 b=1 c=0 d=0 J(x, y)=1/(1+2)=1/3 ( 张 三, 李 四 ) 2: a=0 b=0 c=1 d=2 J(x, y)=1/1=1 ( 不 相 同 ) 计 算 简 单 匹 配 系 数 时,0 与 1 地 位 相 同 ; 而 在 计 算 雅 科 比 系 数 中 地 位 是 不 同 的
计 数 变 量 个 体 间 的 距 离 卡 方 距 离 : CHISQ( x, y) ( x E( x )) ( y E( y )) = + Ex ( ) Ey ( ) 2 2 i i i i i i Phi 方 距 离 : 2 2 ( xi E( xi)) ( yi E( yi)) + Ex ( i) Ey ( i) PHISQ( x, y) = ( n为 总 频 数 ) n 姓 名 选 修 课 门 数 ( 期 望 频 数 ) 专 业 课 门 数 ( 期 望 频 数 ) 得 优 门 数 期 望 频 数 合 计 张 三 9(8.5) 6(6) 4(4.5) 19 李 四 8(8.5) 6(6) 5(4.5) 19 合 计 17 12 9 38 2 2 2 2 2 2 (9 8.5) (6 6) (4 4.5) 8 8.5) (6 6) (5 4.5) Chisq = ( + + ) + ( + + ) = 4.12 8.5 6 4.5 8.5 6 4.5
聚 类 分 析 的 说 明 一 : 聚 类 过 程 中 如 果 数 据 在 数 量 级 上 存 在 差 异 时, 应 进 行 标 准 化 处 理 例 如 : 样 本 号 社 科 活 动 人 员 数 ( 人 ) 研 究 与 发 展 年 投 入 经 费 ( 元 ) 研 究 与 发 展 课 题 数 ( 项 ) 1 410 4380000 19 2 336 1730000 21 3 490 220000 8 样 本 的 欧 氏 距 离 元 万 元 (1,2) 265000 81.623 (1,3) 218000 193.700 (2,3) 47000 254.897 用 元 与 万 元 求 得 的 距 离 分 别 是 样 本 (2,3) 最 小 和 (1,2) 最 小. 是 不 同 的
聚 类 分 析 的 说 明 二 : 聚 类 分 析 中 的 变 量 选 择 问 题 变 量 应 和 聚 类 分 析 的 目 标 密 切 相 关 如 ; 学 校 科 研 能 力 的 评 价, 选 取 科 研 经 费, 项 目... 聚 类 结 果 仅 是 所 选 定 变 量 所 具 数 据 特 点 的 反 应 变 量 之 间 不 应 具 有 高 度 相 关 性 聚 类 分 析 包 括 : 个 案 聚 类 (Q 型 ) 和 变 量 聚 类 (R 型 ) 两 种 聚 类 分 析 包 括 : 层 次 聚 类 和 快 速 聚 类...
10.2 层 次 聚 类 思 路 : 聚 类 过 程 具 有 一 定 的 层 次 性 以 合 并 ( 凝 聚 ) 的 方 式 聚 类 (SPSS 采 用 ) 首 先, 每 个 个 体 自 成 一 类 其 次, 将 最 亲 密 的 个 体 聚 成 一 小 类 然 后, 将 最 亲 密 的 小 类 或 个 体 再 聚 成 一 类 重 复 上 述 过 程, 即 : 把 所 有 的 个 体 和 小 类 聚 集 成 越 来 越 大 的 类, 直 到 所 有 的 个 体 都 到 一 起 ( 一 大 类 ) 为 止 特 点 : 随 着 聚 类 的 进 行, 类 内 的 亲 密 性 在 逐 渐 减 弱
层 次 聚 类 的 分 解 方 式 首 先, 所 有 个 体 都 属 于 一 类 其 次, 将 大 类 中 最 疏 远 的 小 类 或 个 体 分 离 出 去 然 后, 分 别 将 小 类 中 最 疏 远 的 小 类 或 个 体 再 分 离 出 去 重 复 上 述 过 程, 即 : 把 类 分 解 成 越 来 越 小 的 小 类, 直 到 所 有 的 个 体 自 成 一 类 为 止 特 点 : 随 着 聚 类 的 进 行, 类 内 的 亲 密 性 在 逐 渐 增 强
层 次 聚 类 中 亲 疏 程 度 的 衡 量 对 象 个 体 间 距 离 个 体 和 小 类 间 距 离 小 类 和 小 类 间 的 距 离
个 体 和 小 类 类 和 类 间 的 距 离 最 短 距 离 法 (nearest neighbor): 两 类 间 的 距 离 定 义 为 两 类 中 距 离 最 近 的 两 个 个 案 之 间 的 距 离 最 长 距 离 法 (furthest neighbor): 两 类 间 的 距 离 定 义 为 两 类 中 距 离 最 远 的 两 个 个 案 之 间 的 距 离 平 均 链 锁 法 (within-groups linkage) 两 类 之 间 的 距 离 定 义 为 两 类 个 案 之 间 距 离 的 平 均 值 包 括 : 组 间 平 均 链 锁 法 (between-groups linkage): 只 考 虑 两 类 间 个 案 的 距 离 组 内 平 均 链 锁 法 (With-groups linage): 考 虑 所 有 个 案 间 的 距 离
层 次 聚 类 操 作 步 骤 1). 菜 单 选 项 : analyze->classify->hierarchical cluster 2). 选 择 参 与 聚 类 分 析 的 变 量 入 variables 框 3). 选 择 一 字 符 型 变 量 作 为 个 案 的 标 记 变 量 (label cases) 4). 选 择 个 案 聚 类 还 是 变 量 聚 类 5). 选 择 距 离 计 算 方 法 (method 选 项 ) -cluster method: 计 算 类 间 距 离 的 方 法 -measure: 计 算 样 本 距 离 的 方 法 -transform values: 对 数 据 进 行 标 准 化 处 理 by variable: 以 变 量 为 单 位 标 准 化, 适 于 个 案 聚 类 by case: 对 个 案 为 单 位 标 准 化, 适 于 变 量 聚 类
层 次 聚 类 操 作 步 骤 6). 数 据 输 出 (statistics 选 项 ) -agglomeration schedule: 凝 聚 状 态 表 ( 默 认 ) -distance matrix: 样 本 的 距 离 矩 阵 -cluster membership: 类 成 员 none: 不 输 出 类 成 员 ( 默 认 ) single solution: 聚 成 n 类 时 各 样 本 的 归 属 range of solutions: 聚 成 m-n 类 时 各 样 本 的 归 属 7). 图 形 输 出 (plot 选 项 ) - dendrogram: 树 型 图 - icicle: 冰 柱 图 all cluster: 聚 类 的 每 一 步 均 在 冰 柱 图 中 体 现 specified range of clusters: 将 聚 类 的 第 n1 类 开 始 到 第 n2 类 结 束, 间 隔 n3 类 的 聚 类 分 析 过 程 在 冰 柱 图 中 体 现 orientation: 冰 柱 图 的 方 向 : vertical 纵 向 ;horizontal 横 向
层 次 聚 类 操 作 步 骤 8). 结 果 保 存 (save 选 项 ) - single solution: 生 成 一 新 变 量 存 储 在 聚 成 n 类 时 各 样 本 属 于 哪 一 类 (clun_m: N 为 聚 类 数,M 为 第 几 次 做 的 ) - range of solutions: 生 成 若 干 个 变 量 分 别 存 放 聚 成 n-m 类 时 各 样 本 的 归 属 情 况 聚 类 数 目 的 确 定 聚 类 数 目 确 定 尚 无 统 一 标 准, 一 般 原 则 : - 各 类 所 包 含 的 元 素 都 不 应 过 多 - 分 类 数 目 应 符 合 分 析 的 目 的 层 次 聚 类 中 可 以 将 类 间 距 离 作 为 确 定 类 数 目 的 辅 助 工 具 - SPSS 中, 聚 类 过 程 中, 类 间 距 离 呈 增 加 趋 势 - 类 间 距 离 小, 类 的 相 似 性 大 ; 距 离 大, 相 似 性 小 - 绘 制 碎 石 图 (X 轴 为 类 距 离,Y 轴 为 类 数 )
根 据 小 康 指 数.sav 数 据 对 31 个 省 市 自 治 区 进 行 层 次 聚 类
究 竟 分 几 个 类 比 较 合 适 呢? 可 借 助 碎 石 图 ( 类 的 个 数 与 对 应 类 距 离 的 散 点 图 ) 来 确 定
10.3 K-MEANS 快 速 聚 类 一. 出 发 点 希 望 : 克 服 分 层 聚 类 在 大 样 本 时 产 生 的 困 难, 提 高 聚 类 效 率 二. 思 路 : 通 过 用 户 事 先 指 定 聚 类 数 目 的 方 式 提 高 效 率 1. 指 定 最 后 要 聚 成 K 类 2. 用 户 指 定 k 个 样 本 作 为 初 始 类 中 心 或 系 统 自 动 确 定 k 个 样 本 作 为 初 始 类 中 心 3. 系 统 按 照 距 k 个 中 心 距 离 最 近 的 原 则 把 每 个 样 本 分 派 到 各 中 心 所 在 的 类 中 去, 形 成 一 个 新 的 k 类, 完 成 一 次 迭 代 4. 重 新 计 算 k 个 类 的 类 中 心 ( 计 算 每 类 各 变 量 的 均 值, 以 均 值 点 作 为 类 中 心 ) 5. 重 复 3 步 和 4 步, 直 到 达 到 终 止 迭 代 的 条 件
三. 快 速 聚 类 的 终 止 条 件 SPSS 中 两 个 判 断 聚 类 是 否 结 束 的 条 件, 满 足 其 中 一 个 即 可 结 束 聚 类 过 程 : 达 到 指 定 迭 代 次 数 (maximum iteration), 默 认 10 次 收 敛 标 准 (convergence), 默 认 0.02, 即 : 本 次 迭 代 产 生 的 任 意 新 类, 各 中 心 位 置 变 化 较 小. 其 中 最 大 的 变 化 率 小 于 2%.
四. 快 速 聚 类 操 作 步 骤 1) 菜 单 选 项 :analyze->classify->k means cluster 2) 选 定 参 加 快 速 聚 类 分 析 的 变 量 到 variables 框 3) 确 定 快 速 聚 类 的 类 数 (number of clusters). 类 数 应 小 于 个 案 总 数 4) 选 择 聚 类 方 法 (method): 默 认 iterate and classify, 即 : 在 聚 类 的 每 一 步 都 重 新 计 算 新 的 类 中 心 5) 确 定 聚 类 终 止 条 件 (iterate) 6) 保 存 快 速 聚 类 的 结 果 (save) - cluster membership: 将 各 个 案 所 属 类 的 类 号 保 存 到 qcl_1 变 量 中 - distance from cluster center: 将 各 样 本 距 所 属 类 中 心 的 距 离 保 存 到 qcl_2 变 量 中 7) 输 出 选 项 (option) initial cluster centers: 输 出 初 始 类 中 心 点 ANOVA table: 输 出 各 类 的 方 差 分 析 表 cluster information for each case: 输 出 每 个 样 本 的 分 类
四. 快 速 聚 类 操 作 步 骤 8)use running means 项 : - 选 中 : 表 示 每 个 样 本 被 分 配 到 一 类 后 立 即 计 算 新 的 类 中 心 聚 类 结 果 与 个 案 的 先 后 次 序 有 关. - 不 选 中 : 表 示 完 成 了 所 有 个 案 的 依 次 分 配 后 再 计 算 类 中 心 9) 用 户 指 定 类 中 心 (center) - read initial from: 若 不 指 定 则 系 统 自 动 确 定 初 始 类 中 心 指 定 则 从 某.sav 文 件 中 读 入 初 始 类 中 心 数 据 ( 应 设 一 个 名 为 Cluster_ 的 变 量 名 ) - Write final as: 最 后 将 各 类 中 心 写 入 某.sav 文 件
根 据 小 康 指 数.sav 数 据 对 31 个 省 市 自 治 区 的 快 速 聚 类
快 速 聚 类 算 出 了 指 定 三 个 分 类 时 的 中 心, 根 据 个 案 到 这 三 个 类 的 距 离 就 可 以 最 终 确 定 个 案 类 别
聚 类 分 析 SPSS 实 验 练 习 根 据 附 件 中 8 名 裁 判 的 打 分 数 据, 对 八 名 裁 判 打 分 的 相 似 性 分 别 作 层 次 聚 类 和 快 速 聚 类 ( 注 意, 这 里 相 当 于 对 变 量 聚 类, 要 选 R 型 聚 类 )