15.564 信 息 技 术 I 企 业 智 能 运 营 vs 决 策 支 持 系 统 什 么 是 数 据 挖 掘 数 据 挖 掘 技 术 概 要 数 据 挖 掘 过 程 概 要 数 据 仓 库 Web 挖 掘 和 文 本 挖 掘 提 要 2 1
运 营 vs 决 策 支 持 系 统 3 运 营 vs 决 策 支 持 系 统 运 营 支 持 系 统 支 持 日 常 事 务 包 含 当 前 最 新 的 数 据 例 : 客 户 订 单 存 货 水 平 银 行 帐 户 收 支 决 策 支 持 系 统 支 持 战 略 决 策 的 制 定 包 含 历 史 的 总 结 性 数 据 例 : 性 能 总 结 客 户 收 益 性 市 场 分 割 4 2
运 营 应 用 举 例 : 订 单 界 面 Microsoft Access 软 件 程 序 截 图 5 决 策 支 持 系 统 (DSS) 应 用 举 例 : 年 度 业 绩 小 结 Microsoft Access 软 件 程 序 截 图 6 3
什 么 是 数 据 挖 掘? 结 合 人 工 智 能 (AI) 和 统 计 分 析 技 术, 来 发 现 隐 藏 在 数 据 中 的 信 息 关 联 ( 如 比 萨 和 啤 酒 的 销 售 关 系 ) 序 列 ( 如 将 事 件 联 系 在 一 起 : 结 婚 和 买 家 具 ) 分 类 ( 如 识 别 诸 如 最 有 可 能 离 开 的 客 户 属 性 等 的 模 式 ) 预 测 ( 如 根 据 过 去 的 模 式 预 测 客 户 的 购 买 习 惯 ) 7 数 据 挖 掘 应 用 举 例 直 接 销 售 确 定 应 该 将 哪 个 潜 在 客 户 写 入 邮 递 表 市 场 分 割 确 定 购 买 相 同 产 品 的 客 户 共 同 特 征 客 户 变 动 预 测 哪 一 类 客 户 最 有 可 能 离 开 你 的 公 司 到 你 的 竞 争 者 那 去 市 场 购 物 篮 分 析 识 别 什 么 样 的 产 品 最 有 可 能 一 起 购 买 保 险 要 求 分 析 发 现 欺 诈 交 易 的 模 式 将 当 前 交 易 和 这 些 模 式 进 行 对 比 8 4
案 例 分 析 : 银 行 在 丢 失 客 户 损 耗 率 要 比 获 得 率 高 最 有 利 可 图 的 客 户 好 像 就 是 那 个 要 离 开 的 客 户 9 案 例 分 析 : 美 国 银 行 银 行 打 算 扩 大 它 的 家 庭 资 产 贷 款 投 资 组 合 直 接 的 信 件 促 销 活 动 结 果 令 人 失 望 10 5
数 据 挖 掘 的 恶 性 循 环 确 定 企 业 问 题 使 用 数 据 挖 掘 来 将 数 据 转 换 为 有 用 的 信 息 正 确 的 数 据 是 什 么? 我 们 从 哪 里 得 到? 什 么 是 正 确 的 技 术? 对 信 息 进 行 操 作 评 估 结 果 11 使 用 数 据 挖 掘 的 业 务 基 本 有 六 个 任 务 分 类 将 信 用 申 请 分 为 低 风 险 中 等 风 险 和 高 风 险 三 类 将 保 险 要 求 分 类 为 正 常 和 可 疑 两 种 评 估 估 计 直 接 邮 递 响 应 的 概 率 估 计 客 户 的 存 在 期 价 值 预 测 预 测 哪 一 类 客 户 会 在 六 个 月 内 离 开 预 测 信 用 卡 候 选 人 可 能 的 帐 户 平 衡 大 小 12 6
关 联 分 组 使 用 数 据 挖 掘 的 业 务 找 出 客 户 最 有 可 能 一 起 购 买 的 物 品 找 出 给 Amazon.com 公 司 用 户 推 荐 的 是 什 么 书 聚 类 和 分 类 不 同 : 类 在 事 先 是 不 知 道 的! 描 述 通 过 揭 示 有 趣 的 模 式 来 帮 助 理 解 大 批 量 的 数 据 13 数 据 挖 掘 技 术 一 览 市 场 购 物 篮 分 析 基 于 记 忆 过 程 ( 协 作 过 滤 ) 自 动 聚 类 决 策 树 和 规 则 归 纳 神 经 网 络 14 7
市 场 购 物 篮 分 析 关 联 和 序 列 发 现 基 本 概 念 支 持 或 流 行 度 : 数 据 库 中 某 一 特 定 关 联 的 频 率 可 信 度 : 在 A 存 在 的 情 况 下, 的 条 件 预 测 例 : 日 常 交 易 总 数 :1,000 包 含 苏 打 水 的 数 目 :500 包 含 桔 子 汁 的 数 目 :800 包 含 苏 打 水 和 桔 子 汁 的 交 易 数 目 :450 苏 打 水 和 桔 子 汁 的 支 持 度 =45%(450/1,000) 苏 打 水 > 桔 子 汁 的 可 信 度 =90%(450/500) 桔 子 汁 > 苏 打 水 的 可 信 度 =56%(450/800) 15 应 用 市 场 购 物 篮 分 析 生 成 共 同 发 生 事 件 矩 阵 什 么 是 正 确 的 项??? 产 生 有 用 的 规 则 清 除 过 于 细 小 的 和 无 法 有 用 解 释 的 找 出 怎 么 应 用 它 们 同 样 的 技 术 也 能 用 在 时 序 挖 掘 上 以 找 到 有 用 的 动 作 序 列 16 8
基 于 记 忆 推 理 帮 助 预 测 客 户 / 职 业 的 未 知 属 性, 基 于 它 们 最 近 邻 同 类 的 属 性 是 Web 推 荐 引 擎 内 部 的 基 本 技 术 否 则 就 是 协 作 过 滤 17 ( 原 幻 灯 片 空 白 ) 18 9
例 :Amazon.com 书 籍 推 荐 例 : 确 定 推 荐 给 客 户 的 书 籍 公 司 保 存 了 过 去 用 户 购 买 情 况 的 日 志 每 个 顾 客 都 由 一 个 向 量 表 示, 向 量 的 元 素 是 过 去 的 购 买 情 况 定 义 一 个 距 离 函 数, 用 来 进 行 顾 客 间 的 对 比 根 据 这 个 距 离 函 数, 找 出 顾 客 最 近 的 邻 集 (NNS) 找 出 邻 集 中 购 买 量 大 但 这 个 顾 客 并 没 有 购 买 的 书 目 建 议 顾 客 下 次 可 以 购 买 这 些 书 19 Amazon.com 显 示 的 书 籍 推 荐 截 图 20 10
另 外 的 例 子 : 个 性 化 餐 馆 推 荐 Alice 在 网 站 Zagat.com 上 查 询 order Cafe 的 个 人 评 级 Alice 在 过 去 一 年 中 曾 经 为 20 多 个 餐 馆 提 交 过 评 级 Zagat.com 计 算 和 order Café 最 近 邻 的 那 些 餐 馆 的 平 均 ( 或 加 权 ) 评 级 这 就 是 Alice 的 order Café 的 个 人 评 级 注 意 这 个 对 于 order Café 的 平 均 评 级 可 能 会 和 所 有 人 的 整 体 评 价 大 大 不 同 21 聚 类 将 数 据 库 划 分 ( 分 割 ) 成 组 目 标 : 找 到 那 些 和 其 他 不 同 组 有 差 别, 且 组 内 元 素 彼 此 相 似 的 组 这 些 组 的 数 目 和 属 性 在 事 先 并 不 知 道 22 11
聚 类 ( 例 ) 23 决 策 树 数 据 挖 掘 用 来 生 成 树 例 子 算 法 :CART ( 分 类 和 回 归 树 ) 24 12
决 策 树 生 成 算 法 从 训 练 集 开 始 ( 即 借 贷 客 户 的 预 分 类 记 录 ) 每 个 客 户 记 录 包 括 自 变 量 : 收 入 和 老 板 工 作 的 时 间 债 务 因 变 量 : 过 去 贷 款 结 果 找 到 能 够 将 记 录 最 好 分 割 成 组 的 自 变 量, 在 这 个 组 中 由 一 个 单 独 的 类 ( 低 风 险, 高 风 险 ) 占 主 流 度 量 方 法 : 信 息 熵 ( 差 异 ) 目 标 : max[diversity before (diversity left + diversity right)] 如 此 递 归 直 至 生 成 树 的 低 层 25 优 点 决 策 树 的 优 缺 点 最 直 观 的 技 术 之 一, 人 们 确 实 喜 欢 决 策 树 确 实 能 帮 助 得 到 一 些 直 观 认 识 能 够 直 接 得 出 该 怎 样 做 / 决 策 程 序 缺 点 自 变 量 不 总 是 最 好 的 分 离 器 也 许 它 们 中 的 某 些 有 联 系 / 冗 余 也 许 最 好 的 分 离 器 是 这 些 变 量 的 线 形 组 合 ( 想 想 因 子 分 析 ) 26 13
神 经 网 络 生 成 预 测 模 型 的 有 利 方 法 每 个 节 点 对 其 输 入 使 用 一 个 激 活 函 数 激 活 函 数 的 结 果 乘 以 Wij 后 向 输 出 传 递 27 神 经 网 络 权 重 大 小 由 训 练 集 确 定, 训 练 集 是 一 组 输 入 和 输 出 都 已 知 的 测 试 用 例 28 14
神 经 网 络 例 : 为 计 算 贷 款 申 请 人 的 信 用 风 险 而 构 造 一 个 神 经 网 络 输 入 : 年 收 入 贷 款 总 量 贷 款 期 限 输 出 : 未 按 期 付 款 概 率 训 练 集 : 过 去 已 知 结 果 的 客 户 数 据 29 神 经 网 络 开 始 先 给 权 重 赋 予 一 些 初 始 的 估 计 值 将 训 练 集 中 的 第 一 个 记 录 值 赋 值 给 输 入 1 和 输 入 2 的 自 变 量 对 比 输 出 并 计 算 错 误 通 过 反 向 传 送 错 误 信 息 而 更 正 权 重 的 估 计 值 30 15
神 经 网 络 对 下 一 个 训 练 集 记 录 重 复 上 升 操 作 直 至 模 型 收 敛 31 神 经 网 络 的 优 缺 点 优 点 多 面 手, 对 复 杂 域 问 题 能 够 给 出 很 好 的 结 果 缺 点 神 经 网 络 无 法 解 释 数 据 所 有 的 输 入 和 输 出 都 必 须 处 理 至 [0,1] 之 间 32 16
数 据 挖 掘 过 程 定 义 企 业 问 题 建 立 数 据 挖 掘 数 据 库 考 察 数 据 为 建 模 准 备 数 据 构 造 模 型 评 估 模 型 使 用 模 型 和 结 果 33 选 择 合 适 的 数 据 挖 掘 技 术 技 术 分 类 估 计 预 测 相 关 分 组 聚 类 描 述 标 准 统 计 市 场 菜 篮 子 分 析 基 于 记 忆 推 理 遗 传 算 法 自 动 类 别 侦 测 链 接 分 析 决 策 树 神 经 网 络 34 17
评 估 不 同 的 技 术 易 于 理 解 的 模 型 易 于 训 练 的 模 型 易 于 应 用 的 模 型 普 遍 性 实 用 性 可 用 性 标 准 统 计 A+ 市 场 菜 篮 子 分 析 A A A+ D 基 于 记 忆 推 理 A- A- A- C 遗 传 算 法 - C- A- + C C 自 动 类 别 侦 测 + + A- A- - 链 接 分 析 A- C D C+ 决 策 树 A+ + A+ A A + 神 经 网 络 C- - A- A A A 35 什 么 是 数 据 仓 库? 数 据 挖 掘 在 数 据 的 干 净 程 度 和 一 致 性 方 面 要 求 非 常 高 决 策 支 持 数 据 出 现 在 许 多 不 同 的 数 据 库 中 在 公 司 内 部 在 公 司 外 部 经 常 是 不 一 致 且 不 干 净 的 也 就 是 说, 实 时 查 找 整 合 这 些 信 息 是 相 当 困 难 的 解 决 方 案 : 为 决 策 支 持 生 成 单 独 的 数 据 储 存 库 => 数 据 仓 库 36 18
数 据 仓 库 体 系 结 构 37 数 据 仓 库 需 要 考 虑 的 事 项 包 含 什 么 样 的 数 据? 如 何 消 除 不 一 致 性? 多 长 时 间 升 级 一 次? 38 19
企 业 智 能 发 展 趋 势 文 本 挖 掘 从 无 结 构 的 文 本 数 据 中 挖 掘 模 式, 如 从 Web 中 发 掘 软 件 代 理 技 术 企 业 智 能 代 表 了 消 费 者 利 益 代 理 学 习 它 们 的 人 类 主 人 的 偏 好 和 行 为, 从 而 在 网 络 上 搜 索 并 推 荐 产 品 对 比 价 格 和 其 他 属 性 并 选 择 厂 商 自 动 讨 价 还 价 这 些 对 那 些 厂 商 意 外 着 什 么??? 39 推 荐 书 籍 给 那 些 想 进 一 步 钻 研 者 Data Mining Techniques: Michael J. A. erry and Gordon Linoff 有 用 的 链 接 http://databases.about.com/cs/datamining/ 案 例 学 习 和 产 业 Datamation 杂 志 网 站 http://www.datamation.com 40 20