DOI:0.3878 / j.cnki.jnuist.206.03.009 来 鹏 赵 茹 蕾 郭 利 珍 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究 摘 要 当 今 银 行 之 间 的 竞 争 日 益 加 剧, 能 有 效 地 挖 掘 潜 在 客 户 并 为 之 提 供 差 异 化 服 务, 对 提 高 银 行 竞 争 力 尤 为 重 要. 用 决 策 树 算 法 对 可 能 影 响 银 行 客 户 是 否 认 购 定 期 存 款 的 2 个 影 响 因 素 进 行 数 据 挖 掘 分 析, 构 建 了 银 行 客 户 认 购 定 期 存 款 业 务 影 响 因 素 的 决 策 树 模 型. 研 究 结 果 表 明 显 著 影 响 客 户 认 购 定 期 存 款 的 3 个 因 素 为 员 工 指 标 人 数 持 续 时 间 和 月 份, 这 可 以 大 大 缩 小 银 行 推 送 认 购 定 期 存 款 的 客 户 范 围, 有 利 于 提 高 银 行 效 率. 关 键 词 数 据 挖 掘 ; 客 户 定 位 ; 决 策 树 ; 统 计 决 策 中 图 分 类 号 F830 文 献 标 志 码 A 0 引 言 近 年 来, 随 着 外 资 银 行 全 面 进 军 中 国 银 行 业 并 且 逐 步 成 为 我 国 银 行 体 系 中 的 重 要 力 量, 我 国 银 行 业 间 的 竞 争 空 前 激 烈, 而 要 在 市 场 中 立 于 不 败 之 地, 就 要 提 高 客 户 事 务 的 处 理 能 力, 对 客 户 进 行 深 层 次 挖 掘 以 及 合 理 的 定 位, 实 现 高 效 管 理 []. 因 此, 客 户 的 合 理 分 类 是 提 高 银 行 客 户 管 理 效 率 的 基 础 和 前 提. 本 文 以 葡 萄 牙 银 行 机 构 提 供 的 客 户 数 据 为 研 究 对 象, 讨 论 影 响 银 行 客 户 认 购 定 期 存 款 的 因 素, 对 可 能 认 购 的 用 户 进 行 客 户 定 位, 便 于 银 行 提 高 工 作 效 率, 更 好 地 为 客 户 提 供 服 务. 注 意 到 所 研 究 的 问 题 从 本 质 上 是 一 个 分 类 问 题, 是 通 过 多 个 研 究 因 素 判 定 客 户 是 否 为 具 有 效 益 的 优 质 目 标 客 户, 而 从 数 据 类 型 来 看, 数 据 呈 现 出 既 有 离 散 变 量, 又 有 连 续 变 量, 既 有 二 值 变 量, 又 有 多 值 变 量 等 特 点, 很 多 传 统 的 建 模 预 测 方 法 分 类 方 法 不 再 适 用. 例 如 : 线 性 回 归 模 型 由 于 其 模 型 假 设 不 再 满 足 ; 非 参 数 回 归 方 法 会 面 临 维 数 过 高 的 问 题 ; 神 经 网 络 模 型 又 过 于 复 杂, 在 计 算 效 率 上 比 较 差 ; 判 别 分 析 方 法 因 为 数 据 的 复 杂 特 性, 很 难 确 定 合 适 的 符 合 复 杂 数 据 类 型 的 恰 当 距 离 函 数 来 构 造 判 别 准 则. 所 以, 决 策 树 方 法 就 由 于 其 对 数 据 类 型 的 较 弱 假 设, 计 算 效 率 比 较 高, 处 理 离 散 或 复 杂 分 类 数 据 比 较 有 效 的 特 点 而 在 本 文 中 被 采 用. 基 于 信 息 熵 的 决 策 树 算 法 收 稿 日 期 205 07 02 资 助 项 目 江 苏 省 高 等 学 校 大 学 生 创 新 创 业 训 练 计 划 (204030003Z);206 年 度 江 苏 高 校 青 蓝 工 程 培 养 对 象 作 者 简 介 来 鹏, 男, 博 士, 副 教 授, 研 究 方 向 为 复 杂 数 据 统 计 分 析 以 及 数 据 挖 掘. laipengnuist@ 63.com 南 京 信 息 工 程 大 学 数 学 与 统 计 学 院, 南 京, 20044 信 息 熵 又 称 为 期 望 信 息 量, 是 用 来 衡 量 信 息 量 凌 乱 程 度 的 指 标, 熵 值 越 大, 则 代 表 信 息 的 凌 乱 程 度 越 高. 基 于 信 息 熵 的 决 策 树 算 法 是 通 过 收 集 已 知 类 别 的 样 本, 将 提 供 最 大 信 息 增 益 的 属 性 作 为 节 点 分 裂 方 案 去 构 造 决 策 树 的, 即 所 选 测 试 属 性 是 从 根 到 当 前 节 点 的 路 径 上 尚 未 被 考 虑 的 具 有 最 高 信 息 增 益 属 性. 决 策 树 的 每 个 节 点 对 应 一 个 非 类 别 属 性, 每 条 边 对 应 该 属 性 的 每 个 可 能 值 [2]. 设 S 是 s 个 数 据 样 本 的 集 合, 不 妨 设 类 标 号 属 性 具 有 n 个 不 同 的 值, 定 义 n 个 不 同 的 类 为 C i (i =,2,,n),s i 是 类 C i 中 的 样 本 数. 设 一 个 属 性 D 有 m 个 不 同 的 取 值 {a,,a m }, 使 用 属 性 D 可 将 样 本 集 合 S 划 分 为 m 个 不 同 的 集 合 {S,S 2,,S m }, 其 中 S j 包 含 了 集 合 S 中 属 性 D 取 值 a j 时 的 数 据 样 本. 若 属 性 D 被 标 记 为 测 试 属 性, 即 用 于 对 当 前 的 样 本 集 进 行 划 分, 设 s ij 为 样 本 子 集 S j 中 属 于 类 别 C i 的 样 本 数, 那 么
274 根 据 属 性 D 划 分 当 前 样 本 集 所 需 要 的 信 息 熵 的 计 算 公 式 为 E(D) = m j = 其 中, s j + s 2j + + s nj s s j + s 2j + + s nj I(s s j,s 2j,,s nj ), () 可 以 作 为 第 j 个 子 集 S j 的 权 值, 它 是 由 该 子 集 中 所 有 属 性 取 值 为 a j 的 样 本 数 之 和 除 以 集 合 S 中 的 样 本 总 数 而 得 到 的,E(D) 的 计 算 结 果 值 越 小, 表 明 子 集 划 分 的 纯 度 越 高. 此 时, 对 于 子 集 S j 的 信 息 量 的 计 算 方 法 为 I(s j,s 2j,,s nj ) = - n i = p ij log 2 (p ij ), (2) 其 中, p ij 表 示 样 本 子 集 S j 中 任 意 一 个 数 据 样 本 属 于 类 别 C i 的 概 率. 因 此, 利 用 属 性 D 对 当 前 分 支 节 点 进 行 相 应 的 样 本 集 划 分 所 获 得 的 信 息 增 益 为 G(D) = I(s,s 2,,s n ) - E(D), (3) 其 中 I(s,s 2,,s n ) = n i = p i log 2 (p i ),p i = s i / s,i =, 2,,n. 换 言 之,G(D) 就 是 根 据 属 性 D 的 取 值 进 行 样 本 集 划 分 所 获 得 的 信 息 熵 的 减 少 量, 决 策 树 归 纳 算 法 用 于 计 算 每 个 属 性 的 信 息 增 益, 从 中 挑 选 出 信 息 增 益 最 大 的 属 性 作 为 给 定 集 合 S 的 测 试 属 性, 并 由 此 产 生 相 应 的 分 支 节 点. 所 产 生 的 节 点 被 标 记 为 相 应 的 属 性, 并 根 据 这 一 属 性 的 不 同 取 值 分 别 生 成 相 应 的 ( 决 策 树 ) 分 支, 每 个 分 支 都 代 表 一 个 被 样 本 划 分 的 样 本 子 集 [3]. 2 银 行 客 户 认 购 定 期 存 款 建 模 方 案 研 究 2 数 据 介 绍 以 及 变 量 描 述 现 代 的 银 行 的 客 户 关 系 管 理, 需 要 面 对 海 量 的 客 户 信 息, 这 就 需 要 银 行 对 数 据 库 中 的 原 始 客 户 数 据 进 行 深 层 次 的 挖 掘, 寻 找 目 标 客 户. 所 用 数 据 集 是 葡 萄 牙 银 行 机 构 从 2008 年 5 月 200 年 月 所 有 话 访 活 动 市 场 调 查 结 果 的 4 88 个 银 行 客 户 的 相 关 数 据 [4], 用 来 预 测 银 行 客 户 是 否 认 购 其 定 期 存 款 并 将 其 分 类. 将 记 录 的 2 个 属 性 变 量 假 定 为 影 响 顾 客 是 否 认 购 存 款 业 务 的 影 响 因 素. 这 些 统 计 变 量 可 分 为 4 类 : 客 户 情 况 与 银 行 关 系 接 触 银 行 活 动 状 况 和 经 济 社 会 环 境 状 况. 具 体 表 现 为 ) 客 户 情 况 : 年 龄 工 作 状 况 婚 姻 状 况 受 教 育 程 度 房 贷 个 人 贷 款. 2) 与 银 行 关 系 : 信 用 拖 欠 状 况 账 户 余 额 认 购 定 期 存 款 情 况. 3) 接 触 银 行 活 动 状 况 : 被 联 系 的 方 式 近 月 接 触 来 鹏, 等. 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究. LAI Peng,et al.statistical decision research for bank s long term deposit subscription. 日 期 近 年 接 触 月 份 联 系 的 持 续 时 间 本 次 活 动 期 间 被 联 系 次 数 之 前 接 触 次 数 之 前 的 活 动 结 果 距 上 次 联 系 过 去 的 天 数. 4) 经 济 社 会 环 境 状 况 : 员 工 人 数 的 季 度 指 标 就 业 变 化 率 消 费 者 信 心 指 数 居 民 消 费 价 格 指 数. 2 2 数 据 的 处 理 与 转 换 从 对 该 葡 萄 牙 银 行 机 构 的 4 88 个 银 行 客 户 的 相 关 数 据 的 初 步 研 究 发 现, 该 数 据 集 数 据 量 比 较 大, 如 果 将 全 部 数 据 用 于 分 析, 会 发 现 数 据 过 多 使 得 计 算 效 率 比 较 低. 一 个 简 单 的 解 决 办 法 是 通 过 随 机 采 样 的 方 法 随 机 抽 取 部 分 数 据, 使 数 据 具 有 足 够 的 代 表 性, 能 够 快 速 准 确 地 得 到 正 确 的 分 析 结 果. 在 此 基 础 上, 本 例 将 数 据 分 割 成 训 练 数 据 集 (70%) 和 验 证 数 据 集 (30%), 这 样 在 用 训 练 数 据 集 建 立 好 模 型 后, 利 用 验 证 数 据 集 对 模 型 进 行 修 正 预 测, 从 而 避 免 模 型 的 过 度 拟 合, 提 高 模 型 的 灵 活 性, 最 终 提 高 模 型 的 质 量 和 预 测 效 果. 由 于 对 本 例 通 过 数 据 初 步 了 解 客 户 最 终 认 购 的 比 例 占 到 2 7%, 还 有 87 3% 的 银 行 客 户 并 没 有 响 应, 两 种 数 据 之 间 相 差 过 大, 如 果 直 接 对 该 数 据 进 行 建 模, 将 由 于 两 者 数 据 量 差 别 太 大, 可 能 使 得 分 析 结 果 有 偏 差, 给 模 型 的 建 立 以 及 预 测 能 力 带 来 较 大 的 负 面 影 响. 为 了 更 好 地 进 行 建 模, 对 数 据 进 行 更 准 确 的 分 析, 本 文 在 最 终 认 购 定 期 存 款 的 客 户 随 机 抽 取 2 060 个 样 本 形 成 SAS 数 据 集 YES, 在 不 认 购 的 客 户 中 随 机 抽 取 2 060 个 样 本 形 成 SAS 数 据 集 NO. 合 并 YES 与 NO 数 据 集, 使 之 变 成 本 文 最 终 所 用 的 测 试 集 NEW, 使 最 终 认 购 的 比 例 与 拒 绝 认 购 的 比 例 大 致 相 等, 从 而 使 得 各 类 数 据 的 特 点 能 更 好 地 体 现 出 来. 然 而, 考 虑 到 这 种 认 购 比 率 与 现 实 生 活 的 实 际 比 率 并 不 相 符, 抽 取 数 据 的 结 果 并 不 能 代 表 真 实 情 况, 所 以 为 了 考 虑 到 原 始 数 据 之 间 的 相 互 比 例 关 系, 基 于 贝 叶 斯 原 理 的 先 验 概 率 将 被 作 用 于 目 标 变 量, 帮 助 我 们 将 原 始 数 据 的 先 验 信 息 加 以 添 加, 避 免 数 据 抽 样 后 导 致 的 不 足, 从 而 使 研 究 结 果 适 合 用 于 解 决 实 际 问 题. 在 古 典 拟 合 模 型 中, 通 常 是 以 变 量 服 从 正 态 分 布 作 为 基 本 假 设, 在 变 量 为 正 态 分 布 条 件 下, 模 型 的 拟 合 效 果 往 往 也 比 较 好, 具 有 比 较 好 的 分 析 性 质. 另 外, 如 果 变 量 的 类 别 过 多, 观 测 样 本 又 仅 仅 集 中 在 少 数 类 别 中, 那 么 合 理 的 类 别 合 并 有 助 于 提 高 建 模 准 确 性 和 估 计 效 率. 因 此, 对 于 一 些 分 布 很 分 散 的 连 续 型 变 量 数 据, 可 以 通 过 函 数 变 换 的 方 式 对 其 进 行 转
学报 自然科学版 2016 8 3 273 277 Journal of Nanjing University of Information Science and Technology Natural Science Edition 2016 8 3 273 277 换 使其分布更贴近正态假设 对于多重分类变量 也可以通过合并来进行数据整理 本例对此类数据 进行了如下处理 对 duration 进行分组转换 将联系的持续时间分 为 小于等于 373 6 s 大于 373 6 s 2 组 分组后 的持续时间分布如图 1 2 所示 此外 依次对 campaign 进行分组转换 将本次活 动期间被联系次数分为 1 6 次 和 大于 6 次 2 组 对 Pdays 进行分组转换 将距上次联系过去的天 数分为 1 60 d 大于 60 d 的 2 组 对 cons price idx 消 费 者 价 格 指 数 进 行 分 组 按 小 于 等 于 92 843 大于 92 843 且小于等于 93 64 大于 93 64 分 3 组 对 cons conf idx 消费者信心指数 进行分组 按 小于等于 35 大于 35 且小于等于 43 29 大于 43 29 分 3 组 对 Euribor3M 拆借利 275 率每日指标 进行分组 按 小于等于 4 5 大于 4 5 分 2 组 对 nr employed 雇员人数 进行分组 按 小于等于 5 029 人 5 030 5 161 人 5 162 人以上 分 3 组 此处不附图赘述 2 3 银行客户认购定期存款建模结果分析 数据挖掘的目的是从数据中挖掘客户价值 目 的不仅是要以此为例揭示如何合理地进行客户定 位 更是为了提高银行的利润 从而使银行在以后的 经营活动中 能够更加注重数据挖掘方法 将此技术 运用到生产实践中去 最终提高银行的竞争力 5 本 文以葡萄牙银行机构从 2008 年 5 月 2010 年 11 月 所有话访活动市场调查结果为基础数据 在以错判 损失最小化选择最优模型的原则下 建立进行一次 电话访问的成本为 20 美元 成功之后的收入为 80 美元的收益矩阵 结合贝叶斯先验信息 构造了基于 图 1 转换前 duration 的分布 Fig 1 Distribution plot for variable duration before transformation 图 2 转换后 duration 的分布 Fig 2 Distribution plot for variable duration after transformation
276 信 息 熵 增 益 最 大 化 的 决 策 树 收 益 最 大 化 模 型 [6]. 通 过 对 数 据 的 分 析 处 理, 得 到 分 析 结 果 如 表 和 表 2 所 示. 表 训 练 集 (TRAIN) 拟 合 结 果 Table Simulation results for training data 预 测 实 际 否 是 否 95% 22% 是 5% 78% 表 2 验 证 集 (VALID) 拟 合 结 果 Table 2 Simulation results for validation data 预 测 实 际 否 是 否 92% 22% 是 8% 78% 在 运 用 了 先 验 概 率 prior 的 基 础 上, 训 练 集 (TRAIN) 中 预 测 结 果 为 是 实 际 也 为 是 的 概 率 达 到 了 78%, 预 测 为 否 实 际 也 为 否 的 概 率 达 到 95%; 验 证 集 (VALID) 中 预 测 结 果 为 是 实 际 结 果 也 是 是 的 概 率 达 到 了 78%, 预 测 为 否 实 际 也 是 否 的 概 率 是 92%. 训 练 集 和 验 证 集 的 结 果 几 乎 相 同, 可 以 看 出, 对 客 户 是 否 认 购 定 期 存 款 得 到 了 较 好 的 预 测. 此 外, 为 了 根 据 数 据 所 建 立 模 型 得 到 影 响 客 户 认 购 存 款 的 关 键 因 素, 从 决 策 树 的 分 类 结 果 中, 还 可 以 总 结 出 下 列 重 要 规 则 ( 表 3), 可 以 用 于 银 行 的 实 际 目 标 客 户 定 位. 规 则 规 则 2 表 明 在 经 济 社 会 环 境 背 景 下, 员 工 指 标 人 数 ( nr - employed) 相 对 越 小 客 户 认 购 定 期 存 款 的 机 率 越 大. 在 员 工 指 标 人 数 小 于 5 6 时 定 期 存 款 的 认 购 比 例 达 到 72 8%, 而 在 员 工 指 标 数 量 大 于 5 6 时 定 期 存 款 的 认 购 比 例 仅 仅 为 26 9%. 由 此 来 鹏, 等. 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究. LAI Peng,et al.statistical decision research for bank s long term deposit subscription. 可 以 发 现 经 济 社 会 背 景 中 的 员 工 指 标 人 数 因 素 对 客 户 认 购 定 期 存 款 有 影 响 作 用. 从 规 则 3 规 则 6 可 以 看 到 最 近 一 次 与 银 行 接 触 持 续 时 间 的 长 短 ( duration) 是 影 响 客 户 是 否 有 意 认 购 定 期 存 款 的 影 响 因 素. 联 系 持 续 时 间 长 的 客 户 认 购 定 期 存 款 的 比 例 高 于 持 续 时 间 短 的 客 户 认 购 定 期 存 款 的 比 例. 这 表 明 持 续 时 间 同 样 是 影 响 客 户 认 购 定 期 存 款 的 重 要 因 素 之 一. 从 规 则 3 规 则 4 看 到 在 持 续 时 间 都 大 于 373 6 s 时 员 工 人 数 的 季 度 指 标 相 对 越 小 的 客 户 认 购 定 期 存 款 的 比 例 达 到 90 3%, 这 进 一 步 证 明 了 员 工 人 数 的 季 度 指 标 对 定 期 存 款 认 购 的 影 响 作 用. 规 则 7 规 则 8 表 明 最 近 一 次 接 触 的 月 份 (month) 也 是 影 响 客 户 认 购 定 期 存 款 的 一 项 因 素. 在 月 份 划 分 中 能 够 明 显 地 看 出 5 月 客 户 认 购 定 期 存 款 的 比 例 会 降 低, 考 虑 可 能 与 5 月 楼 市 回 暖 各 类 投 资 理 财 迅 速 崛 起 以 及 银 行 一 系 列 定 向 降 准 政 策 有 关, 这 些 因 素 会 直 接 导 致 银 行 认 购 定 期 存 款 比 例 走 低. 根 据 决 策 树 预 测 模 型 的 依 赖 关 系 可 以 发 现, 能 够 对 预 测 属 性 产 生 影 响 的 属 性 由 强 到 弱 依 次 是 员 工 指 标 人 数 持 续 时 间 和 月 份. 因 此 本 研 究 选 取 的 2 个 可 能 影 响 定 期 存 款 认 购 因 素 中 员 工 指 标 人 数 为 最 显 著 的 影 响, 持 续 时 间 和 月 份 次 之, 其 他 8 个 因 素 对 客 户 是 否 认 购 定 期 存 款 影 响 并 不 显 著. 3 结 束 语 将 客 户 关 系 放 到 银 行 经 营 的 核 心 位 置, 应 当 是 银 行 的 实 际 营 销 理 念. 而 利 用 数 据 挖 掘 分 析 客 户 数 据 掌 握 客 户 特 征 挖 掘 客 户 价 值, 才 能 为 企 业 带 来 显 著 利 润 [7]. 本 文 以 葡 萄 牙 银 行 机 构 从 2008 年 5 月 200 年 月 所 有 话 访 活 动 市 场 调 查 结 果 为 基 础 数 据, 运 用 决 策 树 信 息 熵 的 归 纳 算 法 进 行 数 据 挖 规 则 序 号 Table 3 表 3 决 策 树 模 型 的 规 则 Rules for the decision tree model 在 nr - employed 5 6 时, 认 购 比 例 达 到 72 8%. 规 则 内 容 2 在 nr - employed>5 6 时, 客 户 有 26 9% 的 概 率 认 购 定 期 存 款. 3 在 nr - employed 5 6 时,duration>373 6 s 时, 客 户 有 90 3% 的 概 率 认 购 定 期 存 款. 4 在 nr - employed>5 6 时,duration>373 6 s 时, 客 户 有 69 % 的 概 率 认 购 定 期 存 款. 5 在 nr - employed>5 6 时,duration 373 6 s 时, 客 户 只 有 2 2% 的 概 率 认 购 定 期 存 款. 6 在 nr - employed 5 6 时,duration 373 6 s 时, 客 户 有 63 % 的 概 率 认 购 定 期 存 款. 在 nr - employed 5 6 时,duration 373 6 s, 在 5 月 以 外 的 其 他 月 份, 客 户 有 76 5% 的 概 率 认 购 定 期 7 存 款. 8 在 nr - employed 5 6 时,duration 373 6 s, 在 5 月 时, 客 户 有 9 4% 的 概 率 认 购 定 期 存 款.
学 报 ( 自 然 科 学 版 ),206,8(3):273 277 Journal of Nanjing University of Information Science and Technology(Natural Science Edition),206,8(3):273 277 277 掘, 探 究 影 响 客 户 认 购 定 期 存 款 的 影 响 因 素, 研 究 最 终 发 现 显 著 影 响 客 户 认 购 定 期 存 款 的 因 素 只 有 员 工 指 标 人 数 持 续 时 间 和 月 份 3 个 指 标, 大 大 缩 小 了 银 行 推 送 客 户 认 购 定 期 存 款 的 客 户 范 围, 显 著 提 高 了 银 行 的 投 资 回 报 率, 进 一 步 提 高 了 银 行 的 经 营 利 率 并 在 一 定 程 度 上 更 好 地 为 客 户 提 供 服 务. 这 对 银 行 拓 展 业 务 提 高 核 心 竞 争 力 有 着 非 常 重 要 的 现 实 意 义. 参 考 文 献 References [ ] 柯 孔 林, 冯 宗 宪. 我 国 商 业 银 行 效 率 测 度 及 其 影 响 因 素 分 析 [J]. 数 理 统 计 与 管 理,2008,27(): 6 KE Konglin,FENG Zongxian. Efficiency measurement of China s commercial banks and the determinants analysis [ J].Application of Statistics and Management,2008,27 (): 6 [ 2 ] 郭 迎 春. 知 识 型 电 力 客 户 关 系 管 理 研 究 [ D]. 保 定 : 华 北 电 力 大 学 经 济 与 管 理 学 院,2008 GUO Yingchun.Research on knowledge enabled customer relationship management in power enterprise [ D ]. Baoding: College of Economy and Management, North China Electric Power University,2008 [ 3 ] 刘 世 平. 数 据 挖 掘 技 术 及 应 用 [ M]. 北 京 : 高 等 教 育 出 版 社,200 LIU Shiping. Technology and application of data mining [ M].Beijing:Higher Education Press,200 [ 4 ] Moro S, Cortez P, Rita P. A data driven approach to predict the success of bank telemarketing [ J]. Decision Support Systems,204,62(246):22 3 [ 5 ] 姚 志 勇.SAS 编 程 与 数 据 挖 掘 商 业 案 例 [ M]. 北 京 : 机 械 工 业 出 版 社,200:304 344 YAO Zhiyong.SAS programming and data mining for bus iness cases [ M]. Beijing: China Machine Press, 200: 304 344 [ 6 ] 薛 薇, 陈 欢 歌. 基 于 Clementine 的 数 据 挖 掘 [ M]. 北 京 : 中 国 人 民 大 学 出 版 社,202:22 24 XUE Wei,CHEN Huange.Data mining based on Clemen tine[ M]. Beijing:China Renmin University Press,202: 22 24 [ 7 ] 朱 世 武, 崔 巍, 谢 邦 昌. 移 动 电 话 客 户 流 失 数 据 挖 掘 [J]. 数 理 统 计 与 管 理,2005,24():62 68 ZHU Shiwu, CUI Wei, XIE Bangchang. Data mining on customer churn of mobile number and type [ J ]. Application of Statistics and Management,2005,24( ): 62 68 Statistical decision research for bank s long term deposit subscription LAI Peng ZHAO Rulei GUO Lizhen School of Mathematics & Statistics,Nanjing University of Information Science & Technology,Nanjing 20044 Abstract Nowadays,with the increasing competition between banks,it is very important to improve the bank s competitiveness by effectively excavating potential clients and providing differentiated services.the decision tree al gorithm is proposed to data mine the possible 2 important attributes which affect bank clients long term deposit subscription.a Portuguese retail bank is addressed,with data collected from May,2008 to November,200.The deci sion tree model is constructed to reflect the important factors in a banking client deposit subscription business. Re sults show that the significant factors which affect client s long term deposit subscription are target number of bank agents,marketing duration and month. Such knowledge greatly reduces the marketing range of potential clients for term deposit thus improves the bank efficiency. Key words data mining;customer orientation;decision tree;statistical decision