标题



Similar documents
Microsoft Word tb 赵宏宇s-高校教改纵横.doc

具有多个输入 特别是多个输出的 部门 或 单位 ( 称为 决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型 也是 DEA 的基础 和重要模型 假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m

~ ~ ~

标题

Microsoft Word - 专论综述1.doc

Microsoft Word - 33-p skyd8.doc

Microsoft Word - 19王建华.doc

2013国际营销科学与信息技术大会(MSIT2013)

a b

标题

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

Microsoft Word - 专论综述1.doc

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

Paper Title (use style: paper title)

标题

WTO

穨423.PDF

Microsoft Word - A doc

Microsoft Word - A _ doc

作 主 动 追 求 知 识 获 取 技 能, 在 心 理 和 生 理 上 都 非 常 积 极 的 个 体 (Zimmerman & Pons, 1986) 在 此 期 间, 自 我 效 能 感 (self-efficacy) 自 我 控 制 (self-control) 自 我 管 理 (self-

第二部分

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

112 Journal of Management & Operations September 2011, Number5/6, pp The county and city government actively engage in holding festival activ

Schumpeter Mensch Freeman Clark Schumpeter Mensch 1975 technological stalemate 2000 Van Dujin 1977 OECD 1992 Freeman 1982 Van

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

附件1:

制 : 年 ; 毕 :5 ; :88 必 修 :0, 其 中 公 共 必 修 :55, 占 6.%; 必 修 :9, 占.%; 修 :8, 其 中 限 :6, 占 7.%; 任 :, 占 9.%; 公 共 修 :8, 占 5.% 五 心 程 应 用 程 创 新 程 主 要 发 展 向 心 程 : 经

Microsoft Word - 06会计学( ).doc

Scoones World Bank DFID Sussex IDS UNDP CARE DFID DFID DFID 1997 IDS

262 管 理 與 系 統 countries including Taiwan. Because of the liberalization policy of Taiwan s power industry, there is a critical demand to explore the m

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

临床路径管理模式下医疗服务流程的关键环节分析

17

GCKX703.PS2

公 共 修 :, 占.% 五 心 应 用 特 色 主 要 发 展 向 心 : 管 理 原 理 经 济 原 理 基 础 会 计 中 级 财 务 会 计 高 级 财 务 会 计 成 本 会 计 管 理 会 计 审 计 财 务 管 理 和 经 济 法 等 应 用 : 会 计 电 算 化 会 计 训 注 册

SWAN min TITAN Thunder Identification Tracking Analysis SWAN TITAN and Nowcasting 19 TREC Tracking Radar Echo by Correlaction T

,, (18 ) , , % ,,; (3) ,a 100 %,b, 6 (, ),c , , , 2000 ; (4),2

Microsoft Word - 目次範例-catalog doc

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

j.sjbm

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

在 培 养 职 前 卓 越 化 学 教 师 的 院 校, 会 编 一 本 过 去 称 作 化 学 教 学 论 实 验, 现 在 拟 为 卓 越 化 学 教 师 教 育 实 验 教 学 研 究 的 教 材 各 院 校 对 这 门 课 程 所 给 的 学 时 不 太 一 样, 但 都 是 围 绕 实 验

标题

EXCEL EXCEL

标题

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

<4D F736F F D20B1B1BEA9B0D9BBAAD4C3B0EEBFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1B2A2D4DAB4B4D2B5B0E5C9CFCAD0D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA37D4C236C8D5B1A8CBCDA3A92E646F63>

those four kinds of factors are significantly associated with the intention to institutional care of the elderly without ADL disability. However for t

标题

a a a 1. 4 Izumi et al Izumi & Bigelow b

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

km km mm km m /s hpa 500 hpa E N 41 N 37 N 121

Microsoft Word 記錄附件

第 1 期 常 壮 等 : 基 于 RS-485 总 线 的 舰 船 损 管 训 练 平 台 控 系 统 研 究 87 能 : 1) 损 管 基 本 理 论 的 学 习 帮 助 舰 员 熟 悉 舰 艇 舱 室 相 关 规 章 制 度 损 管 施 分 布 和 使 用 不 沉 性 文 件 等 ) 损 管

:,,,,,, : 1990,,?,,,,, 2000 (,2004) :1990,,,,,2000, (,2008),,,,,,,,, 1990,,,, 4, 10, ( ) 90,,,,, 2000,,, ,2000,, % % ;,

untitled

(),,,,;, , (Π, ), , , 5162 %, U , ,,1992, , : ;

标题

Maxwell [8] GDP Lipschitz McDonald [9] ULC [10] HBS [11] [12] [13] BIS IMF JP JP VAR [5] 1 W i = xi n Σx i k=1 1 4 Vol.24

P. C Evelyn. M. Duvall 2 quality of life cabana

Microsoft Word 任 辉_new_.doc

2 ( ) ,,,,, ( ),, ;, ( ) ; ; 2. (1), (2), (3) ,,

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

Microsoft Word - 刘 慧 板.doc

/ / /

闲 旅 游 现 已 成 为 城 市 居 民 日 常 生 活 的 重 要 部 分 袁 它 的 出 现 标 志 着 现 代 社 会 文 明 的 进 步 遥 据 国 外 学 者 预 测 袁 2015 年 左 右 袁 发 达 国 家 将 陆 续 进 入 野 休 闲 时 代 冶 袁 发 展 中 国 家 也 将

mm ~

~ ~

2013_6_3.indd

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz


Abstract As an intangible assets, brand has been paid more attention now, especially in health food industry, brand is accepted as a key competence to

事故的共性原因: 行为、知识、习惯

标题

( ) ( ) ( ) ( )

~ a 3 h NCEP ~ 24 3 ~ ~ 8 9 ~ km m ~ 500 m 500 ~ 800 m 800 ~ m a 200

标题

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian


LaDefense Arch Petronas Towers 2009 CCTV MOMA Newmark Hahn Liu 8 Heredia - Zavoni Barranco 9 Heredia - Zavoni Leyva

黑面琵鷺2015

Microsoft PowerPoint ARIS_Platform_en.ppt

輥輯訛 % 2010~ % Northwestern Journal of Ethnology 1. J., 1994, 3 14~ J., ~150.


m m m ~ mm

3 : 121,, [1 ] (Stage Theory),,,,,,, 1 :, ;,,,,, 1 :11, 6,116 ; , 2003 ; 31 = Π ; 2, 1996 ;1996,,2000, Walt Rostow (1960, 1971), A. F. K. Organ

111 OF

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

十 五 教 育 學 院 十 六 通 識 教 育 中 心

Microsoft Word 年第三期09

182 第 41 卷 方面发挥了重要作用 因此研究留日物理学生是中 国近现代物理学史研究的一项重要内容 出身 并任翰林院编修 不久 云贵总督李经羲上 奏 要求调其回云南兴办新学 他欣然回滇办学宣 1 统二年( 1910) 他接任云南优级师范学堂监督 兼 专任理化教员 负责筹办云南工矿学堂 并担任第一

科技企业孵化器服务能力因素及服务创新对策分析

CHIPS Oaxaca - Blinder % Sicular et al CASS Becker & Chiswick ~ 2000 Becker & Chiswick 196

p

一 南 安 普 顿 大 学 介 绍 南 安 普 顿 大 学 介 绍 南 安 普 顿 大 学 的 前 身 是 哈 特 利 学 院,1862 年 由 当 时 的 首 相 帕 密 尔 敦 揭 牌 成 立 1952 年 获 得 皇 家 特 许 升 格 为 大 学, 成 为 英 国 15 所 科 研 重 点

标题

by industrial structure evolution from 1952 to 2007 and its influence effect was first acceleration and then deceleration second the effects of indust

Ansys /4 Ansys % 9 60% MU10 M m 1 Fig. Actual situation of measured building 1 Fig. 1 First floor plan of typical r

Transcription:

DOI:0.3878 / j.cnki.jnuist.206.03.009 来 鹏 赵 茹 蕾 郭 利 珍 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究 摘 要 当 今 银 行 之 间 的 竞 争 日 益 加 剧, 能 有 效 地 挖 掘 潜 在 客 户 并 为 之 提 供 差 异 化 服 务, 对 提 高 银 行 竞 争 力 尤 为 重 要. 用 决 策 树 算 法 对 可 能 影 响 银 行 客 户 是 否 认 购 定 期 存 款 的 2 个 影 响 因 素 进 行 数 据 挖 掘 分 析, 构 建 了 银 行 客 户 认 购 定 期 存 款 业 务 影 响 因 素 的 决 策 树 模 型. 研 究 结 果 表 明 显 著 影 响 客 户 认 购 定 期 存 款 的 3 个 因 素 为 员 工 指 标 人 数 持 续 时 间 和 月 份, 这 可 以 大 大 缩 小 银 行 推 送 认 购 定 期 存 款 的 客 户 范 围, 有 利 于 提 高 银 行 效 率. 关 键 词 数 据 挖 掘 ; 客 户 定 位 ; 决 策 树 ; 统 计 决 策 中 图 分 类 号 F830 文 献 标 志 码 A 0 引 言 近 年 来, 随 着 外 资 银 行 全 面 进 军 中 国 银 行 业 并 且 逐 步 成 为 我 国 银 行 体 系 中 的 重 要 力 量, 我 国 银 行 业 间 的 竞 争 空 前 激 烈, 而 要 在 市 场 中 立 于 不 败 之 地, 就 要 提 高 客 户 事 务 的 处 理 能 力, 对 客 户 进 行 深 层 次 挖 掘 以 及 合 理 的 定 位, 实 现 高 效 管 理 []. 因 此, 客 户 的 合 理 分 类 是 提 高 银 行 客 户 管 理 效 率 的 基 础 和 前 提. 本 文 以 葡 萄 牙 银 行 机 构 提 供 的 客 户 数 据 为 研 究 对 象, 讨 论 影 响 银 行 客 户 认 购 定 期 存 款 的 因 素, 对 可 能 认 购 的 用 户 进 行 客 户 定 位, 便 于 银 行 提 高 工 作 效 率, 更 好 地 为 客 户 提 供 服 务. 注 意 到 所 研 究 的 问 题 从 本 质 上 是 一 个 分 类 问 题, 是 通 过 多 个 研 究 因 素 判 定 客 户 是 否 为 具 有 效 益 的 优 质 目 标 客 户, 而 从 数 据 类 型 来 看, 数 据 呈 现 出 既 有 离 散 变 量, 又 有 连 续 变 量, 既 有 二 值 变 量, 又 有 多 值 变 量 等 特 点, 很 多 传 统 的 建 模 预 测 方 法 分 类 方 法 不 再 适 用. 例 如 : 线 性 回 归 模 型 由 于 其 模 型 假 设 不 再 满 足 ; 非 参 数 回 归 方 法 会 面 临 维 数 过 高 的 问 题 ; 神 经 网 络 模 型 又 过 于 复 杂, 在 计 算 效 率 上 比 较 差 ; 判 别 分 析 方 法 因 为 数 据 的 复 杂 特 性, 很 难 确 定 合 适 的 符 合 复 杂 数 据 类 型 的 恰 当 距 离 函 数 来 构 造 判 别 准 则. 所 以, 决 策 树 方 法 就 由 于 其 对 数 据 类 型 的 较 弱 假 设, 计 算 效 率 比 较 高, 处 理 离 散 或 复 杂 分 类 数 据 比 较 有 效 的 特 点 而 在 本 文 中 被 采 用. 基 于 信 息 熵 的 决 策 树 算 法 收 稿 日 期 205 07 02 资 助 项 目 江 苏 省 高 等 学 校 大 学 生 创 新 创 业 训 练 计 划 (204030003Z);206 年 度 江 苏 高 校 青 蓝 工 程 培 养 对 象 作 者 简 介 来 鹏, 男, 博 士, 副 教 授, 研 究 方 向 为 复 杂 数 据 统 计 分 析 以 及 数 据 挖 掘. laipengnuist@ 63.com 南 京 信 息 工 程 大 学 数 学 与 统 计 学 院, 南 京, 20044 信 息 熵 又 称 为 期 望 信 息 量, 是 用 来 衡 量 信 息 量 凌 乱 程 度 的 指 标, 熵 值 越 大, 则 代 表 信 息 的 凌 乱 程 度 越 高. 基 于 信 息 熵 的 决 策 树 算 法 是 通 过 收 集 已 知 类 别 的 样 本, 将 提 供 最 大 信 息 增 益 的 属 性 作 为 节 点 分 裂 方 案 去 构 造 决 策 树 的, 即 所 选 测 试 属 性 是 从 根 到 当 前 节 点 的 路 径 上 尚 未 被 考 虑 的 具 有 最 高 信 息 增 益 属 性. 决 策 树 的 每 个 节 点 对 应 一 个 非 类 别 属 性, 每 条 边 对 应 该 属 性 的 每 个 可 能 值 [2]. 设 S 是 s 个 数 据 样 本 的 集 合, 不 妨 设 类 标 号 属 性 具 有 n 个 不 同 的 值, 定 义 n 个 不 同 的 类 为 C i (i =,2,,n),s i 是 类 C i 中 的 样 本 数. 设 一 个 属 性 D 有 m 个 不 同 的 取 值 {a,,a m }, 使 用 属 性 D 可 将 样 本 集 合 S 划 分 为 m 个 不 同 的 集 合 {S,S 2,,S m }, 其 中 S j 包 含 了 集 合 S 中 属 性 D 取 值 a j 时 的 数 据 样 本. 若 属 性 D 被 标 记 为 测 试 属 性, 即 用 于 对 当 前 的 样 本 集 进 行 划 分, 设 s ij 为 样 本 子 集 S j 中 属 于 类 别 C i 的 样 本 数, 那 么

274 根 据 属 性 D 划 分 当 前 样 本 集 所 需 要 的 信 息 熵 的 计 算 公 式 为 E(D) = m j = 其 中, s j + s 2j + + s nj s s j + s 2j + + s nj I(s s j,s 2j,,s nj ), () 可 以 作 为 第 j 个 子 集 S j 的 权 值, 它 是 由 该 子 集 中 所 有 属 性 取 值 为 a j 的 样 本 数 之 和 除 以 集 合 S 中 的 样 本 总 数 而 得 到 的,E(D) 的 计 算 结 果 值 越 小, 表 明 子 集 划 分 的 纯 度 越 高. 此 时, 对 于 子 集 S j 的 信 息 量 的 计 算 方 法 为 I(s j,s 2j,,s nj ) = - n i = p ij log 2 (p ij ), (2) 其 中, p ij 表 示 样 本 子 集 S j 中 任 意 一 个 数 据 样 本 属 于 类 别 C i 的 概 率. 因 此, 利 用 属 性 D 对 当 前 分 支 节 点 进 行 相 应 的 样 本 集 划 分 所 获 得 的 信 息 增 益 为 G(D) = I(s,s 2,,s n ) - E(D), (3) 其 中 I(s,s 2,,s n ) = n i = p i log 2 (p i ),p i = s i / s,i =, 2,,n. 换 言 之,G(D) 就 是 根 据 属 性 D 的 取 值 进 行 样 本 集 划 分 所 获 得 的 信 息 熵 的 减 少 量, 决 策 树 归 纳 算 法 用 于 计 算 每 个 属 性 的 信 息 增 益, 从 中 挑 选 出 信 息 增 益 最 大 的 属 性 作 为 给 定 集 合 S 的 测 试 属 性, 并 由 此 产 生 相 应 的 分 支 节 点. 所 产 生 的 节 点 被 标 记 为 相 应 的 属 性, 并 根 据 这 一 属 性 的 不 同 取 值 分 别 生 成 相 应 的 ( 决 策 树 ) 分 支, 每 个 分 支 都 代 表 一 个 被 样 本 划 分 的 样 本 子 集 [3]. 2 银 行 客 户 认 购 定 期 存 款 建 模 方 案 研 究 2 数 据 介 绍 以 及 变 量 描 述 现 代 的 银 行 的 客 户 关 系 管 理, 需 要 面 对 海 量 的 客 户 信 息, 这 就 需 要 银 行 对 数 据 库 中 的 原 始 客 户 数 据 进 行 深 层 次 的 挖 掘, 寻 找 目 标 客 户. 所 用 数 据 集 是 葡 萄 牙 银 行 机 构 从 2008 年 5 月 200 年 月 所 有 话 访 活 动 市 场 调 查 结 果 的 4 88 个 银 行 客 户 的 相 关 数 据 [4], 用 来 预 测 银 行 客 户 是 否 认 购 其 定 期 存 款 并 将 其 分 类. 将 记 录 的 2 个 属 性 变 量 假 定 为 影 响 顾 客 是 否 认 购 存 款 业 务 的 影 响 因 素. 这 些 统 计 变 量 可 分 为 4 类 : 客 户 情 况 与 银 行 关 系 接 触 银 行 活 动 状 况 和 经 济 社 会 环 境 状 况. 具 体 表 现 为 ) 客 户 情 况 : 年 龄 工 作 状 况 婚 姻 状 况 受 教 育 程 度 房 贷 个 人 贷 款. 2) 与 银 行 关 系 : 信 用 拖 欠 状 况 账 户 余 额 认 购 定 期 存 款 情 况. 3) 接 触 银 行 活 动 状 况 : 被 联 系 的 方 式 近 月 接 触 来 鹏, 等. 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究. LAI Peng,et al.statistical decision research for bank s long term deposit subscription. 日 期 近 年 接 触 月 份 联 系 的 持 续 时 间 本 次 活 动 期 间 被 联 系 次 数 之 前 接 触 次 数 之 前 的 活 动 结 果 距 上 次 联 系 过 去 的 天 数. 4) 经 济 社 会 环 境 状 况 : 员 工 人 数 的 季 度 指 标 就 业 变 化 率 消 费 者 信 心 指 数 居 民 消 费 价 格 指 数. 2 2 数 据 的 处 理 与 转 换 从 对 该 葡 萄 牙 银 行 机 构 的 4 88 个 银 行 客 户 的 相 关 数 据 的 初 步 研 究 发 现, 该 数 据 集 数 据 量 比 较 大, 如 果 将 全 部 数 据 用 于 分 析, 会 发 现 数 据 过 多 使 得 计 算 效 率 比 较 低. 一 个 简 单 的 解 决 办 法 是 通 过 随 机 采 样 的 方 法 随 机 抽 取 部 分 数 据, 使 数 据 具 有 足 够 的 代 表 性, 能 够 快 速 准 确 地 得 到 正 确 的 分 析 结 果. 在 此 基 础 上, 本 例 将 数 据 分 割 成 训 练 数 据 集 (70%) 和 验 证 数 据 集 (30%), 这 样 在 用 训 练 数 据 集 建 立 好 模 型 后, 利 用 验 证 数 据 集 对 模 型 进 行 修 正 预 测, 从 而 避 免 模 型 的 过 度 拟 合, 提 高 模 型 的 灵 活 性, 最 终 提 高 模 型 的 质 量 和 预 测 效 果. 由 于 对 本 例 通 过 数 据 初 步 了 解 客 户 最 终 认 购 的 比 例 占 到 2 7%, 还 有 87 3% 的 银 行 客 户 并 没 有 响 应, 两 种 数 据 之 间 相 差 过 大, 如 果 直 接 对 该 数 据 进 行 建 模, 将 由 于 两 者 数 据 量 差 别 太 大, 可 能 使 得 分 析 结 果 有 偏 差, 给 模 型 的 建 立 以 及 预 测 能 力 带 来 较 大 的 负 面 影 响. 为 了 更 好 地 进 行 建 模, 对 数 据 进 行 更 准 确 的 分 析, 本 文 在 最 终 认 购 定 期 存 款 的 客 户 随 机 抽 取 2 060 个 样 本 形 成 SAS 数 据 集 YES, 在 不 认 购 的 客 户 中 随 机 抽 取 2 060 个 样 本 形 成 SAS 数 据 集 NO. 合 并 YES 与 NO 数 据 集, 使 之 变 成 本 文 最 终 所 用 的 测 试 集 NEW, 使 最 终 认 购 的 比 例 与 拒 绝 认 购 的 比 例 大 致 相 等, 从 而 使 得 各 类 数 据 的 特 点 能 更 好 地 体 现 出 来. 然 而, 考 虑 到 这 种 认 购 比 率 与 现 实 生 活 的 实 际 比 率 并 不 相 符, 抽 取 数 据 的 结 果 并 不 能 代 表 真 实 情 况, 所 以 为 了 考 虑 到 原 始 数 据 之 间 的 相 互 比 例 关 系, 基 于 贝 叶 斯 原 理 的 先 验 概 率 将 被 作 用 于 目 标 变 量, 帮 助 我 们 将 原 始 数 据 的 先 验 信 息 加 以 添 加, 避 免 数 据 抽 样 后 导 致 的 不 足, 从 而 使 研 究 结 果 适 合 用 于 解 决 实 际 问 题. 在 古 典 拟 合 模 型 中, 通 常 是 以 变 量 服 从 正 态 分 布 作 为 基 本 假 设, 在 变 量 为 正 态 分 布 条 件 下, 模 型 的 拟 合 效 果 往 往 也 比 较 好, 具 有 比 较 好 的 分 析 性 质. 另 外, 如 果 变 量 的 类 别 过 多, 观 测 样 本 又 仅 仅 集 中 在 少 数 类 别 中, 那 么 合 理 的 类 别 合 并 有 助 于 提 高 建 模 准 确 性 和 估 计 效 率. 因 此, 对 于 一 些 分 布 很 分 散 的 连 续 型 变 量 数 据, 可 以 通 过 函 数 变 换 的 方 式 对 其 进 行 转

学报 自然科学版 2016 8 3 273 277 Journal of Nanjing University of Information Science and Technology Natural Science Edition 2016 8 3 273 277 换 使其分布更贴近正态假设 对于多重分类变量 也可以通过合并来进行数据整理 本例对此类数据 进行了如下处理 对 duration 进行分组转换 将联系的持续时间分 为 小于等于 373 6 s 大于 373 6 s 2 组 分组后 的持续时间分布如图 1 2 所示 此外 依次对 campaign 进行分组转换 将本次活 动期间被联系次数分为 1 6 次 和 大于 6 次 2 组 对 Pdays 进行分组转换 将距上次联系过去的天 数分为 1 60 d 大于 60 d 的 2 组 对 cons price idx 消 费 者 价 格 指 数 进 行 分 组 按 小 于 等 于 92 843 大于 92 843 且小于等于 93 64 大于 93 64 分 3 组 对 cons conf idx 消费者信心指数 进行分组 按 小于等于 35 大于 35 且小于等于 43 29 大于 43 29 分 3 组 对 Euribor3M 拆借利 275 率每日指标 进行分组 按 小于等于 4 5 大于 4 5 分 2 组 对 nr employed 雇员人数 进行分组 按 小于等于 5 029 人 5 030 5 161 人 5 162 人以上 分 3 组 此处不附图赘述 2 3 银行客户认购定期存款建模结果分析 数据挖掘的目的是从数据中挖掘客户价值 目 的不仅是要以此为例揭示如何合理地进行客户定 位 更是为了提高银行的利润 从而使银行在以后的 经营活动中 能够更加注重数据挖掘方法 将此技术 运用到生产实践中去 最终提高银行的竞争力 5 本 文以葡萄牙银行机构从 2008 年 5 月 2010 年 11 月 所有话访活动市场调查结果为基础数据 在以错判 损失最小化选择最优模型的原则下 建立进行一次 电话访问的成本为 20 美元 成功之后的收入为 80 美元的收益矩阵 结合贝叶斯先验信息 构造了基于 图 1 转换前 duration 的分布 Fig 1 Distribution plot for variable duration before transformation 图 2 转换后 duration 的分布 Fig 2 Distribution plot for variable duration after transformation

276 信 息 熵 增 益 最 大 化 的 决 策 树 收 益 最 大 化 模 型 [6]. 通 过 对 数 据 的 分 析 处 理, 得 到 分 析 结 果 如 表 和 表 2 所 示. 表 训 练 集 (TRAIN) 拟 合 结 果 Table Simulation results for training data 预 测 实 际 否 是 否 95% 22% 是 5% 78% 表 2 验 证 集 (VALID) 拟 合 结 果 Table 2 Simulation results for validation data 预 测 实 际 否 是 否 92% 22% 是 8% 78% 在 运 用 了 先 验 概 率 prior 的 基 础 上, 训 练 集 (TRAIN) 中 预 测 结 果 为 是 实 际 也 为 是 的 概 率 达 到 了 78%, 预 测 为 否 实 际 也 为 否 的 概 率 达 到 95%; 验 证 集 (VALID) 中 预 测 结 果 为 是 实 际 结 果 也 是 是 的 概 率 达 到 了 78%, 预 测 为 否 实 际 也 是 否 的 概 率 是 92%. 训 练 集 和 验 证 集 的 结 果 几 乎 相 同, 可 以 看 出, 对 客 户 是 否 认 购 定 期 存 款 得 到 了 较 好 的 预 测. 此 外, 为 了 根 据 数 据 所 建 立 模 型 得 到 影 响 客 户 认 购 存 款 的 关 键 因 素, 从 决 策 树 的 分 类 结 果 中, 还 可 以 总 结 出 下 列 重 要 规 则 ( 表 3), 可 以 用 于 银 行 的 实 际 目 标 客 户 定 位. 规 则 规 则 2 表 明 在 经 济 社 会 环 境 背 景 下, 员 工 指 标 人 数 ( nr - employed) 相 对 越 小 客 户 认 购 定 期 存 款 的 机 率 越 大. 在 员 工 指 标 人 数 小 于 5 6 时 定 期 存 款 的 认 购 比 例 达 到 72 8%, 而 在 员 工 指 标 数 量 大 于 5 6 时 定 期 存 款 的 认 购 比 例 仅 仅 为 26 9%. 由 此 来 鹏, 等. 银 行 客 户 定 期 存 款 认 购 的 统 计 决 策 研 究. LAI Peng,et al.statistical decision research for bank s long term deposit subscription. 可 以 发 现 经 济 社 会 背 景 中 的 员 工 指 标 人 数 因 素 对 客 户 认 购 定 期 存 款 有 影 响 作 用. 从 规 则 3 规 则 6 可 以 看 到 最 近 一 次 与 银 行 接 触 持 续 时 间 的 长 短 ( duration) 是 影 响 客 户 是 否 有 意 认 购 定 期 存 款 的 影 响 因 素. 联 系 持 续 时 间 长 的 客 户 认 购 定 期 存 款 的 比 例 高 于 持 续 时 间 短 的 客 户 认 购 定 期 存 款 的 比 例. 这 表 明 持 续 时 间 同 样 是 影 响 客 户 认 购 定 期 存 款 的 重 要 因 素 之 一. 从 规 则 3 规 则 4 看 到 在 持 续 时 间 都 大 于 373 6 s 时 员 工 人 数 的 季 度 指 标 相 对 越 小 的 客 户 认 购 定 期 存 款 的 比 例 达 到 90 3%, 这 进 一 步 证 明 了 员 工 人 数 的 季 度 指 标 对 定 期 存 款 认 购 的 影 响 作 用. 规 则 7 规 则 8 表 明 最 近 一 次 接 触 的 月 份 (month) 也 是 影 响 客 户 认 购 定 期 存 款 的 一 项 因 素. 在 月 份 划 分 中 能 够 明 显 地 看 出 5 月 客 户 认 购 定 期 存 款 的 比 例 会 降 低, 考 虑 可 能 与 5 月 楼 市 回 暖 各 类 投 资 理 财 迅 速 崛 起 以 及 银 行 一 系 列 定 向 降 准 政 策 有 关, 这 些 因 素 会 直 接 导 致 银 行 认 购 定 期 存 款 比 例 走 低. 根 据 决 策 树 预 测 模 型 的 依 赖 关 系 可 以 发 现, 能 够 对 预 测 属 性 产 生 影 响 的 属 性 由 强 到 弱 依 次 是 员 工 指 标 人 数 持 续 时 间 和 月 份. 因 此 本 研 究 选 取 的 2 个 可 能 影 响 定 期 存 款 认 购 因 素 中 员 工 指 标 人 数 为 最 显 著 的 影 响, 持 续 时 间 和 月 份 次 之, 其 他 8 个 因 素 对 客 户 是 否 认 购 定 期 存 款 影 响 并 不 显 著. 3 结 束 语 将 客 户 关 系 放 到 银 行 经 营 的 核 心 位 置, 应 当 是 银 行 的 实 际 营 销 理 念. 而 利 用 数 据 挖 掘 分 析 客 户 数 据 掌 握 客 户 特 征 挖 掘 客 户 价 值, 才 能 为 企 业 带 来 显 著 利 润 [7]. 本 文 以 葡 萄 牙 银 行 机 构 从 2008 年 5 月 200 年 月 所 有 话 访 活 动 市 场 调 查 结 果 为 基 础 数 据, 运 用 决 策 树 信 息 熵 的 归 纳 算 法 进 行 数 据 挖 规 则 序 号 Table 3 表 3 决 策 树 模 型 的 规 则 Rules for the decision tree model 在 nr - employed 5 6 时, 认 购 比 例 达 到 72 8%. 规 则 内 容 2 在 nr - employed>5 6 时, 客 户 有 26 9% 的 概 率 认 购 定 期 存 款. 3 在 nr - employed 5 6 时,duration>373 6 s 时, 客 户 有 90 3% 的 概 率 认 购 定 期 存 款. 4 在 nr - employed>5 6 时,duration>373 6 s 时, 客 户 有 69 % 的 概 率 认 购 定 期 存 款. 5 在 nr - employed>5 6 时,duration 373 6 s 时, 客 户 只 有 2 2% 的 概 率 认 购 定 期 存 款. 6 在 nr - employed 5 6 时,duration 373 6 s 时, 客 户 有 63 % 的 概 率 认 购 定 期 存 款. 在 nr - employed 5 6 时,duration 373 6 s, 在 5 月 以 外 的 其 他 月 份, 客 户 有 76 5% 的 概 率 认 购 定 期 7 存 款. 8 在 nr - employed 5 6 时,duration 373 6 s, 在 5 月 时, 客 户 有 9 4% 的 概 率 认 购 定 期 存 款.

学 报 ( 自 然 科 学 版 ),206,8(3):273 277 Journal of Nanjing University of Information Science and Technology(Natural Science Edition),206,8(3):273 277 277 掘, 探 究 影 响 客 户 认 购 定 期 存 款 的 影 响 因 素, 研 究 最 终 发 现 显 著 影 响 客 户 认 购 定 期 存 款 的 因 素 只 有 员 工 指 标 人 数 持 续 时 间 和 月 份 3 个 指 标, 大 大 缩 小 了 银 行 推 送 客 户 认 购 定 期 存 款 的 客 户 范 围, 显 著 提 高 了 银 行 的 投 资 回 报 率, 进 一 步 提 高 了 银 行 的 经 营 利 率 并 在 一 定 程 度 上 更 好 地 为 客 户 提 供 服 务. 这 对 银 行 拓 展 业 务 提 高 核 心 竞 争 力 有 着 非 常 重 要 的 现 实 意 义. 参 考 文 献 References [ ] 柯 孔 林, 冯 宗 宪. 我 国 商 业 银 行 效 率 测 度 及 其 影 响 因 素 分 析 [J]. 数 理 统 计 与 管 理,2008,27(): 6 KE Konglin,FENG Zongxian. Efficiency measurement of China s commercial banks and the determinants analysis [ J].Application of Statistics and Management,2008,27 (): 6 [ 2 ] 郭 迎 春. 知 识 型 电 力 客 户 关 系 管 理 研 究 [ D]. 保 定 : 华 北 电 力 大 学 经 济 与 管 理 学 院,2008 GUO Yingchun.Research on knowledge enabled customer relationship management in power enterprise [ D ]. Baoding: College of Economy and Management, North China Electric Power University,2008 [ 3 ] 刘 世 平. 数 据 挖 掘 技 术 及 应 用 [ M]. 北 京 : 高 等 教 育 出 版 社,200 LIU Shiping. Technology and application of data mining [ M].Beijing:Higher Education Press,200 [ 4 ] Moro S, Cortez P, Rita P. A data driven approach to predict the success of bank telemarketing [ J]. Decision Support Systems,204,62(246):22 3 [ 5 ] 姚 志 勇.SAS 编 程 与 数 据 挖 掘 商 业 案 例 [ M]. 北 京 : 机 械 工 业 出 版 社,200:304 344 YAO Zhiyong.SAS programming and data mining for bus iness cases [ M]. Beijing: China Machine Press, 200: 304 344 [ 6 ] 薛 薇, 陈 欢 歌. 基 于 Clementine 的 数 据 挖 掘 [ M]. 北 京 : 中 国 人 民 大 学 出 版 社,202:22 24 XUE Wei,CHEN Huange.Data mining based on Clemen tine[ M]. Beijing:China Renmin University Press,202: 22 24 [ 7 ] 朱 世 武, 崔 巍, 谢 邦 昌. 移 动 电 话 客 户 流 失 数 据 挖 掘 [J]. 数 理 统 计 与 管 理,2005,24():62 68 ZHU Shiwu, CUI Wei, XIE Bangchang. Data mining on customer churn of mobile number and type [ J ]. Application of Statistics and Management,2005,24( ): 62 68 Statistical decision research for bank s long term deposit subscription LAI Peng ZHAO Rulei GUO Lizhen School of Mathematics & Statistics,Nanjing University of Information Science & Technology,Nanjing 20044 Abstract Nowadays,with the increasing competition between banks,it is very important to improve the bank s competitiveness by effectively excavating potential clients and providing differentiated services.the decision tree al gorithm is proposed to data mine the possible 2 important attributes which affect bank clients long term deposit subscription.a Portuguese retail bank is addressed,with data collected from May,2008 to November,200.The deci sion tree model is constructed to reflect the important factors in a banking client deposit subscription business. Re sults show that the significant factors which affect client s long term deposit subscription are target number of bank agents,marketing duration and month. Such knowledge greatly reduces the marketing range of potential clients for term deposit thus improves the bank efficiency. Key words data mining;customer orientation;decision tree;statistical decision