1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 系 统 徐 兰 静, 李 珊, 严 钊 ( 南 京 航 空 航 天 大 学 经 济 与 管 理 学 院, 南 京 211100) 摘 要 : 近 年 来 信 息 过 载 问 题 的 出 现 使 得 个 性 化 推 荐 技 术 应 运 而 生, 其 中 协 同 过 滤 推 荐 技 术 通 过 在 用 户 和 信 息 之 间 建 立 联 系, 被 广 泛 应 用 于 电 子 商 务 各 个 领 域. 而 在 高 考 志 愿 填 报 领 域 考 生 也 存 在 无 法 高 效 的 从 诸 多 高 校 中 选 取 适 合 自 己 的 高 校 这 一 信 息 过 载 问 题. 为 此, 可 以 将 协 同 过 滤 思 想 应 用 到 高 考 志 愿 填 报 这 一 新 领 域, 将 考 生 看 作 是 推 荐 系 统 中 的 用 户, 高 校 看 作 是 系 统 中 的 项 目, 通 过 分 析 历 年 的 考 生 志 愿 填 报 相 关 数 据, 从 构 建 用 户 属 性 矩 阵, 查 找 邻 居 用 户 和 产 生 推 荐 三 个 过 程 进 行 详 细 描 述, 并 对 实 验 产 生 的 推 荐 结 果 进 行 分 析, 说 明 了 推 荐 系 统 的 有 效 性, 也 为 进 一 步 的 研 究 工 作 奠 定 基 础. 关 键 词 : 协 同 过 滤 ; 高 考 志 愿 ; 推 荐 系 统 College Entrance Examination Voluntary Recommendation System Based on Collaborative Filtering XU Lan-Jing, LI Shan, YAN Zhao (College of Economic and Management, Naning University of Aeronautics and Astronautics, Naning 211100, China) Abstract: Information overload roblem in recent years makes the ersonalized recommendation technology arise, the collaborative filtering recommendation technology by establishing contacted between the user and the information has been widely used in every field of e-commerce. And in the field of the college entrance examination voluntary students also have the information overload roblem, which means they cannot choose the suitable college from many colleges efficiently. Therefore, the idea of collaborative filtering is alied to this new field, take the students as users and colleges as the items in the recommendation system. By analysing students voluntary reorting relevant data from the revious year, three rocesses of building user attributes matrix, finding the neighbor users and generating recommendation are described in detail. The recommendations results of the exeriment show the effectiveness of recommendations systems, and it lays the foundation for further research work. Key words: collaborative filtering; college entrance examination voluntary; recommendation system 随 着 高 考 招 生 工 作 信 息 化 的 不 断 深 入, 积 累 了 大 量 有 用 的 高 考 志 愿 相 关 数 据 信 息. 在 大 量 的 历 史 录 取 相 关 数 据 信 息 里 面 蕴 含 了 丰 富 的 决 策 信 息, 如 何 有 效 地 利 用 这 些 信 息 辅 助 考 生 填 报 志 愿 是 考 生 家 长 学 校 及 招 生 管 理 部 门 都 关 心 的 问 题 [1], 也 是 当 前 招 生 考 试 业 务 信 息 化 研 究 的 热 点 问 题. 在 电 子 商 务 领 域, 为 解 决 由 于 商 品 个 数 和 种 类 快 速 增 长 导 致 的 信 息 过 载 问 题, 个 性 化 推 荐 技 术 应 运 而 生 [2]. 其 中 协 同 过 滤 的 推 荐 技 术, 是 利 用 用 户 以 及 项 目 的 数 据, 有 效 的 帮 助 用 户 发 现 自 己 感 兴 趣 的 项 目, 是 个 性 化 推 荐 中 研 究 和 应 用 最 为 成 功 的 技 术 之 一 [3], 并 被 广 泛 地 应 用 于 电 子 商 务 的 各 个 领 域. 目 前 国 内 将 协 同 过 滤 应 用 于 高 考 志 愿 推 荐 的 研 究 较 少, 由 于 高 考 机 制 不 同, 国 外 研 究 成 果 很 难 适 应 于 [4] 我 国 的 高 考 志 愿 领 域. 王 灵 峰 基 于 协 同 过 滤 算 法 设 计 高 考 信 息 推 荐 引 擎 时, 利 用 用 户 对 网 页 的 浏 览 次 数 1 基 金 项 目 : 教 育 部 人 文 社 科 基 金 (10YJCZH073); 江 苏 省 自 然 科 学 基 金 (BK2012385); 博 士 点 基 金 (20123218120034); 南 京 航 空 航 天 大 学 基 本 科 研 业 务 费 (NS2013083) 收 稿 时 间 :2014-11-17; 收 到 修 改 稿 时 间 :2015-01-03 Software Technique Algorithm 软 件 技 术 算 法 185
计 算 机 系 统 应 用 htt://www.c-s-a.org.cn 2015 年 第 24 卷 第 7 期 和 浏 览 时 间 作 为 用 户 的 信 息 关 注 度, 并 转 化 为 用 户 对 分 类 信 息 的 评 分, 构 建 用 户 评 分 矩 阵, 这 在 一 定 程 度 上 解 决 了 用 户 冷 启 动 问 题, 但 无 法 保 证 准 确 性. 王 亚 [5] 婧 为 了 提 高 应 用 基 于 用 户 的 协 同 过 滤 算 法 在 高 考 志 愿 推 荐 过 程 中 的 精 确 度, 提 出 采 用 信 息 增 益 率 作 为 属 性 选 择 标 准, 并 对 信 息 增 益 率 较 高 的 属 性 给 予 较 高 的 权 值, 但 是 在 推 荐 志 愿 数 为 5 时 只 有 50% 准 确 率, 系 统 最 终 向 考 生 显 示 10 个 推 荐 志 愿 才 能 保 证 较 高 的 准 确 度. 由 此 发 现, 在 应 用 协 同 过 滤 方 法 时, 推 荐 准 确 度 与 志 愿 推 荐 个 数 两 方 面 存 在 矛 盾, 而 且 在 用 户 相 似 度 计 算 时 的 属 性 选 取 也 是 一 个 关 键 因 素. 基 于 此, 本 文 采 用 文 献 调 研 的 方 法 选 取 影 响 高 考 志 愿 填 报 的 因 素 并 建 立 用 户 属 性 矩 阵, 以 此 作 为 计 算 用 户 相 似 度, 最 后 通 过 两 个 阶 段 产 生 推 荐 集. 并 通 过 实 验, 对 志 愿 推 荐 个 数 和 推 荐 准 确 度 两 方 面 进 行 调 整 分 析, 使 得 在 志 愿 推 荐 个 数 有 限 时 也 保 证 了 较 高 的 推 荐 准 确 度, 说 明 了 推 荐 系 统 的 有 效 性. 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 在 电 子 商 务 环 境 下, 协 同 过 滤 技 术 由 于 其 良 好 的 算 法 思 想 和 优 秀 的 推 荐 结 果 得 到 了 广 泛 应 用. 协 同 过 滤 技 术 在 实 际 应 用 中 主 要 分 为 两 类 [6] : 基 于 用 户 的 协 同 过 滤 推 荐 和 基 于 项 目 的 协 同 过 滤 推 荐, 其 基 本 原 理 是 将 口 碑 效 应 的 过 程 自 动 化, 系 统 提 供 的 建 议 是 基 于 其 他 口 味 相 似 的 用 户 之 喜 好 来 决 定 的 [7]. 本 文 采 用 基 于 用 户 的 协 同 过 滤 算 法, 并 针 对 高 考 志 愿 填 报 的 特 点, 进 行 适 应 性 修 改 使 之 适 用 于 高 考 志 愿 填 报 这 一 新 领 域. 基 于 用 户 的 协 同 过 滤 算 法 实 现 过 程 分 为 3 步 [8] : (1) 建 立 用 户 - 项 目 评 分 矩 阵 ; (2) 查 找 最 近 邻 居 ; (3) 产 生 推 荐. 然 而 在 高 考 志 愿 填 报 系 统 中 不 存 在 评 分 数 据, 而 且 考 生 的 属 性 是 影 响 志 愿 填 报 的 因 素 而 非 评 分 数 据, 为 此 本 文 利 用 用 户 的 属 性 作 为 相 似 性 计 算 的 基 础, 算 法 实 现 过 程 如 图 1 所 示. 图 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 过 程 图 首 先 在 相 关 文 献 的 基 础 上, 综 合 分 析 影 响 考 生 填 报 志 愿 的 因 素, 从 高 考 数 据 库 的 考 生 数 据 表 以 及 高 校 数 据 表 中 提 取 相 关 属 性 构 建 用 户 属 性 矩 阵 ; 然 后 根 据 欧 几 里 得 距 离 计 算 用 户 之 间 的 距 离, 根 据 距 离 最 近 原 则 确 定 邻 居 用 户, 最 后 将 邻 居 用 户 的 录 取 院 校 作 为 推 荐 集 推 荐 给 考 生. 1.1 用 户 属 性 的 选 取 在 高 考 志 愿 推 荐 系 统 中, 由 于 不 存 在 用 户 对 项 目 的 评 分 数 据, 系 统 将 利 用 用 户 属 性 数 据 来 计 算 用 户 之 间 的 相 似 性. 高 考 数 据 一 般 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 等 信 息 表, 每 个 表 都 包 括 许 多 不 同 的 属 性, 属 性 的 选 取 将 直 接 影 响 推 荐 结 果 的 准 确 性. 李 令 [9] 青 等 人 在 高 考 专 业 填 报 决 策 的 影 响 因 素 探 析 一 文 通 过 问 卷 调 查 总 结 影 响 考 生 报 考 决 策 的 因 素 主 要 有 4 个, 分 别 是 发 展 前 景 兴 趣 特 长 他 人 意 见 录 取 机 率, 并 认 为 高 校 招 生 录 取 主 要 根 据 考 生 的 高 考 成 绩, 考 生 实 事 求 是 评 估 自 己 的 实 力 与 特 点, 合 理 定 位, 是 [10] 填 报 志 愿 的 重 要 依 据. 殷 员 分 在 高 考 考 生 志 愿 数 据 分 析 与 挖 掘 研 究 中 利 用 决 策 树 的 方 法 对 历 史 高 考 数 据 进 行 分 析, 发 现 考 生 能 否 被 录 取 与 标 准 投 档 成 绩 批 次 名 称 志 愿 序 号 名 称 标 准 投 档 成 绩 和 标 准 [11] 批 次 分 数 线 有 着 较 强 的 相 关 性. 王 毅 杰 等 人 在 高 考 志 愿 填 报 中 的 行 为 策 略 : 户 籍 的 影 响 一 文 中 通 过 分 析 不 同 户 籍 类 别 的 某 校 某 特 定 专 业 学 生 的 高 考 成 绩 差 异, 基 于 弱 势 者 的 理 性 行 动 原 则, 认 为 越 是 社 会 较 低 层 的 家 庭 子 女 在 高 考 志 愿 的 填 报 中 越 倾 向 于 保 守. 综 合 以 上 相 关 文 献 的 结 论, 本 文 认 为 影 响 考 生 填 报 志 愿 主 要 包 括 高 考 成 绩 以 及 考 生 社 会 属 性 两 方 面 因 素, 结 合 高 考 数 据 库, 最 终 选 取 性 别 户 口 类 型 经 济 条 件 名 次 四 个 属 性 作 为 影 响 考 试 填 报 志 愿 的 属 性. 其 中 性 别 对 于 高 考 志 愿 的 影 响 主 要 是 考 虑 到 兴 趣 爱 好 的 不 同, 即 偏 向 于 选 择 文 史 或 理 工 类 院 校 ; 户 口 类 型 是 指 农 村 或 城 市 户 口, 这 对 高 考 志 愿 填 报 的 影 响 主 要 在 于 学 校 的 选 择 上, 社 会 较 低 层 的 家 庭 子 女 在 高 考 志 愿 的 填 报 中 越 倾 向 于 保 守 ; 经 济 条 件 是 根 据 考 生 家 庭 所 在 地 的 GDP 划 分 为 富 裕 一 般 贫 困 三 种, 这 对 高 考 志 愿 填 报 的 影 响 体 现 在 对 高 校 所 在 地 的 考 虑, 家 庭 经 济 条 件 不 好 的 考 生 在 其 他 条 件 一 样 的 情 况 下 会 倾 向 于 选 择 在 非 一 线 城 市 的 高 校 ; 而 名 次 则 是 影 响 高 考 志 愿 填 报 的 最 关 键 因 素, 相 对 于 高 考 成 绩 而 言, 各 高 校 186 软 件 技 术 算 法 Software Technique Algorithm
每 年 录 取 的 学 生 平 均 名 次 较 稳 定, 且 与 试 卷 难 易 程 度 无 关. 这 样 四 个 因 素 就 包 括 了 考 生 填 报 志 愿 时 对 高 校 类 型 高 校 所 在 地 高 校 档 次 等 多 方 面 的 考 虑. 一 般 高 考 数 据 库 中 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 高 校 计 划 库 等 信 息 表, 其 中 性 别 户 口 类 型 数 据 可 以 直 接 从 考 生 报 名 表 中 得 到, 而 经 济 条 件 则 按 照 考 生 报 名 信 息 中 的 家 庭 所 在 地 ( 区 县 级 ) 当 年 的 GDP 水 平 高 低 将 考 生 的 经 济 水 平 划 分 为 富 裕 一 般 贫 困, 名 次 则 按 照 高 考 录 取 政 策, 根 据 成 绩 表 中 的 各 项 成 绩 对 考 生 进 行 排 名 即 可 得 到. 1.2 查 找 邻 居 用 户 1.2.1 建 立 用 户 属 性 矩 阵 在 利 用 距 离 度 量 不 同 用 户 之 间 的 邻 近 性 时, 为 了 避 免 不 同 的 属 性 尺 度 对 距 离 度 量 的 影 响, 必 须 先 对 属 性 数 据 进 行 标 准 化 处 理, 即 无 量 纲 化 处 理. 本 文 采 用 极 差 变 换 方 法 对 数 据 进 行 标 准 化, 如 下 所 示 : x min( x ) x ' = max( x ) min( x ) i = 1, 2,,n ; = 1, 2,, (1) 其 中 n 表 示 用 户 数, 表 示 属 性 个 数, x 表 示 原 始 数 据, max( x ), min( x ) 分 别 表 示 第 个 属 性 的 最 大 值 和 最 小 值. 1.2.2 计 算 用 户 邻 近 性 查 找 邻 居 用 户 的 基 础 是 用 户 之 间 相 似 度 或 相 异 度, 在 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 中, 邻 居 用 户 的 查 找 是 最 关 键 的 一 步, 这 直 接 决 定 了 推 荐 项 目 的 产 生. 本 文 利 用 欧 几 里 得 距 离 法 计 算 用 户 之 间 的 距 离, 并 以 此 来 表 示 用 户 之 间 的 邻 近 性, 公 式 如 下 : 2 = ( k ),, 1,2, n k = 1 d x x i =, (2) 其 中 x, x k 分 别 表 示 第 i 个 和 第 个 用 户 的 第 k 个 属 性 值. 在 欧 式 距 离 公 式 中, 所 有 属 性 在 计 算 邻 近 度 时 被 看 作 是 同 等 重 要, 然 而 在 高 考 志 愿 推 荐 系 统 中, 考 生 成 绩 类 属 性 显 然 比 社 会 属 性 重 要, 因 此, 可 以 根 据 属 性 的 贡 献 程 度 对 每 个 属 性 加 权 修 改 邻 近 度 公 式, 公 式 如 下 : 2 = (( k ) k ), k= 1 d x x w 其 中 k 专 家 提 供 或 是 根 据 统 计 数 据 产 生. wk = 1 (3) k = 1 w 表 示 第 k 个 属 性 的 权 重, 该 权 重 一 般 由 领 域 1.3 产 生 推 荐 集 在 高 考 志 愿 推 荐 系 统 中, 高 分 段 的 考 生 分 布 较 稀 疏, 对 应 的 录 取 院 校 少 ; 而 低 分 段 的 考 生 分 布 较 密 集, 且 对 应 的 录 取 院 校 较 多. 为 了 提 高 推 荐 结 果 的 准 确 性, 对 于 不 同 分 数 段 的 考 生 需 要 应 用 不 同 的 策 略. 为 了 使 考 生 能 够 高 效 的 选 取 适 合 自 己 的 高 校, 推 荐 算 法 可 以 根 据 考 生 实 际 可 填 报 的 高 校 数 来 确 定 推 荐 集 的 高 校 数 目 R, 一 般 可 以 将 R 定 位 实 际 填 报 高 校 数 的 2 倍, 这 样 既 可 以 有 效 缩 小 范 围, 又 可 以 给 考 生 提 供 一 定 的 选 择 空 间. R 个 推 荐 高 校 的 产 生 是 基 于 邻 居 用 户 的 录 取 高 校 而 产 生. 首 先 对 于 邻 居 用 户 的 确 定, 由 于 高 分 段 的 考 生 较 稀 疏, 对 其 而 言 具 有 参 考 价 值 的 邻 居 用 户 较 少, 相 反, 低 分 段 的 考 生 较 为 密 集, 具 有 参 考 价 值 的 邻 居 用 户 较 多, 所 以 应 根 据 考 生 所 处 的 分 数 段 来 确 定 其 邻 居 用 户. 另 外 低 分 段 的 考 生 较 密 集, 对 应 的 录 取 院 校 较 多, 本 文 采 取 以 投 票 形 式 从 邻 居 用 户 所 有 的 录 取 院 校 中 选 取 R 个 高 校 作 为 推 荐 集, 并 认 为 距 离 为 0 的 用 户 具 有 最 高 参 考 价 值, 具 有 一 票 决 定 权. 因 此, 在 高 考 志 愿 推 荐 系 统 中, 推 荐 集 的 产 生 分 为 两 个 阶 段 : (1) 将 距 离 为 0 的 用 户 作 为 目 标 用 户 的 最 近 邻, 并 将 其 对 应 的 录 取 院 校 加 入 到 推 荐 集 中 ; (2) 根 据 目 标 用 户 的 所 处 分 数 段, 选 取 距 离 最 小 的 N 个 用 户 作 为 邻 居 用 户, 并 将 N 个 用 户 所 录 取 的 院 校 按 照 人 数 降 序 排 列, 并 依 次 将 院 校 加 入 到 推 荐 集 中, 直 至 推 荐 集 中 的 院 校 个 数 达 到 预 先 设 定 的 推 荐 个 数 R, 形 成 最 终 的 推 荐 集. 推 荐 集 的 个 数 R 可 以 根 据 高 考 志 愿 填 报 系 统 中 志 愿 个 数 来 相 应 确 定. 2 实 验 分 析 2.1 数 据 来 源 与 实 验 环 境 本 文 利 用 某 省 2011 年 高 考 数 据 中 的 文 科 第 一 批 的 考 生 数 据 作 为 实 验 数 据, 原 始 数 据 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 高 校 计 划 库 等 信 息 表, 每 个 表 中 包 括 多 个 属 性, 根 据 2.1 中 的 分 析, 首 先 从 考 生 报 名 库 中 抽 取 考 生 的 性 别 户 口 类 型 以 及 家 庭 地 址 属 性, 并 从 成 绩 库 中 抽 取 考 生 总 分 进 行 排 序, 作 为 学 生 的 名 次, 然 后 从 录 取 库 中 提 取 录 取 高 校, 形 成 完 整 的 数 据 集, 包 括 用 户 属 性 数 据 以 及 对 应 的 项 目 数 据, 包 括 9423 个 考 生, 148 个 高 校. 随 机 抽 取 其 中 的 900 条 数 据 作 为 测 试 集, 即 看 作 录 取 高 校 未 知 的 目 标 用 户, 其 余 的 8523 条 数 据 作 为 训 练 集, 即 录 取 院 校 已 知 的 非 目 标 Software Technique Algorithm 软 件 技 术 算 法 187
计 算 机 系 统 应 用 htt://www.c-s-a.org.cn 2015 年 第 24 卷 第 7 期 用 户. 实 验 过 程 中 的 算 法 是 在 VS 环 境 中 采 用 C# 语 言 实 现. 2.2 建 立 用 户 属 性 矩 阵 在 训 练 集 和 测 试 集 的 基 础 上, 利 用 公 式 (1) 对 用 户 属 性 数 据 进 行 标 准 化, 表 1 为 用 户 属 性 的 原 始 数 据, 表 2 为 标 准 化 后 的 无 量 纲 属 性 数 据. 表 1 用 户 属 性 矩 阵 ( 标 准 化 前 ) 院 校 代 号 性 别 户 口 类 型 经 济 条 件 名 次 3129 2 1 1 3545 3129 1 1 0 5389 3129 2 1 1 4810 3129 2 2 0 8058 3129 1 1 2 5675 3129 2 1 2 3586 3129 2 1 1 2172 3129 1 1 2 3691 3129 1 1 1 7126 3118 2 1 0 4449 5201 1 1 0 587 5201 1 1 0 726 5201 2 1 0 769 表 2 用 户 属 性 矩 阵 ( 标 准 化 后 ) 院 校 代 号 性 别 户 口 类 型 经 济 条 件 名 次 3129 1 0 0.5 0.376180872 3129 0 0 0 0.571913809 3129 1 0 0.5 0.510455365 3129 1 1 0 0.855217068 3129 0 0 1 0.602271521 3129 1 0 1 0.380532852 3129 1 0 0.5 0.230442628 3129 1 0 1 0.391678165 3129 0 0 0.5 0.756289141 3118 1 0 0 0.472136715 5201 0 0 0 0.062201464 5201 0 0 0 0.076955737 5201 1 0 0 0.081520008 2.3 计 算 用 户 邻 近 性 在 标 准 化 的 用 户 属 性 数 据 基 础 上, 利 用 公 式 (3) 就 可 以 计 算 目 标 用 户 与 非 目 标 用 户 之 间 的 距 离. 考 生 各 个 属 性 的 权 重 一 般 由 专 家 给 出, 或 根 据 统 计 数 据 产 生, 本 文 将 考 生 的 四 个 属 性 : 性 别 户 口 类 型 经 济 条 件 以 及 名 次 权 重 分 别 设 为 0.1, 0.1, 0.1, 07, 据 此, 就 可 以 计 算 目 标 用 户 与 非 目 标 用 户 之 间 的 距 离, 从 而 确 定 邻 居 用 户. 2.4 产 生 推 荐 集 对 于 测 试 集 中 的 目 标 用 户, 首 先 根 据 公 式 (3) 计 算 其 与 非 目 标 用 户 的 距 离, 根 据 1.3 中 的 两 阶 段 法 产 生 推 荐 集 时, 需 要 事 先 确 定 邻 居 用 户 数 N 和 推 荐 集 的 院 校 个 数 R. 本 文 首 先 对 2011 年 一 本 文 科 生 的 成 绩 进 行 统 计, 算 出 各 分 数 段 平 均 每 个 分 数 的 考 生 数. 从 文 科 一 本 分 数 线 开 始, 每 10 分 为 一 档, 并 将 分 数 高 于 393 的 归 位 一 档, 统 计 结 果 如 表 3 所 示. 以 最 低 分 数 段 (343-352) 为 例 进 行 说 明, 平 均 每 个 分 数 有 近 400 考 生, 因 此 可 以 在 某 种 程 度 上 认 为 对 于 该 分 数 段 的 考 生, 其 具 有 参 考 意 义 的 邻 居 用 户 有 400 人, 故 对 该 分 数 段 将 N 设 置 为 400, 其 它 分 数 段 以 此 类 推, 分 别 确 定 N 取 值. 由 于 江 苏 省 高 考 志 愿 填 报 时, 对 于 一 本 文 科 生 可 以 填 报 3 个 一 本 院 校 以 及 3 个 二 本 院 校, 因 此 本 文 将 推 荐 集 中 的 院 校 个 数 R 设 定 为 6. 表 3 各 分 数 段 平 均 每 分 值 对 应 考 生 数 分 数 段 平 均 人 数 N 393-414 3.6 10 383-392 16.2 20 373-382 61.8 70 363-372 150.2 200 353-362 319.4 400 343-352 389.7 400 在 确 定 了 N 和 R 的 取 值 后, 就 可 以 依 据 1.3 的 两 个 阶 段 产 生 推 荐 集. 首 先 选 取 距 离 为 0 的 最 近 邻 用 户 的 录 取 院 校 加 入 到 推 荐 集 中. 判 断 推 荐 集 中 院 校 个 数 是 否 小 于 R, 若 是, 则 根 据 第 二 步, 依 次 加 入 不 同 的 院 校, 直 至 推 荐 个 数 等 于 R, 形 成 最 终 的 推 荐 集. 图 2 即 为 推 荐 集 部 分 截 图, 其 中 第 一 列 为 用 户 ID 和 其 实 际 录 取 的 院 校, 后 面 以 制 表 符 隔 开 的 即 为 推 荐 集 中 的 院 校. 图 2 推 荐 集 部 分 截 图 188 软 件 技 术 算 法 Software Technique Algorithm
2.5 实 验 结 果 分 析 根 据 算 法 输 出 的 推 荐 集, 按 照 不 同 分 数 段 进 行 统 计 分 析, 统 计 结 果 如 图 3 所 示, 其 中 总 人 数 表 示 测 试 集 中 900 条 数 据 处 于 该 分 数 段 的 人 数, 正 确 人 数 指 考 生 实 际 录 取 院 校 在 推 荐 集 中, 正 确 率 指 考 生 实 际 录 取 院 校 在 推 荐 集 中 的 人 数 占 其 所 处 分 数 段 总 人 数 的 比 例. 图 3 各 分 数 段 推 荐 结 果 数 据 分 析 图 从 图 中 可 以 得 出 以 下 结 论 : 1 高 分 段 推 荐 效 果 好. 从 图 中 可 以 看 出, 在 高 分 段 正 确 率 最 高 达 到 了 100%, 这 一 方 面 说 明 了 算 法 的 可 行 性, 另 一 方 面 也 说 明 了 高 分 段 的 考 生 对 于 院 校 的 选 择 较 为 明 确 且 具 有 主 动 权, 不 存 在 信 息 过 载 的 问 题, 这 部 分 考 生 更 关 注 的 是 专 业 而 非 高 校, 而 这 在 本 文 的 算 法 中 并 未 考 虑 到. 2 高 分 段 与 低 分 段 的 正 确 率 差 异 大. 不 同 于 高 分 段, 低 分 段 的 推 荐 效 果 则 较 差, 最 低 只 有 50%, 这 说 明 算 法 在 设 计 过 程 中 需 要 重 点 考 虑 考 生 分 布 较 密 集 的 中 低 分 段 考 生, 比 如 结 合 院 校 的 招 生 人 数 或 者 其 他 更 多 的 属 性 数 据 进 行 算 法 优 化. 3 算 法 的 可 行 性 及 改 进 方 案. 各 分 数 段 的 平 均 正 确 率 为 72.23%, 这 说 明 利 用 协 同 过 滤 思 想 进 行 高 考 志 愿 推 荐 是 可 行 的, 但 从 推 荐 结 果 中 也 发 现 了 很 多 不 足 之 处, 比 如 对 于 高 分 段 和 低 分 段 的 推 荐 效 果 差 异 性 说 明 应 采 取 不 一 样 的 推 荐 方 法, 对 于 高 分 段 考 生 而 言 可 填 报 的 院 校 较 为 明 确 而 且 占 据 主 动 权, 他 们 更 多 的 考 虑 专 业 等 其 他 因 素 ; 而 对 于 低 分 段 考 生, 由 于 考 生 分 布 较 为 密 集, 除 了 考 虑 到 院 校 档 次 外, 还 应 结 合 院 校 对 应 的 招 生 人 数 或 其 他 因 素 进 行 分 析, 以 此 提 高 推 荐 效 果. 3 结 论 本 文 将 协 同 过 滤 的 方 法 应 用 于 高 考 志 愿 推 荐 的 领 域, 将 需 要 填 报 志 愿 的 高 考 考 生 看 作 是 推 荐 系 统 中 的 用 户, 高 校 看 作 是 系 统 中 的 项 目, 通 过 分 析 历 年 的 考 生 填 报 数 据 信 息, 为 考 生 推 荐 其 感 兴 趣 的 高 校, 并 对 推 荐 结 果 进 行 分 析, 说 明 了 推 荐 系 统 的 有 效 性, 但 也 从 中 发 现 了 一 些 问 题, 比 如 对 于 高 分 段 和 低 分 段 的 推 荐 效 果 差 异 性 说 明 应 采 取 不 一 样 的 推 荐 方 法, 对 此 可 以 选 取 不 一 样 的 用 户 属 性 数 据 或 者 是 结 合 其 他 院 校 属 性 ( 比 如 院 校 招 生 人 数 ) 数 据 来 构 建 用 户 属 性 矩 阵, 或 者 利 用 不 同 的 距 离 公 式 来 定 义 不 同 分 数 段 考 生 间 的 距 离 等 措 施 来 提 高 推 荐 效 果, 这 也 将 是 后 期 的 研 究 内 容. 参 考 文 献 1 何 小 明, 张 自 力, 肖 灿, 夏 大 飞. 基 于 OLAP 与 数 据 挖 掘 的 高 考 招 生 数 据 分 析. 计 算 机 科 学,2012,6(39). 2 项 亮. 推 荐 系 统 实 践. 北 京 : 人 民 邮 电 出 版 社,2012. 3 周 丽 娟, 徐 明 升, 张 研 研, 张 璋. 基 于 协 同 过 滤 的 课 程 推 荐 模 型. 计 算 机 应 用 研 究,2010,4(27). 4 王 灵 峰. 高 考 信 息 推 荐 引 擎 的 设 计 与 实 现 [ 学 位 论 文 ]. 广 州 : 暨 南 大 学,2011. 5 王 亚 婧. 基 于 数 据 挖 掘 和 协 同 过 滤 的 成 人 高 考 志 愿 推 荐 系 统 研 究 [ 学 位 论 文 ]. 北 京 : 北 京 林 业 大 学,2011. 6 黄 裕 洋, 金 远 平. 一 种 综 合 用 户 和 项 目 因 素 的 协 同 过 滤 推 荐 算 法. 东 南 大 学 学 报 ( 自 然 科 学 版 ),2010,5(40):917. 7 Basilico J, Hofmann T. Unifying collaborative and content-based filtering. Proc. of the Twenty-First International Conference on Machine Learning. Banff, Alta. 2004. 65 72. 8 陈 志 敏, 李 志 强. 基 于 用 户 特 征 和 项 目 属 性 的 协 同 过 滤 推 荐 算 法. 计 算 机 应 用,2011,7(31). 9 李 令 青, 刘 彦 楼, 建 伟. 高 考 专 业 填 报 决 策 的 影 响 因 素 探 析. 中 国 健 康 心 理 学 杂 志,2008,8(16). 10 殷 员 分. 高 考 考 生 志 愿 数 据 分 析 与 挖 掘 研 究 [ 学 位 论 文 ]. 重 庆 : 西 南 大 学,2010. 11 王 毅 杰, 梁 子 浪, 陆 宏 生. 高 考 志 愿 填 报 中 的 行 为 策 略 : 户 籍 的 影 响. 天 津 师 范 大 学 学 报 ( 社 会 科 学 版 ),2008,3. Software Technique Algorithm 软 件 技 术 算 法 189