Microsoft Word - 专论综述1.doc



Similar documents
Microsoft Word - 专论综述1.doc

标题

92

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

214 年 第 3 期 郑 丹 青 等 : 高 职 学 生 个 性 特 征 及 职 业 能 力 调 查 与 分 析 61 一 问 题 的 提 出 随 着 高 等 教 育 大 众 化, 高 职 院 校 的 学 生 来 源 出 现 多 样 化, 学 生 的 基 本 素 质 和 职 业 能 力 参 差 不

13-4-Cover-1

如 语 言 研 究 型 数 据 库 那 样 成 熟, 但 可 为 构 建 华 文 教 材 数 据 库 提 供 借 鉴 此 类 数 据 库 中 有 代 表 性 的 有 北 京 语 言 大 学 的 对 外 汉 语 教 材 检 索 数 据 库, 中 央 民 族 大 学 的 国 际 汉 语 教 学 国 别

Microsoft Word doc


\\Lhh\07-02\黑白\内页黑白1-16.p

Microsoft Word - 01李惠玲ok.doc

http / /yxxy. cbpt. cnki. net / % % %

by industrial structure evolution from 1952 to 2007 and its influence effect was first acceleration and then deceleration second the effects of indust

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

仁达摩崖造像的题材为大日如来佛像及八大 疾病等诸恶果 水坠恶途 法律也对反佛者 从其祖 弟子 八大菩萨 二飞天等 以往的研究者从考古 先亲属起施行 故无论任何人均不得詈骂 图像本身的考订入手 对此处石刻的题材 定名 造 讥讽 像风格 组合关系等方面已经给予了较多关注 观 这次调查工作还特别注意到以往

Microsoft Word doc

Microsoft Word - chnInfoPaper6

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

~ ~ ~

F4


Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

案例正文:(幼圆、小三、加粗)(全文段前与段后0

亚临界大容量电站锅炉过热器系统阻力

EXCEL EXCEL

1 VLBI VLBI 2 32 MHz 2 Gbps X J VLBI [3] CDAS IVS [4,5] CDAS MHz, 16 MHz, 8 MHz, 4 MHz, 2 MHz [6] CDAS VLBI CDAS 2 CDAS CDAS 5 2

IPCC CO (IPCC2006) 1 : = ( 1) 1 (kj/kg) (kgc/gj) (tc/t)

陶艳.doc

基 础 教 育 过 度 ~ %

17

44 深 圳 信 息 职 业 技 术 学 院 学 报 第 10 卷 业 实 际 进 出 口 单 证 样 本 的 演 示 与 讲 解, 导 致 学 生 在 学 校 看 到 的 都 是 过 时 的 单 据 演 练 的 陈 旧 的 工 作 流 程, 走 上 工 作 岗 位 后, 一 旦 遇 到 实 际 问

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

标题

课程13-7.FIT)

Microsoft Word - 1-編者的話


在 培 养 职 前 卓 越 化 学 教 师 的 院 校, 会 编 一 本 过 去 称 作 化 学 教 学 论 实 验, 现 在 拟 为 卓 越 化 学 教 师 教 育 实 验 教 学 研 究 的 教 材 各 院 校 对 这 门 课 程 所 给 的 学 时 不 太 一 样, 但 都 是 围 绕 实 验

rights and interests of doctors and patients. But it is insufficient jurisprudential basis and legitimacy crisis of legal forms through the form of mi

Microsoft Word - A _ doc

标题

第六篇

untitled

2006中國文學研究範本檔

ZHONG Chong A Study on the Map of Provincial Capital of Zhejiang Past and Present


( ) ( ) ( ) ( )

: : : :1996,??,,,,,,,, :,,,,, Goldsmith (1969) 35,, Shaw(1973) Gurley Shaw(1960), Demirg c2 Kunt Levin (2001) 150 (1992)

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

,,,,,,,,,, ; (),,,,,,,, 1862,1864 8,,() () () () () () (), :,,,,,,,,,,,,,,,, 95 %,, 1.,,, 20 (1838 ) (1873 ), ( )

标题

案例使用说明

文章

UDC Hainan Airlines Investment Valuation Analysis (MBA) 厦门大学博硕士论文摘要库

填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目

标题

,20 80,,,,, ; 80 90,, [ 4 ], [ 5 ],, ;21,,,,,,,20 80,,,,, ( ) ; ( ) ; ( ) ; ( ) [6 ], 90,,,,, [ 7 ] 21,,,,, [ 8 ],,, 30,,,,,,,,,,, ;,, ;,, ; 30,,,,,,,

Microsoft Word - 6微调 _1_

F325.1 A 17BJY010 16JZD

Your Paper's Title Starts Here: Please Center use Helvetica (Arial) 14

1對外華語文詞彙教學的策略研究_第三次印).doc

% % % % % % ~

Microsoft Word - 贺小凤,王国胜.doc

(Microsoft Word - 22\264\301\261\306\252\ \247\271\246\250.doc)

标题

Oates U

我国原奶及乳制品安全生产和质量安全管理研究

概述

,,,,,,, :,,,,, ;,,,,,, : N = Y pr, dn N = dy Y - dpr pr, Y, N, pr,, (1),, ( : / ) :,, : t pr = e 1980 t = 1,t 9

标题

(Cohen R. J. 2005),,,,,,,,, ( Testing),,,,,,,,,,, ( ),,,,,,,,,,,,,, 85

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Microsoft Word - MIS.doc

輥輯訛 % 2010~ % Northwestern Journal of Ethnology 1. J., 1994, 3 14~ J., ~150.

具有多个输入 特别是多个输出的 部门 或 单位 ( 称为 决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型 也是 DEA 的基础 和重要模型 假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m


厦 门 大 学 学 位 论 文 原 创 性 声 明 本 人 呈 交 的 学 位 论 文 是 本 人 在 导 师 指 导 下, 独 立 完 成 的 研 究 成 果 本 人 在 论 文 写 作 中 参 考 其 他 个 人 或 集 体 已 经 发 表 的 研 究 成 果, 均 在 文 中 以 适 当 方

% 30% % % % %

A XZ - XB

Microsoft Word - A doc

张建城毕业论文.doc

Microsoft Word 記錄附件

Microsoft Word - A _ doc

我国高速公路建设管理现状和主要问题

中医教育 版

Ansell Gash ~ ~ Rhodes ~ H. Haken 20 90

第16卷 第2期 邯郸学院学报 年6月

10 中 草 药 Chinese Traditional and Herbal Drugs 第 43 卷 第 1 期 2012 年 1 月 生 药 打 粉 入 药 的 基 本 特 点, 借 鉴 材 料 学 粉 体 学 等 学 科 的 研 究 成 果, 在 中 药 传 统 制 药 理 念 的 启 发

,,,,,,,,,,,,,,,,,,,,, ( Interational Chinese Language Education),, ;, ;, ;,,,,,,,, 2. 1,,,,, (MTCSOL),,,,,, 400

572 40,,,, [ 14 ],, [ 15 ], [ 16 ] 1. 2 Kagan, [ 17 ],,, ( ) [ 5, 18 ],, ( ) [ 19 ] 3,,, ( ), [ 4 ] 311, 6 [ 20 ],, 2 4 [ 21 ],, 1. 3,,,, [ 21 ] Belsk

~ a 3 h NCEP ~ 24 3 ~ ~ 8 9 ~ km m ~ 500 m 500 ~ 800 m 800 ~ m a 200

穨423.PDF

,,,,, (,1988: 630) 218

4 10% 90%

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性


David Faure

62 互 動 性 裝 置 藝 術 對 幼 保 系 學 生 壓 力 情 緒 療 癒 影 響 之 案 例 探 究 62 壹 緒 論 一 研 究 背 景 與 動 機 根 據 財 團 法 人 董 氏 基 金 會 於 2008 年 1 對 大 學 生 主 觀 壓 力 來 源 與 憂 鬱 情 緒 相 關 性 研

64 Culture and Education as Sponsored by the Board of Trustees for AIFBG Hsiu-huan Chou * Abstract The Board of Trustees for the Administration of the

Transcription:

1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 系 统 徐 兰 静, 李 珊, 严 钊 ( 南 京 航 空 航 天 大 学 经 济 与 管 理 学 院, 南 京 211100) 摘 要 : 近 年 来 信 息 过 载 问 题 的 出 现 使 得 个 性 化 推 荐 技 术 应 运 而 生, 其 中 协 同 过 滤 推 荐 技 术 通 过 在 用 户 和 信 息 之 间 建 立 联 系, 被 广 泛 应 用 于 电 子 商 务 各 个 领 域. 而 在 高 考 志 愿 填 报 领 域 考 生 也 存 在 无 法 高 效 的 从 诸 多 高 校 中 选 取 适 合 自 己 的 高 校 这 一 信 息 过 载 问 题. 为 此, 可 以 将 协 同 过 滤 思 想 应 用 到 高 考 志 愿 填 报 这 一 新 领 域, 将 考 生 看 作 是 推 荐 系 统 中 的 用 户, 高 校 看 作 是 系 统 中 的 项 目, 通 过 分 析 历 年 的 考 生 志 愿 填 报 相 关 数 据, 从 构 建 用 户 属 性 矩 阵, 查 找 邻 居 用 户 和 产 生 推 荐 三 个 过 程 进 行 详 细 描 述, 并 对 实 验 产 生 的 推 荐 结 果 进 行 分 析, 说 明 了 推 荐 系 统 的 有 效 性, 也 为 进 一 步 的 研 究 工 作 奠 定 基 础. 关 键 词 : 协 同 过 滤 ; 高 考 志 愿 ; 推 荐 系 统 College Entrance Examination Voluntary Recommendation System Based on Collaborative Filtering XU Lan-Jing, LI Shan, YAN Zhao (College of Economic and Management, Naning University of Aeronautics and Astronautics, Naning 211100, China) Abstract: Information overload roblem in recent years makes the ersonalized recommendation technology arise, the collaborative filtering recommendation technology by establishing contacted between the user and the information has been widely used in every field of e-commerce. And in the field of the college entrance examination voluntary students also have the information overload roblem, which means they cannot choose the suitable college from many colleges efficiently. Therefore, the idea of collaborative filtering is alied to this new field, take the students as users and colleges as the items in the recommendation system. By analysing students voluntary reorting relevant data from the revious year, three rocesses of building user attributes matrix, finding the neighbor users and generating recommendation are described in detail. The recommendations results of the exeriment show the effectiveness of recommendations systems, and it lays the foundation for further research work. Key words: collaborative filtering; college entrance examination voluntary; recommendation system 随 着 高 考 招 生 工 作 信 息 化 的 不 断 深 入, 积 累 了 大 量 有 用 的 高 考 志 愿 相 关 数 据 信 息. 在 大 量 的 历 史 录 取 相 关 数 据 信 息 里 面 蕴 含 了 丰 富 的 决 策 信 息, 如 何 有 效 地 利 用 这 些 信 息 辅 助 考 生 填 报 志 愿 是 考 生 家 长 学 校 及 招 生 管 理 部 门 都 关 心 的 问 题 [1], 也 是 当 前 招 生 考 试 业 务 信 息 化 研 究 的 热 点 问 题. 在 电 子 商 务 领 域, 为 解 决 由 于 商 品 个 数 和 种 类 快 速 增 长 导 致 的 信 息 过 载 问 题, 个 性 化 推 荐 技 术 应 运 而 生 [2]. 其 中 协 同 过 滤 的 推 荐 技 术, 是 利 用 用 户 以 及 项 目 的 数 据, 有 效 的 帮 助 用 户 发 现 自 己 感 兴 趣 的 项 目, 是 个 性 化 推 荐 中 研 究 和 应 用 最 为 成 功 的 技 术 之 一 [3], 并 被 广 泛 地 应 用 于 电 子 商 务 的 各 个 领 域. 目 前 国 内 将 协 同 过 滤 应 用 于 高 考 志 愿 推 荐 的 研 究 较 少, 由 于 高 考 机 制 不 同, 国 外 研 究 成 果 很 难 适 应 于 [4] 我 国 的 高 考 志 愿 领 域. 王 灵 峰 基 于 协 同 过 滤 算 法 设 计 高 考 信 息 推 荐 引 擎 时, 利 用 用 户 对 网 页 的 浏 览 次 数 1 基 金 项 目 : 教 育 部 人 文 社 科 基 金 (10YJCZH073); 江 苏 省 自 然 科 学 基 金 (BK2012385); 博 士 点 基 金 (20123218120034); 南 京 航 空 航 天 大 学 基 本 科 研 业 务 费 (NS2013083) 收 稿 时 间 :2014-11-17; 收 到 修 改 稿 时 间 :2015-01-03 Software Technique Algorithm 软 件 技 术 算 法 185

计 算 机 系 统 应 用 htt://www.c-s-a.org.cn 2015 年 第 24 卷 第 7 期 和 浏 览 时 间 作 为 用 户 的 信 息 关 注 度, 并 转 化 为 用 户 对 分 类 信 息 的 评 分, 构 建 用 户 评 分 矩 阵, 这 在 一 定 程 度 上 解 决 了 用 户 冷 启 动 问 题, 但 无 法 保 证 准 确 性. 王 亚 [5] 婧 为 了 提 高 应 用 基 于 用 户 的 协 同 过 滤 算 法 在 高 考 志 愿 推 荐 过 程 中 的 精 确 度, 提 出 采 用 信 息 增 益 率 作 为 属 性 选 择 标 准, 并 对 信 息 增 益 率 较 高 的 属 性 给 予 较 高 的 权 值, 但 是 在 推 荐 志 愿 数 为 5 时 只 有 50% 准 确 率, 系 统 最 终 向 考 生 显 示 10 个 推 荐 志 愿 才 能 保 证 较 高 的 准 确 度. 由 此 发 现, 在 应 用 协 同 过 滤 方 法 时, 推 荐 准 确 度 与 志 愿 推 荐 个 数 两 方 面 存 在 矛 盾, 而 且 在 用 户 相 似 度 计 算 时 的 属 性 选 取 也 是 一 个 关 键 因 素. 基 于 此, 本 文 采 用 文 献 调 研 的 方 法 选 取 影 响 高 考 志 愿 填 报 的 因 素 并 建 立 用 户 属 性 矩 阵, 以 此 作 为 计 算 用 户 相 似 度, 最 后 通 过 两 个 阶 段 产 生 推 荐 集. 并 通 过 实 验, 对 志 愿 推 荐 个 数 和 推 荐 准 确 度 两 方 面 进 行 调 整 分 析, 使 得 在 志 愿 推 荐 个 数 有 限 时 也 保 证 了 较 高 的 推 荐 准 确 度, 说 明 了 推 荐 系 统 的 有 效 性. 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 在 电 子 商 务 环 境 下, 协 同 过 滤 技 术 由 于 其 良 好 的 算 法 思 想 和 优 秀 的 推 荐 结 果 得 到 了 广 泛 应 用. 协 同 过 滤 技 术 在 实 际 应 用 中 主 要 分 为 两 类 [6] : 基 于 用 户 的 协 同 过 滤 推 荐 和 基 于 项 目 的 协 同 过 滤 推 荐, 其 基 本 原 理 是 将 口 碑 效 应 的 过 程 自 动 化, 系 统 提 供 的 建 议 是 基 于 其 他 口 味 相 似 的 用 户 之 喜 好 来 决 定 的 [7]. 本 文 采 用 基 于 用 户 的 协 同 过 滤 算 法, 并 针 对 高 考 志 愿 填 报 的 特 点, 进 行 适 应 性 修 改 使 之 适 用 于 高 考 志 愿 填 报 这 一 新 领 域. 基 于 用 户 的 协 同 过 滤 算 法 实 现 过 程 分 为 3 步 [8] : (1) 建 立 用 户 - 项 目 评 分 矩 阵 ; (2) 查 找 最 近 邻 居 ; (3) 产 生 推 荐. 然 而 在 高 考 志 愿 填 报 系 统 中 不 存 在 评 分 数 据, 而 且 考 生 的 属 性 是 影 响 志 愿 填 报 的 因 素 而 非 评 分 数 据, 为 此 本 文 利 用 用 户 的 属 性 作 为 相 似 性 计 算 的 基 础, 算 法 实 现 过 程 如 图 1 所 示. 图 1 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 过 程 图 首 先 在 相 关 文 献 的 基 础 上, 综 合 分 析 影 响 考 生 填 报 志 愿 的 因 素, 从 高 考 数 据 库 的 考 生 数 据 表 以 及 高 校 数 据 表 中 提 取 相 关 属 性 构 建 用 户 属 性 矩 阵 ; 然 后 根 据 欧 几 里 得 距 离 计 算 用 户 之 间 的 距 离, 根 据 距 离 最 近 原 则 确 定 邻 居 用 户, 最 后 将 邻 居 用 户 的 录 取 院 校 作 为 推 荐 集 推 荐 给 考 生. 1.1 用 户 属 性 的 选 取 在 高 考 志 愿 推 荐 系 统 中, 由 于 不 存 在 用 户 对 项 目 的 评 分 数 据, 系 统 将 利 用 用 户 属 性 数 据 来 计 算 用 户 之 间 的 相 似 性. 高 考 数 据 一 般 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 等 信 息 表, 每 个 表 都 包 括 许 多 不 同 的 属 性, 属 性 的 选 取 将 直 接 影 响 推 荐 结 果 的 准 确 性. 李 令 [9] 青 等 人 在 高 考 专 业 填 报 决 策 的 影 响 因 素 探 析 一 文 通 过 问 卷 调 查 总 结 影 响 考 生 报 考 决 策 的 因 素 主 要 有 4 个, 分 别 是 发 展 前 景 兴 趣 特 长 他 人 意 见 录 取 机 率, 并 认 为 高 校 招 生 录 取 主 要 根 据 考 生 的 高 考 成 绩, 考 生 实 事 求 是 评 估 自 己 的 实 力 与 特 点, 合 理 定 位, 是 [10] 填 报 志 愿 的 重 要 依 据. 殷 员 分 在 高 考 考 生 志 愿 数 据 分 析 与 挖 掘 研 究 中 利 用 决 策 树 的 方 法 对 历 史 高 考 数 据 进 行 分 析, 发 现 考 生 能 否 被 录 取 与 标 准 投 档 成 绩 批 次 名 称 志 愿 序 号 名 称 标 准 投 档 成 绩 和 标 准 [11] 批 次 分 数 线 有 着 较 强 的 相 关 性. 王 毅 杰 等 人 在 高 考 志 愿 填 报 中 的 行 为 策 略 : 户 籍 的 影 响 一 文 中 通 过 分 析 不 同 户 籍 类 别 的 某 校 某 特 定 专 业 学 生 的 高 考 成 绩 差 异, 基 于 弱 势 者 的 理 性 行 动 原 则, 认 为 越 是 社 会 较 低 层 的 家 庭 子 女 在 高 考 志 愿 的 填 报 中 越 倾 向 于 保 守. 综 合 以 上 相 关 文 献 的 结 论, 本 文 认 为 影 响 考 生 填 报 志 愿 主 要 包 括 高 考 成 绩 以 及 考 生 社 会 属 性 两 方 面 因 素, 结 合 高 考 数 据 库, 最 终 选 取 性 别 户 口 类 型 经 济 条 件 名 次 四 个 属 性 作 为 影 响 考 试 填 报 志 愿 的 属 性. 其 中 性 别 对 于 高 考 志 愿 的 影 响 主 要 是 考 虑 到 兴 趣 爱 好 的 不 同, 即 偏 向 于 选 择 文 史 或 理 工 类 院 校 ; 户 口 类 型 是 指 农 村 或 城 市 户 口, 这 对 高 考 志 愿 填 报 的 影 响 主 要 在 于 学 校 的 选 择 上, 社 会 较 低 层 的 家 庭 子 女 在 高 考 志 愿 的 填 报 中 越 倾 向 于 保 守 ; 经 济 条 件 是 根 据 考 生 家 庭 所 在 地 的 GDP 划 分 为 富 裕 一 般 贫 困 三 种, 这 对 高 考 志 愿 填 报 的 影 响 体 现 在 对 高 校 所 在 地 的 考 虑, 家 庭 经 济 条 件 不 好 的 考 生 在 其 他 条 件 一 样 的 情 况 下 会 倾 向 于 选 择 在 非 一 线 城 市 的 高 校 ; 而 名 次 则 是 影 响 高 考 志 愿 填 报 的 最 关 键 因 素, 相 对 于 高 考 成 绩 而 言, 各 高 校 186 软 件 技 术 算 法 Software Technique Algorithm

每 年 录 取 的 学 生 平 均 名 次 较 稳 定, 且 与 试 卷 难 易 程 度 无 关. 这 样 四 个 因 素 就 包 括 了 考 生 填 报 志 愿 时 对 高 校 类 型 高 校 所 在 地 高 校 档 次 等 多 方 面 的 考 虑. 一 般 高 考 数 据 库 中 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 高 校 计 划 库 等 信 息 表, 其 中 性 别 户 口 类 型 数 据 可 以 直 接 从 考 生 报 名 表 中 得 到, 而 经 济 条 件 则 按 照 考 生 报 名 信 息 中 的 家 庭 所 在 地 ( 区 县 级 ) 当 年 的 GDP 水 平 高 低 将 考 生 的 经 济 水 平 划 分 为 富 裕 一 般 贫 困, 名 次 则 按 照 高 考 录 取 政 策, 根 据 成 绩 表 中 的 各 项 成 绩 对 考 生 进 行 排 名 即 可 得 到. 1.2 查 找 邻 居 用 户 1.2.1 建 立 用 户 属 性 矩 阵 在 利 用 距 离 度 量 不 同 用 户 之 间 的 邻 近 性 时, 为 了 避 免 不 同 的 属 性 尺 度 对 距 离 度 量 的 影 响, 必 须 先 对 属 性 数 据 进 行 标 准 化 处 理, 即 无 量 纲 化 处 理. 本 文 采 用 极 差 变 换 方 法 对 数 据 进 行 标 准 化, 如 下 所 示 : x min( x ) x ' = max( x ) min( x ) i = 1, 2,,n ; = 1, 2,, (1) 其 中 n 表 示 用 户 数, 表 示 属 性 个 数, x 表 示 原 始 数 据, max( x ), min( x ) 分 别 表 示 第 个 属 性 的 最 大 值 和 最 小 值. 1.2.2 计 算 用 户 邻 近 性 查 找 邻 居 用 户 的 基 础 是 用 户 之 间 相 似 度 或 相 异 度, 在 基 于 协 同 过 滤 的 高 考 志 愿 推 荐 算 法 中, 邻 居 用 户 的 查 找 是 最 关 键 的 一 步, 这 直 接 决 定 了 推 荐 项 目 的 产 生. 本 文 利 用 欧 几 里 得 距 离 法 计 算 用 户 之 间 的 距 离, 并 以 此 来 表 示 用 户 之 间 的 邻 近 性, 公 式 如 下 : 2 = ( k ),, 1,2, n k = 1 d x x i =, (2) 其 中 x, x k 分 别 表 示 第 i 个 和 第 个 用 户 的 第 k 个 属 性 值. 在 欧 式 距 离 公 式 中, 所 有 属 性 在 计 算 邻 近 度 时 被 看 作 是 同 等 重 要, 然 而 在 高 考 志 愿 推 荐 系 统 中, 考 生 成 绩 类 属 性 显 然 比 社 会 属 性 重 要, 因 此, 可 以 根 据 属 性 的 贡 献 程 度 对 每 个 属 性 加 权 修 改 邻 近 度 公 式, 公 式 如 下 : 2 = (( k ) k ), k= 1 d x x w 其 中 k 专 家 提 供 或 是 根 据 统 计 数 据 产 生. wk = 1 (3) k = 1 w 表 示 第 k 个 属 性 的 权 重, 该 权 重 一 般 由 领 域 1.3 产 生 推 荐 集 在 高 考 志 愿 推 荐 系 统 中, 高 分 段 的 考 生 分 布 较 稀 疏, 对 应 的 录 取 院 校 少 ; 而 低 分 段 的 考 生 分 布 较 密 集, 且 对 应 的 录 取 院 校 较 多. 为 了 提 高 推 荐 结 果 的 准 确 性, 对 于 不 同 分 数 段 的 考 生 需 要 应 用 不 同 的 策 略. 为 了 使 考 生 能 够 高 效 的 选 取 适 合 自 己 的 高 校, 推 荐 算 法 可 以 根 据 考 生 实 际 可 填 报 的 高 校 数 来 确 定 推 荐 集 的 高 校 数 目 R, 一 般 可 以 将 R 定 位 实 际 填 报 高 校 数 的 2 倍, 这 样 既 可 以 有 效 缩 小 范 围, 又 可 以 给 考 生 提 供 一 定 的 选 择 空 间. R 个 推 荐 高 校 的 产 生 是 基 于 邻 居 用 户 的 录 取 高 校 而 产 生. 首 先 对 于 邻 居 用 户 的 确 定, 由 于 高 分 段 的 考 生 较 稀 疏, 对 其 而 言 具 有 参 考 价 值 的 邻 居 用 户 较 少, 相 反, 低 分 段 的 考 生 较 为 密 集, 具 有 参 考 价 值 的 邻 居 用 户 较 多, 所 以 应 根 据 考 生 所 处 的 分 数 段 来 确 定 其 邻 居 用 户. 另 外 低 分 段 的 考 生 较 密 集, 对 应 的 录 取 院 校 较 多, 本 文 采 取 以 投 票 形 式 从 邻 居 用 户 所 有 的 录 取 院 校 中 选 取 R 个 高 校 作 为 推 荐 集, 并 认 为 距 离 为 0 的 用 户 具 有 最 高 参 考 价 值, 具 有 一 票 决 定 权. 因 此, 在 高 考 志 愿 推 荐 系 统 中, 推 荐 集 的 产 生 分 为 两 个 阶 段 : (1) 将 距 离 为 0 的 用 户 作 为 目 标 用 户 的 最 近 邻, 并 将 其 对 应 的 录 取 院 校 加 入 到 推 荐 集 中 ; (2) 根 据 目 标 用 户 的 所 处 分 数 段, 选 取 距 离 最 小 的 N 个 用 户 作 为 邻 居 用 户, 并 将 N 个 用 户 所 录 取 的 院 校 按 照 人 数 降 序 排 列, 并 依 次 将 院 校 加 入 到 推 荐 集 中, 直 至 推 荐 集 中 的 院 校 个 数 达 到 预 先 设 定 的 推 荐 个 数 R, 形 成 最 终 的 推 荐 集. 推 荐 集 的 个 数 R 可 以 根 据 高 考 志 愿 填 报 系 统 中 志 愿 个 数 来 相 应 确 定. 2 实 验 分 析 2.1 数 据 来 源 与 实 验 环 境 本 文 利 用 某 省 2011 年 高 考 数 据 中 的 文 科 第 一 批 的 考 生 数 据 作 为 实 验 数 据, 原 始 数 据 包 括 报 名 库 志 愿 库 成 绩 库 录 取 库 高 校 计 划 库 等 信 息 表, 每 个 表 中 包 括 多 个 属 性, 根 据 2.1 中 的 分 析, 首 先 从 考 生 报 名 库 中 抽 取 考 生 的 性 别 户 口 类 型 以 及 家 庭 地 址 属 性, 并 从 成 绩 库 中 抽 取 考 生 总 分 进 行 排 序, 作 为 学 生 的 名 次, 然 后 从 录 取 库 中 提 取 录 取 高 校, 形 成 完 整 的 数 据 集, 包 括 用 户 属 性 数 据 以 及 对 应 的 项 目 数 据, 包 括 9423 个 考 生, 148 个 高 校. 随 机 抽 取 其 中 的 900 条 数 据 作 为 测 试 集, 即 看 作 录 取 高 校 未 知 的 目 标 用 户, 其 余 的 8523 条 数 据 作 为 训 练 集, 即 录 取 院 校 已 知 的 非 目 标 Software Technique Algorithm 软 件 技 术 算 法 187

计 算 机 系 统 应 用 htt://www.c-s-a.org.cn 2015 年 第 24 卷 第 7 期 用 户. 实 验 过 程 中 的 算 法 是 在 VS 环 境 中 采 用 C# 语 言 实 现. 2.2 建 立 用 户 属 性 矩 阵 在 训 练 集 和 测 试 集 的 基 础 上, 利 用 公 式 (1) 对 用 户 属 性 数 据 进 行 标 准 化, 表 1 为 用 户 属 性 的 原 始 数 据, 表 2 为 标 准 化 后 的 无 量 纲 属 性 数 据. 表 1 用 户 属 性 矩 阵 ( 标 准 化 前 ) 院 校 代 号 性 别 户 口 类 型 经 济 条 件 名 次 3129 2 1 1 3545 3129 1 1 0 5389 3129 2 1 1 4810 3129 2 2 0 8058 3129 1 1 2 5675 3129 2 1 2 3586 3129 2 1 1 2172 3129 1 1 2 3691 3129 1 1 1 7126 3118 2 1 0 4449 5201 1 1 0 587 5201 1 1 0 726 5201 2 1 0 769 表 2 用 户 属 性 矩 阵 ( 标 准 化 后 ) 院 校 代 号 性 别 户 口 类 型 经 济 条 件 名 次 3129 1 0 0.5 0.376180872 3129 0 0 0 0.571913809 3129 1 0 0.5 0.510455365 3129 1 1 0 0.855217068 3129 0 0 1 0.602271521 3129 1 0 1 0.380532852 3129 1 0 0.5 0.230442628 3129 1 0 1 0.391678165 3129 0 0 0.5 0.756289141 3118 1 0 0 0.472136715 5201 0 0 0 0.062201464 5201 0 0 0 0.076955737 5201 1 0 0 0.081520008 2.3 计 算 用 户 邻 近 性 在 标 准 化 的 用 户 属 性 数 据 基 础 上, 利 用 公 式 (3) 就 可 以 计 算 目 标 用 户 与 非 目 标 用 户 之 间 的 距 离. 考 生 各 个 属 性 的 权 重 一 般 由 专 家 给 出, 或 根 据 统 计 数 据 产 生, 本 文 将 考 生 的 四 个 属 性 : 性 别 户 口 类 型 经 济 条 件 以 及 名 次 权 重 分 别 设 为 0.1, 0.1, 0.1, 07, 据 此, 就 可 以 计 算 目 标 用 户 与 非 目 标 用 户 之 间 的 距 离, 从 而 确 定 邻 居 用 户. 2.4 产 生 推 荐 集 对 于 测 试 集 中 的 目 标 用 户, 首 先 根 据 公 式 (3) 计 算 其 与 非 目 标 用 户 的 距 离, 根 据 1.3 中 的 两 阶 段 法 产 生 推 荐 集 时, 需 要 事 先 确 定 邻 居 用 户 数 N 和 推 荐 集 的 院 校 个 数 R. 本 文 首 先 对 2011 年 一 本 文 科 生 的 成 绩 进 行 统 计, 算 出 各 分 数 段 平 均 每 个 分 数 的 考 生 数. 从 文 科 一 本 分 数 线 开 始, 每 10 分 为 一 档, 并 将 分 数 高 于 393 的 归 位 一 档, 统 计 结 果 如 表 3 所 示. 以 最 低 分 数 段 (343-352) 为 例 进 行 说 明, 平 均 每 个 分 数 有 近 400 考 生, 因 此 可 以 在 某 种 程 度 上 认 为 对 于 该 分 数 段 的 考 生, 其 具 有 参 考 意 义 的 邻 居 用 户 有 400 人, 故 对 该 分 数 段 将 N 设 置 为 400, 其 它 分 数 段 以 此 类 推, 分 别 确 定 N 取 值. 由 于 江 苏 省 高 考 志 愿 填 报 时, 对 于 一 本 文 科 生 可 以 填 报 3 个 一 本 院 校 以 及 3 个 二 本 院 校, 因 此 本 文 将 推 荐 集 中 的 院 校 个 数 R 设 定 为 6. 表 3 各 分 数 段 平 均 每 分 值 对 应 考 生 数 分 数 段 平 均 人 数 N 393-414 3.6 10 383-392 16.2 20 373-382 61.8 70 363-372 150.2 200 353-362 319.4 400 343-352 389.7 400 在 确 定 了 N 和 R 的 取 值 后, 就 可 以 依 据 1.3 的 两 个 阶 段 产 生 推 荐 集. 首 先 选 取 距 离 为 0 的 最 近 邻 用 户 的 录 取 院 校 加 入 到 推 荐 集 中. 判 断 推 荐 集 中 院 校 个 数 是 否 小 于 R, 若 是, 则 根 据 第 二 步, 依 次 加 入 不 同 的 院 校, 直 至 推 荐 个 数 等 于 R, 形 成 最 终 的 推 荐 集. 图 2 即 为 推 荐 集 部 分 截 图, 其 中 第 一 列 为 用 户 ID 和 其 实 际 录 取 的 院 校, 后 面 以 制 表 符 隔 开 的 即 为 推 荐 集 中 的 院 校. 图 2 推 荐 集 部 分 截 图 188 软 件 技 术 算 法 Software Technique Algorithm

2.5 实 验 结 果 分 析 根 据 算 法 输 出 的 推 荐 集, 按 照 不 同 分 数 段 进 行 统 计 分 析, 统 计 结 果 如 图 3 所 示, 其 中 总 人 数 表 示 测 试 集 中 900 条 数 据 处 于 该 分 数 段 的 人 数, 正 确 人 数 指 考 生 实 际 录 取 院 校 在 推 荐 集 中, 正 确 率 指 考 生 实 际 录 取 院 校 在 推 荐 集 中 的 人 数 占 其 所 处 分 数 段 总 人 数 的 比 例. 图 3 各 分 数 段 推 荐 结 果 数 据 分 析 图 从 图 中 可 以 得 出 以 下 结 论 : 1 高 分 段 推 荐 效 果 好. 从 图 中 可 以 看 出, 在 高 分 段 正 确 率 最 高 达 到 了 100%, 这 一 方 面 说 明 了 算 法 的 可 行 性, 另 一 方 面 也 说 明 了 高 分 段 的 考 生 对 于 院 校 的 选 择 较 为 明 确 且 具 有 主 动 权, 不 存 在 信 息 过 载 的 问 题, 这 部 分 考 生 更 关 注 的 是 专 业 而 非 高 校, 而 这 在 本 文 的 算 法 中 并 未 考 虑 到. 2 高 分 段 与 低 分 段 的 正 确 率 差 异 大. 不 同 于 高 分 段, 低 分 段 的 推 荐 效 果 则 较 差, 最 低 只 有 50%, 这 说 明 算 法 在 设 计 过 程 中 需 要 重 点 考 虑 考 生 分 布 较 密 集 的 中 低 分 段 考 生, 比 如 结 合 院 校 的 招 生 人 数 或 者 其 他 更 多 的 属 性 数 据 进 行 算 法 优 化. 3 算 法 的 可 行 性 及 改 进 方 案. 各 分 数 段 的 平 均 正 确 率 为 72.23%, 这 说 明 利 用 协 同 过 滤 思 想 进 行 高 考 志 愿 推 荐 是 可 行 的, 但 从 推 荐 结 果 中 也 发 现 了 很 多 不 足 之 处, 比 如 对 于 高 分 段 和 低 分 段 的 推 荐 效 果 差 异 性 说 明 应 采 取 不 一 样 的 推 荐 方 法, 对 于 高 分 段 考 生 而 言 可 填 报 的 院 校 较 为 明 确 而 且 占 据 主 动 权, 他 们 更 多 的 考 虑 专 业 等 其 他 因 素 ; 而 对 于 低 分 段 考 生, 由 于 考 生 分 布 较 为 密 集, 除 了 考 虑 到 院 校 档 次 外, 还 应 结 合 院 校 对 应 的 招 生 人 数 或 其 他 因 素 进 行 分 析, 以 此 提 高 推 荐 效 果. 3 结 论 本 文 将 协 同 过 滤 的 方 法 应 用 于 高 考 志 愿 推 荐 的 领 域, 将 需 要 填 报 志 愿 的 高 考 考 生 看 作 是 推 荐 系 统 中 的 用 户, 高 校 看 作 是 系 统 中 的 项 目, 通 过 分 析 历 年 的 考 生 填 报 数 据 信 息, 为 考 生 推 荐 其 感 兴 趣 的 高 校, 并 对 推 荐 结 果 进 行 分 析, 说 明 了 推 荐 系 统 的 有 效 性, 但 也 从 中 发 现 了 一 些 问 题, 比 如 对 于 高 分 段 和 低 分 段 的 推 荐 效 果 差 异 性 说 明 应 采 取 不 一 样 的 推 荐 方 法, 对 此 可 以 选 取 不 一 样 的 用 户 属 性 数 据 或 者 是 结 合 其 他 院 校 属 性 ( 比 如 院 校 招 生 人 数 ) 数 据 来 构 建 用 户 属 性 矩 阵, 或 者 利 用 不 同 的 距 离 公 式 来 定 义 不 同 分 数 段 考 生 间 的 距 离 等 措 施 来 提 高 推 荐 效 果, 这 也 将 是 后 期 的 研 究 内 容. 参 考 文 献 1 何 小 明, 张 自 力, 肖 灿, 夏 大 飞. 基 于 OLAP 与 数 据 挖 掘 的 高 考 招 生 数 据 分 析. 计 算 机 科 学,2012,6(39). 2 项 亮. 推 荐 系 统 实 践. 北 京 : 人 民 邮 电 出 版 社,2012. 3 周 丽 娟, 徐 明 升, 张 研 研, 张 璋. 基 于 协 同 过 滤 的 课 程 推 荐 模 型. 计 算 机 应 用 研 究,2010,4(27). 4 王 灵 峰. 高 考 信 息 推 荐 引 擎 的 设 计 与 实 现 [ 学 位 论 文 ]. 广 州 : 暨 南 大 学,2011. 5 王 亚 婧. 基 于 数 据 挖 掘 和 协 同 过 滤 的 成 人 高 考 志 愿 推 荐 系 统 研 究 [ 学 位 论 文 ]. 北 京 : 北 京 林 业 大 学,2011. 6 黄 裕 洋, 金 远 平. 一 种 综 合 用 户 和 项 目 因 素 的 协 同 过 滤 推 荐 算 法. 东 南 大 学 学 报 ( 自 然 科 学 版 ),2010,5(40):917. 7 Basilico J, Hofmann T. Unifying collaborative and content-based filtering. Proc. of the Twenty-First International Conference on Machine Learning. Banff, Alta. 2004. 65 72. 8 陈 志 敏, 李 志 强. 基 于 用 户 特 征 和 项 目 属 性 的 协 同 过 滤 推 荐 算 法. 计 算 机 应 用,2011,7(31). 9 李 令 青, 刘 彦 楼, 建 伟. 高 考 专 业 填 报 决 策 的 影 响 因 素 探 析. 中 国 健 康 心 理 学 杂 志,2008,8(16). 10 殷 员 分. 高 考 考 生 志 愿 数 据 分 析 与 挖 掘 研 究 [ 学 位 论 文 ]. 重 庆 : 西 南 大 学,2010. 11 王 毅 杰, 梁 子 浪, 陆 宏 生. 高 考 志 愿 填 报 中 的 行 为 策 略 : 户 籍 的 影 响. 天 津 师 范 大 学 学 报 ( 社 会 科 学 版 ),2008,3. Software Technique Algorithm 软 件 技 术 算 法 189