第 28 卷 第 23 期 2012 年 12 月 甘 肃 科 技 GansuScienceandTechnology Vol 28 No 23 Dec 2012 摘 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 赵 静 ( 上 海 外 国 语 大 学 贤 达 经 济 人 文 学 院, 上 海 200083) 要 : 针 对 高 校 学 术 信 息 资 源 检 索 的 精 确 度 问 题, 提 出 了 运 用 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 系 统 它 主 要 对 Web 使 用 记 录 挖 掘 及 其 用 户 兴 趣 模 型 的 建 立 进 行 了 详 细 分 析 首 先 它 阐 述 了 高 校 图 书 馆 搜 索 引 擎 系 统 的 4 个 过 程, 其 中 主 要 提 出 建 立 用 户 兴 趣 模 型 时 采 用 的 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 ; 然 后 阐 述 了 高 校 图 书 馆 搜 索 引 擎 系 统 的 各 处 理 模 块 ; 最 后 设 计 了 结 合 Web 数 据 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 系 统 操 作 过 程, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性, 从 而 有 效 地 提 高 高 校 图 书 馆 搜 索 引 擎 系 统 的 查 准 率 关 键 词 :Web 挖 掘 ;Web 使 用 记 录 挖 掘 ; 搜 索 引 擎 ; 用 户 兴 趣 模 型 中 图 分 类 号 :TP319 Internet 上 的 搜 索 引 擎 部 分 地 解 决 了 资 源 发 现 的 问 题, 但 是 它 可 能 会 返 回 给 用 户 成 千 上 万 检 索 到 的 网 页, 而 其 中 很 大 一 部 分 与 用 户 的 要 求 无 关, 用 户 不 能 快 速 准 确 地 得 到 所 需 的 有 价 值 的 信 息, 就 Web 上 的 知 识 发 现 而 言, 即 使 检 索 精 度 再 高, 搜 索 引 擎 也 不 能 够 胜 任 因 此, 运 用 Web 挖 掘 的 搜 索 引 擎 随 之 产 生 运 用 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 是 专 门 针 对 高 校 的 学 术 信 息 资 源 进 行 检 索 的 搜 索 引 擎, 是 实 现 高 校 教 学 资 源 共 享 必 不 可 少 的 工 具, 所 以 基 于 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 的 设 计 具 有 非 常 重 要 的 科 学 意 义 和 应 用 价 值 Web 数 据 挖 掘 根 据 挖 掘 对 象 的 不 同 大 致 可 分 为 三 个 方 面 的 挖 掘 研 究 :Web 内 容 挖 掘 Web 结 构 挖 掘 和 Web 使 用 记 录 挖 掘 [1] Web 使 用 记 录 挖 掘 也 叫 Web 日 志 挖 掘 或 Web 访 问 信 息 挖 掘, 在 新 兴 的 电 子 商 务 领 域 有 重 要 意 义 它 通 过 挖 掘 相 关 的 Web 日 志 记 录, 来 发 现 用 户 访 问 Web 页 面 的 模 式, 通 过 分 析 日 志 记 录 中 的 规 律, 可 以 识 别 用 户 的 忠 实 度 喜 好 满 意 度, 可 以 发 现 潜 在 用 户, 增 强 站 点 的 服 务 竞 争 力 目 前 Web 使 用 记 录 挖 掘 技 术 和 工 具 可 分 为 两 大 类 : 访 问 模 式 的 追 踪 和 个 性 化 的 使 用 记 录 的 追 踪 一 般 的 访 问 模 式 追 踪 通 过 分 析 使 用 记 录 来 了 解 用 户 的 访 问 模 式 和 倾 向, 以 改 进 站 点 的 组 织 结 构 ; 个 性 化 的 使 用 记 录 追 踪 则 倾 向 于 分 析 个 别 用 户 的 偏 好, 其 目 的 是 根 据 不 同 用 户 的 访 问 模 式, 为 用 户 提 供 定 制 的 服 务 本 文 主 要 针 对 Web 使 用 记 录 挖 掘 及 其 建 立 用 户 兴 趣 模 型 并 进 行 详 细 分 析 本 文 首 先 提 出 用 户 兴 趣 模 型 的 计 算 描 述 词 频 法, 然 后 提 出 了 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 该 方 法 以 用 户 浏 览 Web 页 面 的 内 容 信 息 和 行 为 信 息 作 为 数 据 源, 采 用 Web 挖 掘 方 法 分 析 得 到 较 准 确 的 用 户 兴 趣 描 述, 减 少 了 由 于 用 户 参 与 而 带 来 的 系 统 噪 声, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性, 从 而 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 1 高 校 图 书 馆 搜 索 引 擎 系 统 的 4 个 过 程 设 计 高 校 图 书 馆 搜 索 引 擎 是 专 门 针 对 高 校 丰 富 信 息 资 源 及 其 使 用 特 点 而 设 计 的 系 统 高 校 图 书 馆 资 源 搜 索 引 擎 系 统 的 4 个 过 程 主 要 包 括 用 户 的 识 别, 用 户 描 述 文 件, 用 户 兴 趣 模 型 和 用 户 兴 趣 提 取 技 术, 可 更 加 方 便 全 面 地 获 取 与 专 业 相 关 的 信 息 资 源 同 时 要 保 证 系 统 运 行 的 稳 定 性 安 全 性, 检 索 响 应 时 间 数 据 更 新 频 率 查 准 率 等 都 要 达 到 较 高 的 指 标 1 1 用 户 的 识 别 高 校 图 书 馆 搜 索 引 擎 系 统 首 先 要 能 准 确 地 识 别 出 用 户, 这 是 为 用 户 建 立 模 型 和 实 现 向 用 户 推 荐 信 息 的 前 提 对 于 高 校 图 书 馆 搜 索 引 擎 系 统 来 说, 用 户 可 以 分 为 两 类 : 注 册 用 户 和 非 注 册 用 户 用 户 在 系 统 中 基 金 项 目 : 上 海 高 校 青 年 教 师 培 养 资 助 计 划 ( 编 号 xdc11001)
第 23 期 赵 静 : 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 11 注 册, 注 册 时 输 入 个 人 信 息, 包 括 姓 名 性 别 年 龄 教 育 背 景 和 兴 趣 由 于 用 户 一 般 都 很 注 意 个 人 信 息 的 保 密 性 因 此, 这 些 信 息 不 能 代 表 用 户 的 兴 趣, 往 往 用 于 用 户 身 份 的 验 证 系 统 为 每 个 不 同 的 注 册 用 户 赋 予 一 个 ID 对 于 非 注 册 用 户, 他 通 过 一 个 浏 览 器 访 问 一 个 或 多 个 Web 站 点 实 际 上, 由 于 本 地 Cache 和 代 理 服 务 器 (Proxy) 的 存 在, 使 得 用 户 识 别 比 较 困 难 例 如, 不 同 的 用 户 使 用 同 一 个 代 理 服 务 器, 在 日 志 文 件 中 会 形 成 相 同 的 IP 地 址 ; 同 时 由 于 代 理 服 务 器 中 的 缓 存 功 能, 使 得 同 一 用 户 的 访 问 被 认 为 是 不 同 的 用 户 用 户 可 以 用 一 个 浏 览 器, 也 可 以 用 多 个 浏 览 器, 可 以 访 问 一 个 服 务 器, 也 可 以 访 问 多 个 服 务 器, 因 此, 用 户 识 别 比 较 困 难 在 识 别 用 户 时, 可 以 将 AccesLog,ReferLog 和 用 户 提 交 的 注 册 信 息 结 合 起 来 注 册 用 户 根 据 系 统 记 录 的 ID 容 易 辨 别 未 注 册 用 户 识 别 应 遵 循 以 下 启 发 式 原 则 : 1) 如 果 用 户 的 IP 地 址 不 同 则 认 为 是 不 同 的 用 户 ; 2) 如 果 IP 地 址 相 同 但 浏 览 器 软 件 或 操 作 系 统 不 同, 则 认 为 是 不 同 的 用 户 ; 3) 通 过 ReferLog 和 站 点 的 拓 扑 结 构 图 构 建 每 个 用 户 的 访 问 路 径, 如 果 所 请 求 的 页 面 和 以 前 访 问 的 所 有 页 面 不 存 在 直 接 的 超 链 接 关 系, 则 认 为 具 有 相 同 IP 地 址 的 用 户 是 不 同 的 用 户 ; 用 户 识 别 出 来 以 后, 可 以 为 他 赋 予 一 个 ID 1 2 用 户 描 述 文 件 描 述 用 户 兴 趣 的 用 户 描 述 文 件 从 内 容 上 可 以 划 分 为 基 于 兴 趣 的 和 基 于 行 为 的 两 种 收 集 用 户 信 息 的 数 据 来 源 有 下 面 的 几 种 : 用 户 注 册 信 息 利 用 指 向 文 档 的 超 链 接 内 容 用 户 显 式 反 馈 的 信 息 用 户 隐 式 反 馈 的 信 息 访 问 和 标 记 某 网 页 等 行 为 Proxy 日 志 信 息 用 户 浏 览 行 为 用 户 在 某 页 所 花 的 时 间 阅 读 的 文 档 阅 读 文 档 所 花 的 时 间 和 添 加 书 签 等 行 为 引 用 文 件 的 内 容 用 户 定 义 的 目 录 类 型 Web 访 问 日 志 用 户 描 述 文 件 可 以 用 文 件 来 组 织, 也 可 以 用 关 系 数 据 库 或 其 他 数 据 库 来 组 织 目 前 有 一 些 系 统 采 用 基 于 XML 的 RDF [2] (resourcedefinitionframe work) 来 表 达 用 户 描 述 文 件, 并 利 用 支 持 XML 的 数 据 库 系 统 来 存 储 用 户 描 述 文 件 这 样, 不 仅 利 用 了 XML 的 优 点, 也 保 持 了 系 统 的 性 能 1 3 用 户 兴 趣 模 型 用 户 兴 趣 模 型 是 高 校 图 书 馆 搜 索 引 擎 系 统 的 关 键 部 分, 用 户 兴 趣 描 述 的 准 确 与 否 直 接 决 定 着 搜 索 引 擎 系 统 服 务 的 质 量 好 坏 本 文 通 过 建 立 用 户 兴 趣 模 型, 详 细 分 析 用 户 兴 趣 信 息, 有 效 使 用 Web 使 用 记 录 挖 掘 技 术 来 更 好 地 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 本 文 首 先 提 出 用 户 兴 趣 模 型 的 计 算 描 述 词 频 法, 然 后 提 出 了 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 该 方 法 以 用 户 浏 览 Web 页 面 的 内 容 信 息 和 行 为 信 息 作 为 数 据 源, 采 用 Web 挖 掘 方 法 分 析 得 到 较 准 确 的 用 户 兴 趣 描 述, 减 少 了 由 于 用 户 参 与 而 带 来 的 系 统 噪 声, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性 1 3 1 用 户 兴 趣 模 型 的 词 频 法 用 户 兴 趣 模 型 是 指 对 于 用 户 感 兴 趣 的 信 息 的 可 计 算 描 述, 一 般 采 用 词 频 法 [3] 这 里 介 绍 一 种 用 三 元 组 表 示 的 用 户 兴 趣 模 型 ( 兴 趣 词 条 兴 趣 权 重 词 条 新 鲜 度 ) 兴 趣 结 点 用 三 元 组 (p i,w i,x i ) 表 示, 简 记 为 Node(p i ), 其 中 p i p,p 为 词 条 集,p={p 1,p 2,,p m },p 1,p 2,,p m 分 别 表 示 兴 趣 ( 词 条 ),m 为 词 典 的 大 小,w i 为 兴 趣 词 条 p i 的 权 重,x i 为 兴 趣 词 条 p i 的 新 鲜 度 所 有 兴 趣 的 集 合 构 成 兴 趣 全 集 ( 词 典 ), 记 为 U,WWW 缓 存 中 的 文 本 集 合 记 为 D 在 词 频 中, 考 虑 到 各 个 词 条 在 文 档 中 的 不 同 位 置 体 现 其 不 同 的 重 要 性, 对 词 条 兴 趣 加 权 重, 即 位 置 词 频 spf ij 为 了 计 算 词 条 新 鲜 度, 对 于 文 档 d n, 使 用 一 个 文 档 新 鲜 度 函 数 dtx(n) 这 是 一 个 单 调 非 递 减 函 数, 用 来 保 证 越 是 最 近 访 问 的 页 面, 对 用 户 当 前 的 兴 趣 作 用 越 大 其 中 n 指 缓 冲 中 的 第 n 个 时 间 页 面 兴 趣 结 点 Node(p i ) 的 词 条 权 重 公 式 如 下 : Node(p i ) w i = n (spf ij E j ) (1) j=1 兴 趣 结 点 Node(p i ) 的 词 条 新 鲜 度 公 式 如 下 : Node(p i ) x i = n [ spf ij E dtx(j)] j=1 Node(p i ) w i (2) 式 中 spf ij 为 词 条 p i 在 文 本 d i 中 的 位 置 词 频,n 为 D 中 文 本 的 个 数,E j 为 文 本 兴 趣 系 数,dtx(n) 为 文 档 新 鲜 度 函 数 得 到 兴 趣 词 条 p i 的 权 重 和 新 鲜 度 后, 可 以 根 据 公 式 : t i =w i f(x i ) (3) 计 算 词 条 p i 的 兴 趣 度, 式 中 f(x) 为 词 条 新 鲜 度 对 权 重 的 影 响 函 数 词 条 兴 趣 度 是 网 络 搜 索 个 性 化 分 析 的 最 终 依 据 1 3 2 基 于 Web 浏 览 内 容 和 行 为 分 析 相 结 合 的 用 户 兴 趣 模 型 整 个 用 户 兴 趣 模 型 的 创 建 过 程 包 括 Web 浏 览
甘 肃 科 技 第 8卷 内容分析和 We b浏览行为分析两部分 流程如图 用添零补齐的方法使两者长度一致 夹角余弦函数 所示 如下 X Y C X Y X Y 槡 式中 C X Y 表示页面 X与 Y的相似度 X与 Y 表示 X与 Y对应的特征词的权值 页面 X与 Y值 越相似 C X Y 值越大 反之则越小 3 基于浏览行为的用户兴趣分析 用户很多浏览行为都能很好地反映用户的兴 趣 用户的很多动作都能暗示用户的喜好 如查询 浏览页面和文章 标记书签 反馈信息 点击鼠标 拖 动滚动条 前进 后退等 用户访问时的停留时间 访问次数 保存 编辑 修改等动作能够揭示用户兴 图 用户兴趣模型流程 We b浏览内容分析 就是采用 We b聚类分析方 趣 这些行为究竟怎样反映用户的兴趣 需要对其 进行量化估算 法对用户已浏览的 We b页面集进行内容聚类 得到 浏览行为的分类 b浏览行为分析是对用户 用户感兴趣的页面集 We 从表面上看能揭示用户对网页 P兴趣度 d P 浏览页面时的行为信息进行分析 得到用户对单一 的浏览行为很多 但分析发现 起关键作用的是两种 页面的兴趣浓度 将二者相结合 就得到了用户感 p 简称 T行为 和 行为 在网页 P上的浏览时间 t 兴趣的主题类别及对每类主题的兴趣度 即用兴趣 翻页 拉动滚动条的次数 v P 简称 V行为 原因 分类树表示的用户兴趣模型 有 3点 查询 编辑 修改等行为必定增加网页 3 3 基于 We b浏览内容的用户兴趣分析 浏览时间和翻页次数 因此能够通过后者间接的得 用户兴趣模型描述所基于的 We b浏览内容是 到反映 执行了保存 标记书签等动作的页面 指用户浏览页面的内容信息 它被用于基于内容的 若真为用户关心 通常以后会被多次调出来重新浏 聚类分析 这些页面的内容信息主要来源于 We b 览 故可体现为访问次数 3 点击鼠标动作不被 服务器端 首先根据用户的浏览日志记录 得到单一 考虑 因为简单动作不能有效揭示用户兴趣 用户的浏览历史页面 URL 然后从数据库服务器中 浏览行为参数的计算 取出这些 URL对应的 We b页面 作为对浏览内容 为了找到 T V与网页兴趣度的定量关系 通过 兴趣描述的数据源 分析和实验 决定采用一元线性回归方法作为网页 对浏览网页信息的数据预处理 兴趣建模分析的工具 线性回归分析方法是在分析 b文档具有 与数据库中的结构化数据相比 We 研究对象变化趋势的基础上建立函数模型 从而研 有限的结构 即使具有一些结构 也是着重于格式而 非文档内容 此外 文档的内容是人类所使用的自 然语言 计算机很难处理其语义 We b文本信息源 的这些特殊性使得现有的数据挖掘技术无法直接应 究对象之间存在的相互依存关系 用户浏览行为和网页兴趣度之间的回归方程可 建立为 d p a T b V c 用于其上 这就需要对文本进行预处理 抽取代表 式中 a b c是与 t P 和 v P 无关的未知参数 它 其特征的元数据 作为文档的中间表示形式 们的估计可采用最小二乘法 这样通过该方程就可 页面相似度函数 以计算用户对每个网页的行为兴趣度 BI Be ha v 采用向量空间模型表示的数据 必须选择计算 o ri nt e r e s t n g 两个特征矢量之间相似性的相似度函数 现在常用 用户兴趣提取技术 的方法有欧几里德距离 曼哈坦距离和夹角余弦函 实现高校图书馆搜索引擎系统很重要的一项技 数 可以采用夹角余弦函数 但是在计算时可能会 术就是如何判断用户的信息需求 如何对用户兴趣 遇到用于比较的两个特征矢量长度不一样 可以采 进行提取 即用户兴趣的跟踪分析在因特网上获取
第 23 期 赵 静 : 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 13 用 户 兴 趣 信 息 的 方 法 主 要 有 3 种 : 服 务 器 端 挖 掘 用 户 主 动 提 供 和 系 统 被 动 学 习 服 务 器 端 挖 掘 即 从 服 务 器 中 分 析 获 取 用 户 的 兴 趣 信 息 因 特 网 中 的 每 个 服 务 器 都 有 访 问 日 志 文 件, 它 记 录 了 关 于 用 户 访 问 和 交 互 的 信 息 通 过 对 这 些 数 据 的 分 析 可 以 理 解 用 户 的 行 为, 从 而 为 用 户 提 供 高 校 图 书 馆 搜 索 引 擎 系 统 的 服 务 或 改 善 网 站 的 结 构 用 户 主 动 提 供 即 由 用 户 主 动 填 写 提 供 来 获 取 用 户 的 兴 趣 信 息 系 统 被 动 学 习 即 监 视 用 户 的 信 息 搜 索 与 浏 览 过 程 等 使 用 习 惯 来 获 取 用 户 的 兴 趣 信 息 为 了 快 速 精 确 地 发 现 用 户 兴 趣, 最 好 将 这 3 种 方 法 结 合 使 用 首 先 它 要 求 用 户 通 过 回 答 问 题 的 方 式 来 提 供 自 己 的 兴 趣, 从 而 得 到 用 户 的 初 始 兴 趣 向 量 然 后, 通 过 用 户 的 反 馈 信 息 和 挖 掘 用 户 在 访 问 网 页 时 在 服 务 器 方 留 下 的 访 问 记 录 来 修 改 用 户 的 兴 趣 向 量, 并 且 系 统 不 断 地 更 新 用 户 的 兴 趣 信 息 2 高 校 图 书 馆 搜 索 引 擎 系 统 模 块 分 析 在 高 校 图 书 馆 系 统 中, 通 过 建 立 用 户 兴 趣 模 型 为 核 心 开 发 高 校 图 书 馆 搜 索 引 擎 系 统 整 个 高 校 图 书 馆 搜 索 引 擎 系 统 由 五 个 模 块 组 成 : 用 户 界 面, 数 据 采 集, 建 立 用 户 兴 趣 模 型, 网 页 排 名, 数 据 查 询 2 1 用 户 界 面 用 户 界 面 可 分 为 管 理 员 界 面 和 用 户 的 查 询 界 面 管 理 员 界 面 主 要 负 责 系 统 的 相 关 设 置 需 要 能 够 添 加 数 据 采 集 任 务, 挑 战 系 统 参 数, 查 看 当 前 系 统 状 态, 设 置 数 据 采 集 速 度 采 集 数 量 等 信 息 2 2 数 据 采 集 首 先 是 Web 数 据 源 发 现 利 用 高 校 已 有 资 源 的 优 势, 再 使 用 目 录 搜 索 引 擎 查 找 基 于 某 一 个 领 域 的 Web 数 据 库, 如 此 数 据 源 包 括 由 高 校 购 买 的 数 据 库 和 校 外 众 多 的 Web 站 点 和 开 放 资 源 组 成 其 次 数 据 采 集 需 要 使 用 网 络 蜘 蛛 将 网 页 文 件 从 网 络 上, 抓 取 到 本 地 硬 盘 之 中 数 据 抓 取 有 其 起 点 和 范 围, 这 些 都 可 以 通 过 管 理 员 界 面 进 行 设 置 Nutch 搜 索 引 擎 中 已 经 有 完 整 的 网 络 蜘 蛛 功 能, 对 此 我 们 只 需 要 设 置 以 后 直 接 调 用 即 可 2 3 建 立 用 户 兴 趣 模 型 使 用 用 户 兴 趣 提 取 技 术 对 抓 取 的 网 页 文 件 建 立 用 户 兴 趣 模 型 首 先 获 取 用 户 个 性 化 信 息 丰 富 的 用 户 信 息 库 存 储 了 用 户 的 姓 名 性 别 年 龄 学 历 专 业 借 阅 书 或 期 刊 的 历 史 原 文 传 递 的 内 容 研 究 领 域 科 研 成 果 以 及 以 往 提 出 的 个 性 化 信 息 服 务 等 等 信 息 如 此, 不 仅 用 户 自 己 可 以 通 过 该 系 统 把 感 兴 趣 的 关 键 词 输 入 进 行 检 索, 咨 询 馆 员 也 可 以 通 过 分 析 用 户 个 性 化 信 息 分 析 用 户 的 兴 趣, 进 而 把 用 户 感 兴 趣 的 信 息 推 送 给 用 户 其 次 通 过 提 问 式 或 者 用 户 偏 好 方 式 进 行 数 据 源 选 择 和 提 问 调 整 来 提 取 数 据 源, 然 后 对 其 进 行 页 面 检 索 和 页 面 分 析, 利 用 用 户 主 动 提 供 的 用 户 偏 好 结 果 建 立 用 户 兴 趣 模 型 2 4 网 页 排 名 首 先 利 用 Google 的 PageRank 算 法 对 网 页 进 行 排 名 运 算, 得 出 各 个 网 页 的 权 威 度 通 过 提 取 用 户 兴 趣 信 息 结 果 对 网 页 权 威 度 进 行 修 正 得 出 最 终 的 网 页 权 威 度 结 果 2 5 数 据 查 询 首 先 统 一 查 询 接 口 每 个 Web 数 据 库 都 提 供 自 己 的 查 询 接 口, 先 要 对 这 些 接 口 进 行 解 析, 获 取 查 询 接 口 的 模 式 信 息, 比 如 要 查 找 图 书, 接 口 的 模 式 信 息 就 包 含 了 书 名 作 者 价 格 等 然 后 把 属 于 某 一 领 域 的 接 口 集 成 形 成 一 个 统 一 的 集 成 查 询 接 口 其 次 数 据 查 询 就 是 用 户 在 集 成 查 询 接 口 上 填 写 需 求 并 提 交 查 询 后, 系 统 会 把 查 询 的 关 键 词 转 化 为 在 具 体 的 Web 数 据 源 查 询 接 口 上 查 询 的 关 键 词, 然 后 从 返 回 的 动 态 页 面 中 抽 取 相 应 的 查 询 结 果, 并 把 这 些 查 询 结 果 进 行 有 效 的 合 并 去 重, 存 储 在 一 个 统 一 的 模 式 下 3 高 校 图 书 馆 搜 索 引 擎 系 统 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 设 计 主 要 包 括 数 据 库 的 访 问, 用 户 兴 趣 模 型 的 确 定, 用 户 兴 趣 度 的 量 化 和 网 页 权 威 度 的 确 定 3 1 用 户 兴 趣 模 型 的 确 定 用 户 兴 趣 模 型 的 确 定 主 要 是 确 定 抓 取 的 网 页 哪 些 是 用 户 感 兴 趣 的, 即 跟 踪 不 同 用 户 的 浏 览 习 惯, 以 进 行 用 户 感 兴 趣 的 网 页 内 容 调 查 和 生 成 不 同 编 排 内 容 的 个 性 化 浏 览 页 面, 如 图 2 所 示 3 2 用 户 兴 趣 度 的 量 化 用 户 兴 趣 度 的 量 化 主 要 是 网 页 中 用 户 兴 趣 度 的 量 化, 如 图 3 所 示 3 3 网 页 权 威 度 的 确 定 网 页 权 威 度 的 确 定 主 要 是 根 据 PageRank 算 法 计 算 各 个 网 页 的 PageRank 值, 并 使 用 用 户 兴 趣 度 量 化 结 果 进 行 修 正, 以 得 出 最 终 的 网 页 权 威 度, 如 图 4 所 示
甘 肃 科 技 第 8卷 的先验知识 然后建立用户兴趣模型 跟踪用户在浏 览器上的行为数据和浏览内容 采用用户兴趣提取 技术 深入分析用户的浏览行为数据 获得用户的信 息资料集 最终为用户提供不同的个性化服务页面 并提供用户对站内信息进行搜索功能 同时可以满 足师生对于图书馆资源进行查找访问的需求 实现 高校图书馆网站资源有效服务 结束语 本文设计一种更加适合高校学习型和研究性进 行数字化信息资源使用的信息搜索引擎技术 今后 图 用户兴趣模型的确定 对该高校图书馆搜索引擎需进一步扩展 从而能够 实现高校之间的联合搜索 从而便于整个高等教育 系统内数字化信息资源的共享 参考文献 吴育良 图书馆网站建设之搜索引擎 J 优化科技 情报开发与经济 8 3? 王侠 陆敏网络环境下搜索引擎与图书馆信息服务 医学信息 9 9? 7 的对比分析 J 3 刘金元 现代图书馆信息服务模式 个性化定制 兰台世界 7 8? 6 服务 J 图 3 用户兴趣度的计算 符 静 搜 索 引 擎 市 场 在 图 书 馆 领 域 的 拓 展 和 影 响 图书馆建设 6? J 张沛露 王建军 We b挖掘技术在高校数字图书馆个 性化服 务 中 的 应 用 J 吉 林 建 筑 工 程 学 院 学 报 7 3 3 7? 3 6 郑薇 基于 We b挖掘的高校档案馆用户浏览行为个 性化研究 J 中 国 教 育 信 息 化 高 教 职 教? 3 7 王艳 张帆 杨炳儒 基于 We b挖掘的数字图书馆个 情报 6 9? 9 3 性化技术研究 J 8 郝晓兰 基于 We b挖掘的数字图书馆个性化技术探 图 网页权威度的确定 采用 We b挖掘技术与搜索技术相结合 首先 允 许用户对感兴趣的内容进行定制 构造数据挖掘 究 J 中北大学学报 社会科学版 7 6? 7 9 陈雪 We b挖掘在高校数字图书馆个性化服务中的应 用 J 兰台世界 9 8 7? 8 櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷 3 金茵 基于读者需求的公共图书馆信息服务工作策 上接第 6页 参考文献 张莉 试谈新时期公共图书馆深化读者服务工作的 切入点 J 图书馆理论与实践 何瑜 论网络环境下读者服务的新特征 J 河南教 育 当代图书馆 略 J 文为民 互联网环境下读者服务模式的延伸 J 新 世纪图书馆 3 谭丹丹 基于读者到馆行为分析的图书馆服务优化 策略 J