第 23 期 赵 静 : 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 11 注 册, 注 册 时 输 入 个 人 信 息, 包 括 姓 名 性 别 年 龄 教 育 背 景 和 兴 趣 由 于 用 户 一 般 都 很 注 意 个 人 信 息 的 保 密 性 因 此, 这



Similar documents
「西醫基層總額支付委員會《第28次委員會議紀錄

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

untitled

CWP156.pdf

壹:教育文化公益慈善機關或團體免納所得稅適用標準

关于建立境内违法互联网站黑名单管理制度的通知

<4D F736F F D20D0C5CFA2BBAFB7A2D5B9D6D8B5E3D7A8CFEEB9E6BBAE2E646F63>

? 這 全 都 是 市 政 府 提 供 給 我 的 資 料 低 底 盤 公 車 計 畫 96 年 預 算 新 台 幣 4,500 萬 元 97 年 預 算 新 台 幣 1 億 6,500 萬 元 98 年 預 算 新 台 幣 3 億 2,300 萬 元, 共 有 307 台 低 底 盤 公 車,99

8月31日 高松市震災対策総合訓練が古高松中学校において実施され,住民2000人が参加した

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

<4D F736F F D20B6C0AE78B0EDAABAC0B8A740B8D65FA7EBA7BAA54EA4E5BEC7ACE3A873C24FA55AA15E2E646F63>

Microsoft Word - F5.docx

第十号 上市公司关联交易公告

Microsoft Word - 朗诵诵材.doc

06-07周年報告template.PDF

<4D F736F F D20C8CBB8A3D2BDD2A9BCAFCDC5B9C9B7DDB9ABCBBECFEACABDC8A8D2E6B1E4B6AFB1A8B8E6CAE9A3A8CEE4BABAB5B1B4FABFC6BCBCB2FAD2B5BCA

untitled

成 都 东 软 学 院 2014 年 9 月 1 日 成 都 东 软 学 院 2014 年 9 月 1 日 印 共 印 3 份 - 2 -

:,,,,,, :, ;,,,,,,,,,,,,,, , 7,,,,,,, 9 15,,,, 9 19,,,,,,, , :,,, :,,,,,,,,,,,,,,, 86 :, , 4, 1967, 1072 :, , 4

西安文理学院 西安通信学院 西北工业大学.doc

<4D F736F F D BAD3C4CFC0EDB9A4B4F3D1A C4EAB6C8B1BEBFC6BDCCD1A7D6CAC1BFB1A8B8E6A3A8D7EED6D5B8E5A3A92E646F63>

<4D F736F F D20B9FABCD2BBFAB9D8B0ECB9ABBDA8D6FEBACDB4F3D0CDB9ABB9B2BDA8D6FEC4DCBAC4BCE0B2E2CFB5CDB3C8EDBCFEBFAAB7A2D6B8B5BCCBB5C3F7CAE92E646F63>

厦门创兴科技股份有限公司

第一部份

计算机网络与经济(六).doc

目 录 欢 迎 使 用 产 品 介 绍 产 品 概 述 产 品 特 点 代 理 商 系 统 使 用 说 明 登 陆 基 本 信 息 分 销 商 管 理 帐 户


序号:001

国民体质监测相关名词释义.doc

人20 感覺統合失調.DOC

response_mostunwanted_060611_prepared

XXXXXXXX

标题

第三期芳草地彩版.doc

人17 不以賦為題名.DOC

國家圖書館典藏電子全文


1-28(长江二号)

中央警察大學99學年度第1學期校務會議議程

汉 学 研 究 学 刊 第 六 卷 (2015) Journal of Sinological Studies, Vol.6 (2015) 一 唐 太 宗 的 書 法 文 化 建 設 唐 太 宗 ( 李 世 民, , 在 位 ) 酷 愛 書 法, 宣 和 書 譜 評 爲 :

untitled

untitled

untitled

关于印发广东省“互联网+”现代农业行动计划( 年)的通知

证券期货市场之主要诚信规范

( 总 第 1124 期 ) 浙 江 省 人 民 政 府 主 办 2016 年 7 月 18 日 出 版 目 省 政 府 令 浙 江 省 行 政 执 法 证 件 管 理 办 法 ( 浙 江 省 人 民 政 府 令 第 346 号 ) (3) 省 政 府 办 公 厅 文 件 浙 江 省 人 民 政 府

标题

No.32

中国科学院上海神经科学研究所

一只特立独行的猪.doc

一、

穨資料題_中三_中五適用__慈禧太后的功過_林麗貞_20


?????????????(2008~2020?)


IP Camera

新 社 會 政 策 雙 月 刊 內 地 女 性 在 香 港 所 生 的 活 產 嬰 兒 數 目 年 份 活 產 嬰 兒 數 目 其 配 偶 為 香 港 永 久 性 居 民 其 配 偶 為 非 香 港 永 久 性 居 民 其 他 小 計 ,219 L

人22 國際男子.DOC

2010 ( :232) 813 (21)!!!!!!!!!!!!!!!!!!!!! ( )!!!!!!!!! (22) 2009!!!!!!!! (24) (24)!!!!!!!!!!!! 2009 (33)!!!!!!!!!!!! 2009 (36)!!!!!!!!!!!!


2004年05月28日

目 录 CONTENTS 总 第 2 期 要 情 速 递 3 国 务 院 连 发 五 文 支 持 创 新 创 业 6 江 苏 省 机 关 事 业 单 位 养 老 保 险 改 革 年 内 启 动 9 全 市 人 社 系 统 上 半 年 工 作 分 析 会 召 开 本 刊 记 者 摘 自

校友会系统白皮书feb_08

PowerPoint Template

2014年融360中国小微企业“普惠”指数

修 平 技 術 學 院

Chapter 1 選 用 好 的 燜 燒 罐 選 用 好 的 燜 燒 罐 是 做 好 燜 燒 罐 料 理 最 重 要 的 步 驟, 除 了 須 注 意 使 用 的 材 質 是 否 符 合 食 器 使 用 標 準, 也 須 注 意 燜 燒 罐 的 保 溫 效 果, 才 能 安 心 享 用 燜 燒 罐

為民服務不定期考核項目及評分表...附表1

目 录 目 录... I 1 背 景 介 绍 指 导 思 想 和 建 设 目 标 建 设 内 容 系 统 定 位 系 统 架 构 信 息 交 换 平 台 建 立 云 计 算 应


untitled


RG-NBS5816XS交换机RGOS 10.4(3)版本WEB管理手册

0 5 32

ebook2-1

公 司 进 行 了 金 融 终 端 收 费 端 产 品 的 策 略 调 整, 金 融 数 据 服 务 业 务 预 收 收 入 出 现 较 大 幅 度 下 降, 主 营 业 务 收 入 较 去 年 同 期 出 现 较 大 幅 度 下 降 同 时, 公 司 继 续 加 大 战 略 性 投 入, 人 员

声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 任 何 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工

PPT题目

国 海 证 券 股 份 有 限 公 司 1 策 略 观 点 每 日 市 场 观 点 : 机 会 大 于 风 险, 持 股 过 节 分 析 师 : 代 鹏 举 S 联 系 人 : 樊 继 拓 S 一 国 海 策 略 评 论 : 毫 无 疑 问, 春

輳 如川東之 凡八年間 環講法華 金光明涅槃 淨名大小部帙 繼晷待且 慈霔 洋洋 續因慈母年邁 思念報親之恩 遂謝事歸寧 廬于祖墳 曰藏雲 居雖叢爾躡 屩尤多 假道問津 盈諸戶外 仍造西方三聖像設廣以化人 其母後有微疾 師就臥 床 夜講心經 念彌陀佛 佛放金光 母及四方 無不瞻覩 殊祥既[乇-一+北

問覇 巽說 人文 性德 存心 福解 評隱 喻用 物宜 善惡 性情 九流 四端 卷七 論原 中正 明分 察勢 刑勢 君子 知人 品論 解譏 風俗 仁孝 問經 問交 師道 道德 治心(論原畢) 雜著(六篇) P. 2

untitled

信息


总 7 页, 第 2 页 31 财 政 金 融 学 院 经 济 学 创 新 型 教 育 模 式 的 现 状 与 前 景 展 望 基 于 高 校 经 济 类 实 验 班 的 实 证 调 查 与 分 析 赵 之 朱 夏 贺 迪 常 悦 韩 正 阳 岳 树 民 国 家 级 经 济 学 部 Ⅰ 组 良 好

前言

标题

白雲端禪師 有逸氣 少游湘中 時會禪師新自楊岐來居雲盖 一見 心奇之 與語每終夕 會忽問曰 上人落髮師為誰 對曰 茶陵郁和尚 會曰 吾聞其過溪有 省 作偈甚奇 能記之否 端即誦曰 我有神珠一顆 久被塵勞關鎻 今朝塵盡光生 照破山河萬朵 會大笑而去 端愕然左右視 通夕不寐 明日 求入室咨詢其事 時方歲

居士翹足 三角禾豆 南華稻粟 婆子作齋 廿贄設粥 灌溪劈箭 疎山囓鏃 天鉢花開 九峯麥熟 啞子延僧 則天賜浴 尚書打毬 大夫雙陸 行者失笑 陸亘合哭 大寂吹耳 尊者撥眉 寒山茄串 解脫粥篦 陳老蒲鞋 龐蘊漉籬 悟本紙撚 法眼香匙 光仁女子 玄則童兒 九峯拽擺 保福扶犂 玄泰布衲 克符紙衣 菴主不顧

車駕郊迎 延居別殿 遂問聖諦 機語不契 至十九日 潛往江北(傳燈云 祖以丁未普 通八年至韶州 時刺史蕭昂具禮迎接 表奏 據明教禪禪正宗記乃曰 祖以庚子普通元年至韶州 刺史蕭勵迎接 具奏 蓋蕭昂不曾刺韶州 勵乃昂之子也 以南北史驗之 則當以正宗記為是) 先是誌公修高座寺 謂寺主靈觀曰 當有大乘菩薩自西

唐丞蘇朗 唐邑令李虗 唐吳逵 唐王待制 唐邑令李惟燕(附惟玉) 唐孫明 唐推司楊旬 唐孫翁 唐宋參軍 唐節度張齊丘 唐府掾陸康成 唐張國英 唐徐玘 唐王孝廉 唐別駕周伯玉 唐任自信 唐太常段成式 唐節度吳少陽 唐強伯達 唐司空嚴綬 唐吳可久 唐邢行立 唐趙安 唐倪勤 唐兖州軍將 唐牙將甯勉 唐張政

報 告 議 員, 本 局 對 臺 北 市 列 管 的 地 下 加 油 站, 大 部 分 都 已 取 締 完 畢 目 前 只 剩 下 1 處, 我 們 還 在 持 續 觀 察 其 是 否 有 復 業 的 跡 象 臺 北 市 的 地 下 加 油 站 只 剩 下 1 處 而 已? 王 科 長 三 中 :

目 录 推 荐 文 章 1 1. 关 于 我 校 信 息 化 服 务 开 展 的 一 些 思 考 ( 人 事 处 周 礼 ) 1 2. 围 绕 协 同 创 新 理 念 构 建 科 研 服 务 管 理 信 息 化 新 体 系 ( 科 研 院 史 红 兵 钱 秀 红 方 令 超 )4 3. 协 同 科

文档标题

可 行 性 分 析 报 告 上 海 新 南 洋 股 份 有 限 公 司 ( 以 下 简 称 新 南 洋 或 公 司 ) 拟 向 上 海 交 大 产 业 投 资 管 理 ( 集 团 ) 有 限 公 司 上 海 交 大 企 业 管 理 中 心 上 海 赛 领 并 购 投 资 基 金 合 伙 企 业 (

177 Family Life Course

国家信息中心2012年部门预算

2003年信息资源调查报告

旺 運限亨通 四時吉利 營求果遂 其心百歲 康寧福祉 介萃於體 諸天擁護 魔恠潛藏 不作十習 之因 不受六交之報 直往菩提 逕登彼岸 更願人人悔悟 物物豐饒 政教化成 雨暘時若無龍鬬蛟起山崩岸圻之災 無地動水立屋倒舟沉之患 無兵戈之釁 無饑饉之虞 無疫癘蟲蝗 無盜賊奸宄 玉燭恒調 金甌永固 萬方 普

但了白雲常倚 莫問青山不知 生死情刳 心心不觸 涅槃性徧 步步還鄉 無始劬 勞 剎那報足 大孝不匱 猶曰海之一滴 何況其餘 如或未然 且從錫類篇中 作 箇蠧魚 隨分咬著一字半字 他生後世 返擲有日在 弟子廣瀹吳應賓和南謹序 No C賸錄序 先壽昌 於法門寂寥之際 言中有響 脚下無私 使洞

Transcription:

第 28 卷 第 23 期 2012 年 12 月 甘 肃 科 技 GansuScienceandTechnology Vol 28 No 23 Dec 2012 摘 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 赵 静 ( 上 海 外 国 语 大 学 贤 达 经 济 人 文 学 院, 上 海 200083) 要 : 针 对 高 校 学 术 信 息 资 源 检 索 的 精 确 度 问 题, 提 出 了 运 用 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 系 统 它 主 要 对 Web 使 用 记 录 挖 掘 及 其 用 户 兴 趣 模 型 的 建 立 进 行 了 详 细 分 析 首 先 它 阐 述 了 高 校 图 书 馆 搜 索 引 擎 系 统 的 4 个 过 程, 其 中 主 要 提 出 建 立 用 户 兴 趣 模 型 时 采 用 的 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 ; 然 后 阐 述 了 高 校 图 书 馆 搜 索 引 擎 系 统 的 各 处 理 模 块 ; 最 后 设 计 了 结 合 Web 数 据 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 系 统 操 作 过 程, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性, 从 而 有 效 地 提 高 高 校 图 书 馆 搜 索 引 擎 系 统 的 查 准 率 关 键 词 :Web 挖 掘 ;Web 使 用 记 录 挖 掘 ; 搜 索 引 擎 ; 用 户 兴 趣 模 型 中 图 分 类 号 :TP319 Internet 上 的 搜 索 引 擎 部 分 地 解 决 了 资 源 发 现 的 问 题, 但 是 它 可 能 会 返 回 给 用 户 成 千 上 万 检 索 到 的 网 页, 而 其 中 很 大 一 部 分 与 用 户 的 要 求 无 关, 用 户 不 能 快 速 准 确 地 得 到 所 需 的 有 价 值 的 信 息, 就 Web 上 的 知 识 发 现 而 言, 即 使 检 索 精 度 再 高, 搜 索 引 擎 也 不 能 够 胜 任 因 此, 运 用 Web 挖 掘 的 搜 索 引 擎 随 之 产 生 运 用 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 是 专 门 针 对 高 校 的 学 术 信 息 资 源 进 行 检 索 的 搜 索 引 擎, 是 实 现 高 校 教 学 资 源 共 享 必 不 可 少 的 工 具, 所 以 基 于 Web 挖 掘 的 高 校 图 书 馆 搜 索 引 擎 的 设 计 具 有 非 常 重 要 的 科 学 意 义 和 应 用 价 值 Web 数 据 挖 掘 根 据 挖 掘 对 象 的 不 同 大 致 可 分 为 三 个 方 面 的 挖 掘 研 究 :Web 内 容 挖 掘 Web 结 构 挖 掘 和 Web 使 用 记 录 挖 掘 [1] Web 使 用 记 录 挖 掘 也 叫 Web 日 志 挖 掘 或 Web 访 问 信 息 挖 掘, 在 新 兴 的 电 子 商 务 领 域 有 重 要 意 义 它 通 过 挖 掘 相 关 的 Web 日 志 记 录, 来 发 现 用 户 访 问 Web 页 面 的 模 式, 通 过 分 析 日 志 记 录 中 的 规 律, 可 以 识 别 用 户 的 忠 实 度 喜 好 满 意 度, 可 以 发 现 潜 在 用 户, 增 强 站 点 的 服 务 竞 争 力 目 前 Web 使 用 记 录 挖 掘 技 术 和 工 具 可 分 为 两 大 类 : 访 问 模 式 的 追 踪 和 个 性 化 的 使 用 记 录 的 追 踪 一 般 的 访 问 模 式 追 踪 通 过 分 析 使 用 记 录 来 了 解 用 户 的 访 问 模 式 和 倾 向, 以 改 进 站 点 的 组 织 结 构 ; 个 性 化 的 使 用 记 录 追 踪 则 倾 向 于 分 析 个 别 用 户 的 偏 好, 其 目 的 是 根 据 不 同 用 户 的 访 问 模 式, 为 用 户 提 供 定 制 的 服 务 本 文 主 要 针 对 Web 使 用 记 录 挖 掘 及 其 建 立 用 户 兴 趣 模 型 并 进 行 详 细 分 析 本 文 首 先 提 出 用 户 兴 趣 模 型 的 计 算 描 述 词 频 法, 然 后 提 出 了 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 该 方 法 以 用 户 浏 览 Web 页 面 的 内 容 信 息 和 行 为 信 息 作 为 数 据 源, 采 用 Web 挖 掘 方 法 分 析 得 到 较 准 确 的 用 户 兴 趣 描 述, 减 少 了 由 于 用 户 参 与 而 带 来 的 系 统 噪 声, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性, 从 而 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 1 高 校 图 书 馆 搜 索 引 擎 系 统 的 4 个 过 程 设 计 高 校 图 书 馆 搜 索 引 擎 是 专 门 针 对 高 校 丰 富 信 息 资 源 及 其 使 用 特 点 而 设 计 的 系 统 高 校 图 书 馆 资 源 搜 索 引 擎 系 统 的 4 个 过 程 主 要 包 括 用 户 的 识 别, 用 户 描 述 文 件, 用 户 兴 趣 模 型 和 用 户 兴 趣 提 取 技 术, 可 更 加 方 便 全 面 地 获 取 与 专 业 相 关 的 信 息 资 源 同 时 要 保 证 系 统 运 行 的 稳 定 性 安 全 性, 检 索 响 应 时 间 数 据 更 新 频 率 查 准 率 等 都 要 达 到 较 高 的 指 标 1 1 用 户 的 识 别 高 校 图 书 馆 搜 索 引 擎 系 统 首 先 要 能 准 确 地 识 别 出 用 户, 这 是 为 用 户 建 立 模 型 和 实 现 向 用 户 推 荐 信 息 的 前 提 对 于 高 校 图 书 馆 搜 索 引 擎 系 统 来 说, 用 户 可 以 分 为 两 类 : 注 册 用 户 和 非 注 册 用 户 用 户 在 系 统 中 基 金 项 目 : 上 海 高 校 青 年 教 师 培 养 资 助 计 划 ( 编 号 xdc11001)

第 23 期 赵 静 : 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 11 注 册, 注 册 时 输 入 个 人 信 息, 包 括 姓 名 性 别 年 龄 教 育 背 景 和 兴 趣 由 于 用 户 一 般 都 很 注 意 个 人 信 息 的 保 密 性 因 此, 这 些 信 息 不 能 代 表 用 户 的 兴 趣, 往 往 用 于 用 户 身 份 的 验 证 系 统 为 每 个 不 同 的 注 册 用 户 赋 予 一 个 ID 对 于 非 注 册 用 户, 他 通 过 一 个 浏 览 器 访 问 一 个 或 多 个 Web 站 点 实 际 上, 由 于 本 地 Cache 和 代 理 服 务 器 (Proxy) 的 存 在, 使 得 用 户 识 别 比 较 困 难 例 如, 不 同 的 用 户 使 用 同 一 个 代 理 服 务 器, 在 日 志 文 件 中 会 形 成 相 同 的 IP 地 址 ; 同 时 由 于 代 理 服 务 器 中 的 缓 存 功 能, 使 得 同 一 用 户 的 访 问 被 认 为 是 不 同 的 用 户 用 户 可 以 用 一 个 浏 览 器, 也 可 以 用 多 个 浏 览 器, 可 以 访 问 一 个 服 务 器, 也 可 以 访 问 多 个 服 务 器, 因 此, 用 户 识 别 比 较 困 难 在 识 别 用 户 时, 可 以 将 AccesLog,ReferLog 和 用 户 提 交 的 注 册 信 息 结 合 起 来 注 册 用 户 根 据 系 统 记 录 的 ID 容 易 辨 别 未 注 册 用 户 识 别 应 遵 循 以 下 启 发 式 原 则 : 1) 如 果 用 户 的 IP 地 址 不 同 则 认 为 是 不 同 的 用 户 ; 2) 如 果 IP 地 址 相 同 但 浏 览 器 软 件 或 操 作 系 统 不 同, 则 认 为 是 不 同 的 用 户 ; 3) 通 过 ReferLog 和 站 点 的 拓 扑 结 构 图 构 建 每 个 用 户 的 访 问 路 径, 如 果 所 请 求 的 页 面 和 以 前 访 问 的 所 有 页 面 不 存 在 直 接 的 超 链 接 关 系, 则 认 为 具 有 相 同 IP 地 址 的 用 户 是 不 同 的 用 户 ; 用 户 识 别 出 来 以 后, 可 以 为 他 赋 予 一 个 ID 1 2 用 户 描 述 文 件 描 述 用 户 兴 趣 的 用 户 描 述 文 件 从 内 容 上 可 以 划 分 为 基 于 兴 趣 的 和 基 于 行 为 的 两 种 收 集 用 户 信 息 的 数 据 来 源 有 下 面 的 几 种 : 用 户 注 册 信 息 利 用 指 向 文 档 的 超 链 接 内 容 用 户 显 式 反 馈 的 信 息 用 户 隐 式 反 馈 的 信 息 访 问 和 标 记 某 网 页 等 行 为 Proxy 日 志 信 息 用 户 浏 览 行 为 用 户 在 某 页 所 花 的 时 间 阅 读 的 文 档 阅 读 文 档 所 花 的 时 间 和 添 加 书 签 等 行 为 引 用 文 件 的 内 容 用 户 定 义 的 目 录 类 型 Web 访 问 日 志 用 户 描 述 文 件 可 以 用 文 件 来 组 织, 也 可 以 用 关 系 数 据 库 或 其 他 数 据 库 来 组 织 目 前 有 一 些 系 统 采 用 基 于 XML 的 RDF [2] (resourcedefinitionframe work) 来 表 达 用 户 描 述 文 件, 并 利 用 支 持 XML 的 数 据 库 系 统 来 存 储 用 户 描 述 文 件 这 样, 不 仅 利 用 了 XML 的 优 点, 也 保 持 了 系 统 的 性 能 1 3 用 户 兴 趣 模 型 用 户 兴 趣 模 型 是 高 校 图 书 馆 搜 索 引 擎 系 统 的 关 键 部 分, 用 户 兴 趣 描 述 的 准 确 与 否 直 接 决 定 着 搜 索 引 擎 系 统 服 务 的 质 量 好 坏 本 文 通 过 建 立 用 户 兴 趣 模 型, 详 细 分 析 用 户 兴 趣 信 息, 有 效 使 用 Web 使 用 记 录 挖 掘 技 术 来 更 好 地 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 本 文 首 先 提 出 用 户 兴 趣 模 型 的 计 算 描 述 词 频 法, 然 后 提 出 了 一 种 利 用 用 户 浏 览 页 面 集 的 内 容 信 息 和 浏 览 行 为 信 息, 隐 式 地 创 建 用 户 兴 趣 描 述 文 件 的 方 法 该 方 法 以 用 户 浏 览 Web 页 面 的 内 容 信 息 和 行 为 信 息 作 为 数 据 源, 采 用 Web 挖 掘 方 法 分 析 得 到 较 准 确 的 用 户 兴 趣 描 述, 减 少 了 由 于 用 户 参 与 而 带 来 的 系 统 噪 声, 保 证 了 所 创 建 的 用 户 兴 趣 模 型 的 准 确 性 1 3 1 用 户 兴 趣 模 型 的 词 频 法 用 户 兴 趣 模 型 是 指 对 于 用 户 感 兴 趣 的 信 息 的 可 计 算 描 述, 一 般 采 用 词 频 法 [3] 这 里 介 绍 一 种 用 三 元 组 表 示 的 用 户 兴 趣 模 型 ( 兴 趣 词 条 兴 趣 权 重 词 条 新 鲜 度 ) 兴 趣 结 点 用 三 元 组 (p i,w i,x i ) 表 示, 简 记 为 Node(p i ), 其 中 p i p,p 为 词 条 集,p={p 1,p 2,,p m },p 1,p 2,,p m 分 别 表 示 兴 趣 ( 词 条 ),m 为 词 典 的 大 小,w i 为 兴 趣 词 条 p i 的 权 重,x i 为 兴 趣 词 条 p i 的 新 鲜 度 所 有 兴 趣 的 集 合 构 成 兴 趣 全 集 ( 词 典 ), 记 为 U,WWW 缓 存 中 的 文 本 集 合 记 为 D 在 词 频 中, 考 虑 到 各 个 词 条 在 文 档 中 的 不 同 位 置 体 现 其 不 同 的 重 要 性, 对 词 条 兴 趣 加 权 重, 即 位 置 词 频 spf ij 为 了 计 算 词 条 新 鲜 度, 对 于 文 档 d n, 使 用 一 个 文 档 新 鲜 度 函 数 dtx(n) 这 是 一 个 单 调 非 递 减 函 数, 用 来 保 证 越 是 最 近 访 问 的 页 面, 对 用 户 当 前 的 兴 趣 作 用 越 大 其 中 n 指 缓 冲 中 的 第 n 个 时 间 页 面 兴 趣 结 点 Node(p i ) 的 词 条 权 重 公 式 如 下 : Node(p i ) w i = n (spf ij E j ) (1) j=1 兴 趣 结 点 Node(p i ) 的 词 条 新 鲜 度 公 式 如 下 : Node(p i ) x i = n [ spf ij E dtx(j)] j=1 Node(p i ) w i (2) 式 中 spf ij 为 词 条 p i 在 文 本 d i 中 的 位 置 词 频,n 为 D 中 文 本 的 个 数,E j 为 文 本 兴 趣 系 数,dtx(n) 为 文 档 新 鲜 度 函 数 得 到 兴 趣 词 条 p i 的 权 重 和 新 鲜 度 后, 可 以 根 据 公 式 : t i =w i f(x i ) (3) 计 算 词 条 p i 的 兴 趣 度, 式 中 f(x) 为 词 条 新 鲜 度 对 权 重 的 影 响 函 数 词 条 兴 趣 度 是 网 络 搜 索 个 性 化 分 析 的 最 终 依 据 1 3 2 基 于 Web 浏 览 内 容 和 行 为 分 析 相 结 合 的 用 户 兴 趣 模 型 整 个 用 户 兴 趣 模 型 的 创 建 过 程 包 括 Web 浏 览

甘 肃 科 技 第 8卷 内容分析和 We b浏览行为分析两部分 流程如图 用添零补齐的方法使两者长度一致 夹角余弦函数 所示 如下 X Y C X Y X Y 槡 式中 C X Y 表示页面 X与 Y的相似度 X与 Y 表示 X与 Y对应的特征词的权值 页面 X与 Y值 越相似 C X Y 值越大 反之则越小 3 基于浏览行为的用户兴趣分析 用户很多浏览行为都能很好地反映用户的兴 趣 用户的很多动作都能暗示用户的喜好 如查询 浏览页面和文章 标记书签 反馈信息 点击鼠标 拖 动滚动条 前进 后退等 用户访问时的停留时间 访问次数 保存 编辑 修改等动作能够揭示用户兴 图 用户兴趣模型流程 We b浏览内容分析 就是采用 We b聚类分析方 趣 这些行为究竟怎样反映用户的兴趣 需要对其 进行量化估算 法对用户已浏览的 We b页面集进行内容聚类 得到 浏览行为的分类 b浏览行为分析是对用户 用户感兴趣的页面集 We 从表面上看能揭示用户对网页 P兴趣度 d P 浏览页面时的行为信息进行分析 得到用户对单一 的浏览行为很多 但分析发现 起关键作用的是两种 页面的兴趣浓度 将二者相结合 就得到了用户感 p 简称 T行为 和 行为 在网页 P上的浏览时间 t 兴趣的主题类别及对每类主题的兴趣度 即用兴趣 翻页 拉动滚动条的次数 v P 简称 V行为 原因 分类树表示的用户兴趣模型 有 3点 查询 编辑 修改等行为必定增加网页 3 3 基于 We b浏览内容的用户兴趣分析 浏览时间和翻页次数 因此能够通过后者间接的得 用户兴趣模型描述所基于的 We b浏览内容是 到反映 执行了保存 标记书签等动作的页面 指用户浏览页面的内容信息 它被用于基于内容的 若真为用户关心 通常以后会被多次调出来重新浏 聚类分析 这些页面的内容信息主要来源于 We b 览 故可体现为访问次数 3 点击鼠标动作不被 服务器端 首先根据用户的浏览日志记录 得到单一 考虑 因为简单动作不能有效揭示用户兴趣 用户的浏览历史页面 URL 然后从数据库服务器中 浏览行为参数的计算 取出这些 URL对应的 We b页面 作为对浏览内容 为了找到 T V与网页兴趣度的定量关系 通过 兴趣描述的数据源 分析和实验 决定采用一元线性回归方法作为网页 对浏览网页信息的数据预处理 兴趣建模分析的工具 线性回归分析方法是在分析 b文档具有 与数据库中的结构化数据相比 We 研究对象变化趋势的基础上建立函数模型 从而研 有限的结构 即使具有一些结构 也是着重于格式而 非文档内容 此外 文档的内容是人类所使用的自 然语言 计算机很难处理其语义 We b文本信息源 的这些特殊性使得现有的数据挖掘技术无法直接应 究对象之间存在的相互依存关系 用户浏览行为和网页兴趣度之间的回归方程可 建立为 d p a T b V c 用于其上 这就需要对文本进行预处理 抽取代表 式中 a b c是与 t P 和 v P 无关的未知参数 它 其特征的元数据 作为文档的中间表示形式 们的估计可采用最小二乘法 这样通过该方程就可 页面相似度函数 以计算用户对每个网页的行为兴趣度 BI Be ha v 采用向量空间模型表示的数据 必须选择计算 o ri nt e r e s t n g 两个特征矢量之间相似性的相似度函数 现在常用 用户兴趣提取技术 的方法有欧几里德距离 曼哈坦距离和夹角余弦函 实现高校图书馆搜索引擎系统很重要的一项技 数 可以采用夹角余弦函数 但是在计算时可能会 术就是如何判断用户的信息需求 如何对用户兴趣 遇到用于比较的两个特征矢量长度不一样 可以采 进行提取 即用户兴趣的跟踪分析在因特网上获取

第 23 期 赵 静 : 高 校 图 书 馆 搜 索 引 擎 中 Web 挖 掘 的 应 用 研 究 13 用 户 兴 趣 信 息 的 方 法 主 要 有 3 种 : 服 务 器 端 挖 掘 用 户 主 动 提 供 和 系 统 被 动 学 习 服 务 器 端 挖 掘 即 从 服 务 器 中 分 析 获 取 用 户 的 兴 趣 信 息 因 特 网 中 的 每 个 服 务 器 都 有 访 问 日 志 文 件, 它 记 录 了 关 于 用 户 访 问 和 交 互 的 信 息 通 过 对 这 些 数 据 的 分 析 可 以 理 解 用 户 的 行 为, 从 而 为 用 户 提 供 高 校 图 书 馆 搜 索 引 擎 系 统 的 服 务 或 改 善 网 站 的 结 构 用 户 主 动 提 供 即 由 用 户 主 动 填 写 提 供 来 获 取 用 户 的 兴 趣 信 息 系 统 被 动 学 习 即 监 视 用 户 的 信 息 搜 索 与 浏 览 过 程 等 使 用 习 惯 来 获 取 用 户 的 兴 趣 信 息 为 了 快 速 精 确 地 发 现 用 户 兴 趣, 最 好 将 这 3 种 方 法 结 合 使 用 首 先 它 要 求 用 户 通 过 回 答 问 题 的 方 式 来 提 供 自 己 的 兴 趣, 从 而 得 到 用 户 的 初 始 兴 趣 向 量 然 后, 通 过 用 户 的 反 馈 信 息 和 挖 掘 用 户 在 访 问 网 页 时 在 服 务 器 方 留 下 的 访 问 记 录 来 修 改 用 户 的 兴 趣 向 量, 并 且 系 统 不 断 地 更 新 用 户 的 兴 趣 信 息 2 高 校 图 书 馆 搜 索 引 擎 系 统 模 块 分 析 在 高 校 图 书 馆 系 统 中, 通 过 建 立 用 户 兴 趣 模 型 为 核 心 开 发 高 校 图 书 馆 搜 索 引 擎 系 统 整 个 高 校 图 书 馆 搜 索 引 擎 系 统 由 五 个 模 块 组 成 : 用 户 界 面, 数 据 采 集, 建 立 用 户 兴 趣 模 型, 网 页 排 名, 数 据 查 询 2 1 用 户 界 面 用 户 界 面 可 分 为 管 理 员 界 面 和 用 户 的 查 询 界 面 管 理 员 界 面 主 要 负 责 系 统 的 相 关 设 置 需 要 能 够 添 加 数 据 采 集 任 务, 挑 战 系 统 参 数, 查 看 当 前 系 统 状 态, 设 置 数 据 采 集 速 度 采 集 数 量 等 信 息 2 2 数 据 采 集 首 先 是 Web 数 据 源 发 现 利 用 高 校 已 有 资 源 的 优 势, 再 使 用 目 录 搜 索 引 擎 查 找 基 于 某 一 个 领 域 的 Web 数 据 库, 如 此 数 据 源 包 括 由 高 校 购 买 的 数 据 库 和 校 外 众 多 的 Web 站 点 和 开 放 资 源 组 成 其 次 数 据 采 集 需 要 使 用 网 络 蜘 蛛 将 网 页 文 件 从 网 络 上, 抓 取 到 本 地 硬 盘 之 中 数 据 抓 取 有 其 起 点 和 范 围, 这 些 都 可 以 通 过 管 理 员 界 面 进 行 设 置 Nutch 搜 索 引 擎 中 已 经 有 完 整 的 网 络 蜘 蛛 功 能, 对 此 我 们 只 需 要 设 置 以 后 直 接 调 用 即 可 2 3 建 立 用 户 兴 趣 模 型 使 用 用 户 兴 趣 提 取 技 术 对 抓 取 的 网 页 文 件 建 立 用 户 兴 趣 模 型 首 先 获 取 用 户 个 性 化 信 息 丰 富 的 用 户 信 息 库 存 储 了 用 户 的 姓 名 性 别 年 龄 学 历 专 业 借 阅 书 或 期 刊 的 历 史 原 文 传 递 的 内 容 研 究 领 域 科 研 成 果 以 及 以 往 提 出 的 个 性 化 信 息 服 务 等 等 信 息 如 此, 不 仅 用 户 自 己 可 以 通 过 该 系 统 把 感 兴 趣 的 关 键 词 输 入 进 行 检 索, 咨 询 馆 员 也 可 以 通 过 分 析 用 户 个 性 化 信 息 分 析 用 户 的 兴 趣, 进 而 把 用 户 感 兴 趣 的 信 息 推 送 给 用 户 其 次 通 过 提 问 式 或 者 用 户 偏 好 方 式 进 行 数 据 源 选 择 和 提 问 调 整 来 提 取 数 据 源, 然 后 对 其 进 行 页 面 检 索 和 页 面 分 析, 利 用 用 户 主 动 提 供 的 用 户 偏 好 结 果 建 立 用 户 兴 趣 模 型 2 4 网 页 排 名 首 先 利 用 Google 的 PageRank 算 法 对 网 页 进 行 排 名 运 算, 得 出 各 个 网 页 的 权 威 度 通 过 提 取 用 户 兴 趣 信 息 结 果 对 网 页 权 威 度 进 行 修 正 得 出 最 终 的 网 页 权 威 度 结 果 2 5 数 据 查 询 首 先 统 一 查 询 接 口 每 个 Web 数 据 库 都 提 供 自 己 的 查 询 接 口, 先 要 对 这 些 接 口 进 行 解 析, 获 取 查 询 接 口 的 模 式 信 息, 比 如 要 查 找 图 书, 接 口 的 模 式 信 息 就 包 含 了 书 名 作 者 价 格 等 然 后 把 属 于 某 一 领 域 的 接 口 集 成 形 成 一 个 统 一 的 集 成 查 询 接 口 其 次 数 据 查 询 就 是 用 户 在 集 成 查 询 接 口 上 填 写 需 求 并 提 交 查 询 后, 系 统 会 把 查 询 的 关 键 词 转 化 为 在 具 体 的 Web 数 据 源 查 询 接 口 上 查 询 的 关 键 词, 然 后 从 返 回 的 动 态 页 面 中 抽 取 相 应 的 查 询 结 果, 并 把 这 些 查 询 结 果 进 行 有 效 的 合 并 去 重, 存 储 在 一 个 统 一 的 模 式 下 3 高 校 图 书 馆 搜 索 引 擎 系 统 设 计 高 校 图 书 馆 搜 索 引 擎 系 统 设 计 主 要 包 括 数 据 库 的 访 问, 用 户 兴 趣 模 型 的 确 定, 用 户 兴 趣 度 的 量 化 和 网 页 权 威 度 的 确 定 3 1 用 户 兴 趣 模 型 的 确 定 用 户 兴 趣 模 型 的 确 定 主 要 是 确 定 抓 取 的 网 页 哪 些 是 用 户 感 兴 趣 的, 即 跟 踪 不 同 用 户 的 浏 览 习 惯, 以 进 行 用 户 感 兴 趣 的 网 页 内 容 调 查 和 生 成 不 同 编 排 内 容 的 个 性 化 浏 览 页 面, 如 图 2 所 示 3 2 用 户 兴 趣 度 的 量 化 用 户 兴 趣 度 的 量 化 主 要 是 网 页 中 用 户 兴 趣 度 的 量 化, 如 图 3 所 示 3 3 网 页 权 威 度 的 确 定 网 页 权 威 度 的 确 定 主 要 是 根 据 PageRank 算 法 计 算 各 个 网 页 的 PageRank 值, 并 使 用 用 户 兴 趣 度 量 化 结 果 进 行 修 正, 以 得 出 最 终 的 网 页 权 威 度, 如 图 4 所 示

甘 肃 科 技 第 8卷 的先验知识 然后建立用户兴趣模型 跟踪用户在浏 览器上的行为数据和浏览内容 采用用户兴趣提取 技术 深入分析用户的浏览行为数据 获得用户的信 息资料集 最终为用户提供不同的个性化服务页面 并提供用户对站内信息进行搜索功能 同时可以满 足师生对于图书馆资源进行查找访问的需求 实现 高校图书馆网站资源有效服务 结束语 本文设计一种更加适合高校学习型和研究性进 行数字化信息资源使用的信息搜索引擎技术 今后 图 用户兴趣模型的确定 对该高校图书馆搜索引擎需进一步扩展 从而能够 实现高校之间的联合搜索 从而便于整个高等教育 系统内数字化信息资源的共享 参考文献 吴育良 图书馆网站建设之搜索引擎 J 优化科技 情报开发与经济 8 3? 王侠 陆敏网络环境下搜索引擎与图书馆信息服务 医学信息 9 9? 7 的对比分析 J 3 刘金元 现代图书馆信息服务模式 个性化定制 兰台世界 7 8? 6 服务 J 图 3 用户兴趣度的计算 符 静 搜 索 引 擎 市 场 在 图 书 馆 领 域 的 拓 展 和 影 响 图书馆建设 6? J 张沛露 王建军 We b挖掘技术在高校数字图书馆个 性化服 务 中 的 应 用 J 吉 林 建 筑 工 程 学 院 学 报 7 3 3 7? 3 6 郑薇 基于 We b挖掘的高校档案馆用户浏览行为个 性化研究 J 中 国 教 育 信 息 化 高 教 职 教? 3 7 王艳 张帆 杨炳儒 基于 We b挖掘的数字图书馆个 情报 6 9? 9 3 性化技术研究 J 8 郝晓兰 基于 We b挖掘的数字图书馆个性化技术探 图 网页权威度的确定 采用 We b挖掘技术与搜索技术相结合 首先 允 许用户对感兴趣的内容进行定制 构造数据挖掘 究 J 中北大学学报 社会科学版 7 6? 7 9 陈雪 We b挖掘在高校数字图书馆个性化服务中的应 用 J 兰台世界 9 8 7? 8 櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷櫷 3 金茵 基于读者需求的公共图书馆信息服务工作策 上接第 6页 参考文献 张莉 试谈新时期公共图书馆深化读者服务工作的 切入点 J 图书馆理论与实践 何瑜 论网络环境下读者服务的新特征 J 河南教 育 当代图书馆 略 J 文为民 互联网环境下读者服务模式的延伸 J 新 世纪图书馆 3 谭丹丹 基于读者到馆行为分析的图书馆服务优化 策略 J