基于词语关联度的查询缩略*

Similar documents
2005硕士论文模版


《哈佛考考你·智力》

Microsoft Word - 5 魏志生.doc

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

untitled

2011-论文选集-2.cdr

Microsoft Word - A _ doc

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

zt

Microsoft Word - 专论综述1.doc

SVM [6] PCA+SVM 79.75% 9 FERE FERE. PCA LDA Adaboost SVM 5 1 SVM Moghaddam [6] M (x,y ) x R N y x y {0,1} M f ( x) = y α k( x, x ) + b x k f(x) = 1 x

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Microsoft Word - 建構企業訓練之課程發展模式.doc


4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

zt

Ashdgsahgdh

從實驗教材到官方課程──小學社會科板橋模式教材與改編本教科書的發展

南華大學數位論文

Microsoft Word - 系统建设1.doc

第六篇


考試學刊第10期-內文.indd

MOTC-IOT-103-H1DB001a 臺 灣 港 務 公 司 之 監 督 與 公 司 治 理 績 效 評 估 研 究 (2/2) 著 者 : 謝 幼 屏 吳 榮 貴 朱 金 元 吳 朝 升 孫 儷 芳 王 克 尹 林 玲 煥 張 淑 滿 陳 銓 楊 世 豪 陳 秋 玲

南華大學數位論文

( s y s t e m ) ( s t r e s s ) (stress model) ( s y s t e m ) [ ] [ 5 ] C o x [ 3 ] 1 [ 1, 2 ] [ 6-8 ] [ 9 ] Tw Fam Med Res 2003 Vol.1 No.1 23

096STUT DOC

高層辦公建築避難演練驗證與避難安全評估之研究

Microsoft Word - HHG 14 Page 001.doc



Microsoft Word - 33-p skyd8.doc

~ ~

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

(Microsoft Word - 22\264\301\261\306\252\ \247\271\246\250.doc)

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

清 华 大 学

露 和 溜 的 声 母 是 l, 不 要 读 成 n 丛 的 声 母 是 c, 不 要 读 成 ch 塞 的 声 母 是 s, 不 要 读 成 sh 币 的 韵 母 是 i, 不 要 读 成 ei 甩 的 声 母 是 sh, 不 要 读 成 s 注 意 本 课 的 多 音 字 : { f 佼 佛 家

C doc

标题

nooog

Microsoft Word - 专论综述1.doc

Microsoft Word - A doc

国 有 企 业 相 比, 竞 争 性 国 有 企 业 构 建 有 效 激 励 机 制 的 迫 切 性 和 重 要 性 更 为 突 出 在 竞 争 性 行 业, 国 有 企 业 的 名 号 并 不 能 给 企 业 发 展 带 来 很 多 便 利 条 件, 反 而 常 常 成 为 制 肘 因 素, 通

SWAN min TITAN Thunder Identification Tracking Analysis SWAN TITAN and Nowcasting 19 TREC Tracking Radar Echo by Correlaction T


用户手册.cdr

《米开朗琪罗传》

豐佳燕.PDF


Microsoft Word - 31空中大學校稿檔.doc


a b

标题

Microsoft Word - 12 hhg doc

Microsoft Word - HHG 10 Page 001.doc

Ps22Pdf

共 計 四 篇 九 十 二 學 年 度 : 李 汶 娟 老 師 及 洪 廣 朋 老 師 榮 獲 銘 傳 大 學 專 任 教 師 學 術 研 究 成 果 獎 勵, 共 計 三 篇 銘 傳 大 學 補 助 專 任 教 師 出 席 國 際 性 學 術 會 議 處 理 要 點 本 校 為 鼓 勵 專 任 教

14-1-人文封面

92

I

中文篇吊

第 29 卷第 9 期 Vol. 29 NO. 9 重庆工商大学学报 ( 自然科学版 ) J Chongqing Technol Business Univ. Nat Sci Ed Sept X * ABAQUS 1 2

Transcription:

* 基 于 词 语 关 联 度 的 查 询 缩 略 陈 炜 鹏 1, 付 瑞 吉 1, 胡 熠 2, 秦 兵 1, 刘 挺 (1. 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院 社 会 计 算 与 信 息 检 索 研 究 中 心, 黑 龙 江 省 哈 尔 滨 市,150001; 2. 腾 讯 公 司 搜 索 平 台 部, 广 东 省 深 圳 市,518057) 摘 要 : 冗 长 查 询 指 用 户 提 交 的 句 子 成 份 复 杂 的 查 询 当 前 的 搜 索 引 擎 对 于 关 键 字 的 检 索 取 得 了 较 好 的 结 果 但 是 对 于 冗 长 的 查 询, 如 果 将 所 有 词 作 为 关 键 字 进 行 检 索, 往 往 只 能 返 回 相 当 有 限 的 结 果 在 本 文 中, 我 们 尝 试 利 用 关 键 词 之 间 的 词 语 关 联 度, 发 现 语 义 蕴 含, 删 除 信 息 量 小 的 关 键 词, 提 高 检 索 的 效 果 对 于 实 验 结 果, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价 在 面 向 机 器 的 评 价 部 分, 我 们 根 据 搜 索 引 擎 返 回 结 果 的 标 红 率 和 结 果 数 进 行 自 动 评 价 ; 在 面 向 用 户 的 评 价 部 分, 我 们 对 搜 索 结 果 文 档 进 行 人 工 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 明 显 提 高 检 索 结 果 的 数 量 和 质 量 关 键 词 : 查 询 缩 略 ; 词 语 关 联 度 ; 评 价 方 式 中 图 分 类 号 :TP391 文 献 标 识 码 :A Reducng Long Queres Based on Words Assocaton Wepeng Chen 1, Ru Fu 1, Y Hu 2, Bng Qn 1, Tng Lu 1 (1.Research Center for Socal Computng and Informaton Retreval of Computer Scence and Technology School, Harbn Insttute of Technology, Harbn 150001;2.Mnstry of Search Platform of Tencent Inc., Shenzhen 518057) Abstract:Long queres refer to complex queres submtted by users. Current search engnes based on keywords can obtan good results. But for a long query, f all of the words are matched as keywords, often only very lmted results are returned. In ths paper, we attempt to mprove the retreval results by usng the assocaton between the words to delete the words whch offer lttle nformaton. In our experments, two aspects of evaluaton, machne-orented and user-orented, are used. In the machne-orented evaluaton, the change of hghlght rato and the result number of related documents s consdered. In the user-orented evaluaton, the retreval results are evaluated by a human udger. The expermental results show that our method can sgnfcantly mprove the quantty and qualty of search results. Key words:query Reducton; Word Assocaton; Evaluaton Methods 1 1 前 言 查 询 优 化 是 信 息 检 索 研 究 中 的 一 个 重 要 的 问 题 本 文 探 索 有 效 地 滤 除 冗 长 查 询 中 冗 余 成 份 的 方 法, 提 高 检 索 效 果 搜 索 引 擎 的 一 般 原 理 是 对 于 用 户 提 交 的 搜 索 关 键 词, 搜 索 引 擎 根 据 关 键 词 在 网 页 索 引 * 收 稿 日 期 :2013.3.13 定 稿 日 期 :2013.3.26 基 金 项 目 : 国 家 自 然 科 学 基 金 面 上 项 目 (61073126,61273321); 国 家 自 然 科 学 基 金 重 点 项 目 (61133012); 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 作 者 简 介 : 陈 炜 鹏 (1986 ), 男, 硕 士 研 究 生, 主 要 研 究 方 向 为 共 指 消 解 信 息 检 索 ; 付 瑞 吉 (1984 ), 男, 博 士 研 究 生, 主 要 研 究 方 向 为 文 本 挖 掘 自 然 语 言 处 理 ; 胡 熠 (1978 ), 男, 腾 讯 公 司 搜 索 产 品 部 研 究 员, 主 要 研 究 方 向 为 信 息 检 索 自 然 语 言 处 理 数 据 挖 掘 ; 秦 兵 (1968 ), 女, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 抽 取 信 息 检 索 等 ; 刘 挺 (1972 ), 男, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 检 索 社 会 计 算 等

库 中 进 行 检 索, 最 后 以 一 定 的 排 序 算 法 输 出 相 关 的 文 档 显 然, 用 户 输 入 的 查 询 包 含 的 关 键 词 越 多, 检 索 的 难 度 越 大 在 查 询 中, 用 户 常 常 在 添 加 很 多 对 于 检 索 关 键 词 的 补 充 和 修 饰 成 份, 而 这 些 成 份 对 检 索 效 果 的 提 高 并 没 有 什 么 帮 助, 反 而 增 加 了 搜 索 引 擎 的 检 索 难 度 事 实 上, 对 于 用 户 提 交 给 搜 索 引 擎 的 查 询, 都 是 用 户 对 于 希 望 获 得 的 内 容 的 限 定, 因 此 我 们 可 以 理 解 为 对 于 用 户 查 询 的 任 何 改 动, 在 某 种 程 度 上 都 已 经 改 变 了 用 户 的 原 意 但 我 们 可 以 删 除 查 询 中 给 搜 索 引 擎 提 供 的 信 息 量 很 小 的 词, 尽 可 能 小 地 更 改 用 户 查 询 意 图, 同 时 改 善 检 索 结 果 例 如 东 海 最 新 军 事 新 闻 中 的 最 新 就 是 这 种 小 信 息 量 的 词 而 且 有 的 检 索 关 键 词 的 语 义 可 能 已 经 隐 含 在 查 询 中 其 他 关 键 词 中 了, 对 于 这 类 零 额 外 信 息 的 关 键 词, 我 们 也 可 以 予 以 删 除 例 如 查 询 广 东 广 州 市 气 候 特 点 中 的 广 东 已 经 蕴 含 在 广 州 市 的 信 息 之 中 了 本 文 提 出 了 一 种 基 于 关 键 词 之 间 搭 配 紧 密 度 的 缩 略 方 法, 我 们 首 先 分 析 查 询 关 键 词 之 间 的 依 存 句 法 关 系, 然 后 结 合 关 键 词 之 间 的 搭 配 紧 密 度, 确 定 冗 余 关 键 词, 予 以 删 除 同 时, 我 们 还 将 缩 略 看 成 是 一 个 子 查 询 选 择 的 过 程, 对 于 原 查 询 的 任 去 一 词 组 合, 选 择 与 原 查 询 最 接 近 的 缩 略 为 了 评 价 结 果 的 有 效 性, 我 们 从 面 向 机 器 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 结 果 文 档 召 回 数 量 的 帮 助 ; 从 面 向 用 户 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 质 量 的 帮 助 实 验 结 果 表 明, 我 们 的 方 法 能 够 提 高 检 索 结 果 的 数 量 和 检 索 质 量 2 相 关 研 究 查 询 缩 略 是 查 询 优 化 中 一 项 重 要 的 方 式, 引 起 了 很 多 研 究 者 的 关 注 国 外 的 学 者 [1] [2] Bendersky 等 人 和 Kumaran 等 人 在 TREC 语 料 上 的 实 验 结 果 表 明, 查 询 缩 略 能 够 提 高 检 [3] 索 的 效 果 词 冗 余 和 区 分 查 询 中 补 充 成 份 和 主 要 成 份 的 困 难 [4], 导 致 搜 索 引 擎 不 能 正 确 地 理 解 用 户 提 交 的 自 然 语 言 查 询 的 意 图 [3] 从 关 键 词 发 现 的 角 度,Allan 等 人 利 用 语 言 和 统 计 的 方 法 发 现 查 询 中 的 核 心 概 念 [1] Bendersky 等 人 利 用 adaboost 分 类 器 给 查 询 中 的 词 赋 权, 从 而 确 定 词 的 重 要 性 从 排 序 的 [4] 角 度,Lease 等 人 提 出 利 用 排 序 模 型, 对 查 询 关 键 词 进 行 排 序, 从 而 确 定 词 的 重 要 性 从 [5] 子 查 询 排 序 的 角 度,Jones 等 人 利 用 点 互 信 息 构 建 最 大 生 成 树, 获 得 子 查 询 集 合, 并 且 利 用 用 户 的 点 击 信 息, 从 中 确 定 最 佳 的 子 查 询, 证 实 子 查 询 确 实 能 够 提 高 检 索 的 效 果 [6] Balasubramanan 等 人 选 取 了 一 些 有 效 的 特 征, 包 括 文 档 特 征 和 检 索 分 值 特 征 等, 用 于 三 种 学 习 方 法 对 查 询 进 行 缩 略 以 上 的 方 法 都 是 基 于 语 言 和 统 计 的 一 些 信 息, 而 不 能 很 好 地 融 合 检 索 词 之 间 的 关 联 性, 从 而 确 定 词 的 相 对 重 要 性 [7] [4] 验 证 查 询 缩 略 的 效 果, 也 是 一 个 重 要 的 问 题 Bendersky 等 人 和 Lease 等 人 研 究 都 是 基 于 TREC 语 料, 他 们 分 别 将 缩 略 前 后 的 查 询 在 TREC 语 料 中 检 索, 从 检 索 的 结 果 集 来 判 断 查 询 缩 略 的 有 效 性 但 是, 基 于 特 定 语 料 集 上 面 优 化 的 结 果, 并 不 能 完 全 反 映 在 实 际 [8] [9] 搜 索 引 擎 中 的 效 果 所 以 Samuel 等 人 和 Guo 等 人 利 用 搜 索 引 擎 的 结 果, 人 工 标 注 结 果 文 档, 确 定 优 化 的 效 果 以 上 方 法 代 价 比 较 大 在 本 文 中 我 们 尝 试 从 面 向 机 器 和 面 向 用 户 两 个 角 度 来 评 价 查 询 缩 略 的 结 果 3 基 于 词 语 关 联 度 的 查 询 缩 略 方 法 基 于 词 语 关 联 度 的 查 询 缩 略, 从 两 个 方 面 来 解 决 查 询 缩 略 的 问 题 :1) 基 于 依 存 搭 配 的 查 询 缩 略 根 据 依 存 链 两 端 词 的 紧 密 度, 发 现 冗 余 词 ;2) 基 于 词 语 关 联 度 的 子 查 询 选 择 比 较 子 查 询 与 原 始 查 询 的 紧 密 度, 发 现 与 原 查 询 紧 密 度 最 大 的 子 查 询 3.1 基 于 依 存 搭 配 的 查 询 缩 略 对 于 一 个 冗 长 查 询, 我 们 考 察 的 是 关 键 词 之 间 的 蕴 含 关 联, 即 可 能 存 在 某 个 词 的 语 义

已 经 蕴 含 在 其 他 的 词 之 中, 那 么 对 于 这 一 类 词, 予 以 删 除 在 保 证 用 户 的 查 询 意 图 没 有 偏 移 的 前 提 下, 召 回 更 多 的 检 索 结 果, 减 少 零 信 息 词 对 查 询 结 果 的 影 响 我 们 认 为 查 询 词 之 间 的 关 联 关 系 体 现 在 句 法 的 依 存 关 系 之 中 对 于 存 在 依 存 句 法 关 联 的 词, 它 们 存 在 语 义 的 关 联 我 们 需 要 发 现 它 们 之 间 的 语 义 蕴 含 作 为 缩 略 的 依 据, 即 某 个 修 饰 成 份 经 常 只 充 当 另 一 成 份 的 补 充 基 于 搭 配 的 缩 略 主 要 的 方 法 是 利 用 依 存 分 析 的 结 果, 并 且 结 合 词 性 和 命 名 实 体 信 息, 发 现 一 些 频 繁 模 式, 滤 除 查 询 中 的 一 些 冗 余 的 修 饰 关 系 我 们 主 要 考 察 ATT 关 系 ( 定 中 关 系 ) VOB 关 系 ( 动 宾 关 系 ) 和 ADV 关 系 ( 状 中 关 系 ) 例 如 图 1 所 示 的 例 子 中 的 电 视 和 连 续 剧 存 在 ATT 关 系, 结 合 词 性 和 搭 配 关 系, 我 们 删 除 电 视 图 1 依 存 句 法 分 析 例 子 Fg.1 An Example of Dependency Parsng 考 察 两 个 词 之 间 的 搭 配 紧 密 度, 一 共 有 三 种 衡 量 的 方 法 分 别 是 : 1) 点 互 信 息 对 于 搭 配 的 发 现, 一 种 以 信 息 论 为 根 据 的 方 法 是 互 信 息 对 于 我 们 的 情 况, 两 个 具 体 词 同 现 的 点 互 信 息 如 下 : x, a N PMI ( x, (1) ( a b) ( a c) 其 中,N 代 表 句 子 的 数 目,a 代 表 词 w 和 词 w 共 同 出 现 的 句 子 数,b 代 表 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 代 表 词 w 不 出 现, 词 w 出 现 的 句 子 数 互 信 息 是 二 元 组 x, y ) 的 概 率 和 两 单 独 词 的 概 率 乘 积 y ) 的 似 然 对 数 比 考 虑 两 种 极 端 的 情 况 : 两 个 词 的 出 现 是 完 全 互 相 依 赖 的 ( 它 们 是 一 起 出 现 ) 或 完 全 独 立 的 ( 一 个 词 出 现 不 能 给 出 关 于 其 他 词 出 现 的 任 何 信 息 ) 对 于 完 全 的 互 相 依 赖, 有 : x 1 I( x, (2) 也 就 是 说, 在 完 全 依 赖 的 二 元 组 中, 当 它 们 出 现 的 次 数 减 少 时, 它 们 的 互 信 息 是 增 加 的 对 于 完 全 独 立 的 情 况, 有 : x I( x, 1 0 (3) 互 信 息 是 衡 量 独 立 性 的 一 种 很 好 的 方 法, 接 近 0 的 互 信 息 表 明 了 概 率 的 独 立 性 2) 最 大 似 然 比 似 然 比 是 假 设 检 验 的 另 一 种 方 法 我 们 考 察 用 下 面 两 个 可 选 的 假 设 来 解 释 二 元 组 (x, 的 出 现 频 率 假 设 : 假 设 1: x p x (4) 假 设 2: x p1 p2 x (5)

假 设 1 是 独 立 性 假 设 的 形 式 (x 的 出 现 和 前 面 y 的 出 现 是 独 立 的 ), 假 设 2 是 非 独 立 性 假 设 的 形 式 化, 对 于 我 们 感 兴 趣 的 搭 配, 是 一 个 很 好 的 证 据 该 方 法 的 形 式 化 描 述 如 下 : a N b N c N d N 2log LLR( x, alog blog clog d log ( a b)( a c) ( a b)( b d) ( c d)( a c) ( c d)( b d) (6) 其 中,N 代 表 句 子 的 数 目,a 表 示 词 w 和 词 w 共 同 出 现 的 句 子 数,b 表 示 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 表 示 词 w 不 出 现, 词 w 出 现 的 句 子 数 d 表 示 两 个 词 都 不 出 现 的 句 子 数 2 3) 卡 方 分 布 卡 方 分 布 又 称 统 计, 可 以 用 于 度 量 词 与 词 独 立 程 度, 卡 方 值 越 大, 独 立 性 越 小, 相 关 性 越 大 令 N 表 示 训 练 语 料 中 的 句 子 总 数,c 为 某 一 个 词,t 表 示 与 其 搭 配 的 词 条,A 表 示 包 含 c 词 条 且 包 含 t 词 条 的 句 子 频 数,B 表 示 不 包 含 c 词 条 但 是 包 含 t 词 条 的 句 子 频 数,C 表 示 包 含 c 词 条 但 是 不 包 含 t 词 条 的 句 子 频 数,D 是 既 不 包 含 c 词 条 也 不 包 含 t 词 条 的 句 子 频 数, 则 t 对 于 c 的 卡 方 值 由 下 式 计 算 : 2 2 N ( AD BC ) ( t, c) (7) ( A C )( B D )( A B )( C D ) 通 过 观 察, 我 们 对 ATT VOB 和 ADV 这 三 种 关 系 制 定 如 下 启 发 式 规 则 : ATT 关 系 首 先 我 们 找 出 句 子 中 存 在 ATT 关 系 的 词 对 (a,b), b 依 存 于 a, 即 b 的 父 亲 是 a, 然 后 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_att_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 在 这 种 情 况 下, 我 们 利 用 词 频 比 例 关 系 freq(b)/freq(a) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_att_freq, 删 除 词 b, 否 则 删 除 词 a VOB 关 系 首 先 我 们 找 出 句 子 中 存 在 VOB 关 系 的 节 点 对 (a,b), 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_vob_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 然 后, 我 们 利 用 词 频 比 例 关 系 freq(a)/freq(b) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_vob_freq, 删 除 词 b, 否 则 删 除 词 a ADV 关 系 首 先 我 们 找 出 句 子 中 存 在 ADV 关 系 的 节 点 对 (a,b), b 的 父 节 点 是 a, 如 果 (a,b) 的 搭 配 紧 密 度 超 过 阈 值 T_adv_assocaton, 且 词 a 不 是 不 没 没 有 未 非 莫 未 必 等 否 定 副 词 时, 则 将 其 删 除 值 得 注 意 的 是, 每 个 规 则 使 用 的 阈 值 都 是 不 同 的 通 过 对 关 键 词 依 存 搭 配 的 统 计, 我 们 发 现 并 删 除 语 义 蕴 含 在 其 他 词 中 的 关 键 词, 达 到 查 询 缩 略 的 目 的 3.2 基 于 词 语 关 联 度 的 子 查 询 选 择 查 询 缩 略 的 本 质 在 于 从 查 询 中 发 现 相 对 不 重 要 的 词 对 于 一 个 词, 如 果 这 个 词 和 查 询 中 的 其 他 词 之 间 的 紧 密 度 非 常 小, 可 以 认 为 这 个 词 是 一 个 相 对 不 重 要 的 词 基 于 此, 可 以 将 查 询 缩 略 看 成 是 原 始 查 询 子 查 询 选 择 的 问 题, 即 对 于 原 始 查 询 可 以 扩 展 出 多 个 子 查 询, 在 这 些 候 选 子 查 询 中 选 择 与 原 始 查 询 最 接 近 的 查 询 一 个 好 的 子 查 询 应 该 满 足 : 只 保 留 重 要 的 词 用 户 在 提 交 查 询 时, 出 于 语 言 通 畅 性 的 表 示, 往 往 采 用 口 语 化 表 达, 夹 杂 很 多 不 重 要 的 关 键 词, 理 想 的 搜 索 引 擎 应 该 给 这 一 类 词 赋 予 很 低 的 权 重, 但 是 在 实 际 使 用 中, 删 除 这 一 类 词 往 往 能 够 带 来 更 好 的 检 索 效 果 例 如 查 询 2010 世 界 杯 用 球 的 名 字 叫 什 么, 如 果 只 保 留 其 中 的 关 键 字 2010 世 界 杯 用 球 名 字, 检 索 效 果 更 好 基 于 上 面 的 分 析, 我 们 通 过 一 个 例 子 来 介 绍 具 体 的 方 法 :

1) 对 于 原 始 查 询 进 行 名 词 短 语 切 分, 例 如 对 于 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 生 成 绩 查 询 识 别 为 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询 2) 构 造 原 始 查 询 的 子 查 询, 即 任 去 一 词, 构 成 子 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 我 们 构 造 子 查 询 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 2007 年 曲 靖 市 中 考 考 试 成 绩 查 询 等 子 查 询 2 3) 对 于 任 一 查 询, 利 用 统 计 确 定 查 询 词 的 关 联 度 公 式 如 下 : Ch( x ; x ; x ;...; x ) Ch( x ; x ) (8) 1 2, 3 N, {1,2,3,..., N ; } 4) 对 于 任 意 查 询,Ch 最 接 近 原 始 查 询 的 子 查 询, 可 以 认 为 与 原 查 询 最 接 近, 即 是 语 义 含 义 与 原 查 询 最 接 近 的 子 查 询 5) 对 于 获 得 的 与 原 查 询 最 接 近 的 子 查 询, 如 果 与 原 查 询 之 间 的 差 别 : Ch x ; x ; x ;...; x ; x ;...; x ) / Ch( x ; x ; x ;...; x (9) ( 1 2, 3 1 1 N 1 2, 3 N ) 我 们 则 认 为 原 查 询 与 子 查 询 的 差 别 非 常 地 小, 只 要 差 别 在 我 们 容 许 的 的 范 围 内, 我 们 可 以 对 子 查 询 继 续 迭 代 上 述 的 子 查 询 选 择 过 程, 对 查 询 进 行 进 一 步 缩 略, 直 到 不 满 足 公 式 (9) 为 止 基 于 以 上 方 法, 我 们 即 可 在 不 改 变 用 户 查 询 意 图 的 条 件 下, 尽 可 能 地 对 冗 长 查 询 进 行 缩 略 优 化, 改 善 检 索 结 果 4 实 验 和 结 果 4.1 实 验 设 置 实 验 部 分, 我 们 使 用 由 腾 讯 公 司 提 供 20022 条 在 SOSO 搜 索 引 擎 中 查 询 效 果 不 佳 的 冗 长 查 询, 从 中 随 机 抽 取 用 作 开 发 和 测 试 另 外, 我 们 使 用 规 模 为 1.1G 的 搜 狗 全 网 新 闻 语 料 库 (SogouCA) 1 作 为 背 景 语 料 库, 用 来 统 计 词 语 频 率 等 信 息 4.2 评 价 方 法 为 了 验 证 基 于 词 关 联 度 的 缩 略 对 于 检 索 结 果 的 帮 助, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价, 前 者 衡 量 检 索 数 量 的 提 高, 后 者 衡 量 检 索 质 量 的 提 高, 结 合 机 器 自 动 评 价 和 人 工 评 价 来 验 证 本 文 方 法 的 有 效 性 4.2.1 面 向 机 器 的 自 动 评 价 面 向 机 器 的 自 动 评 价, 从 提 升 用 户 的 检 索 体 验 出 发, 考 察 对 于 一 个 冗 长 查 询 的 处 理, 能 否 召 回 更 多 相 关 的 结 果, 而 这 些 关 键 词 还 要 尽 量 能 够 包 含 在 检 索 的 效 果 中 因 为 冗 长 的 查 询 容 易 引 起 检 索 结 果 仅 有 寥 寥 几 条 且 没 有 正 确 结 果, 此 时 帮 助 用 户 自 动 裁 剪 查 询, 提 高 返 回 结 果 数 是 有 意 义 的 我 们 主 要 关 注 两 个 因 素 : 1) 返 回 结 果 的 绝 对 数 量 将 处 理 后 的 查 询 输 入 SOSO 中 搜 索, 返 回 的 结 果 数 比 原 始 冗 长 查 询 的 结 果 数 有 所 提 高 2)SOSO 返 回 结 果 标 红 的 比 率 ( 即 返 回 的 结 果 的 包 含 查 询 关 键 词 的 比 率 ) 1 http://www.sogou.com/labs/dl/ca.html

具 体 的 计 算 公 式 是 : n 1 l( e ) coverage (10) n l( ) 1 q 其 中 l ( e ) 指 的 是 将 查 询 输 入 SOSO 后, 第 条 ttle 中 标 红 的 关 键 词 去 重 后 的 长 度 ; l(q) 指 的 是 查 询 的 长 度 ; 我 们 考 察 搜 索 结 果 中 前 n 条 ttle 的 数 量, 在 实 验 部 分, 我 们 考 查 前 10 条 例 如 查 询 007 街 机 游 戏 图 片 返 回 的 一 条 ttle 如 图 2 所 示 其 中 标 红 的 关 键 词 为 街 机 游 戏, 对 应 的 l ( e ) 为 4, 而 l (q) 为 9, 假 如 我 们 只 考 虑 第 一 条 检 索 结 果, 则 标 红 率 为 4/9=0.44, 可 见 这 条 查 询 的 这 条 效 果 并 不 好 图 2 搜 索 结 果 标 红 率 示 例 Fg.2 An Example of Hghlght Rato of Search Results 通 过 观 察, 我 们 认 为 应 该 分 两 种 情 况 考 虑 我 们 的 评 测 方 法 首 先, 我 们 认 为 一 个 查 询 返 回 的 结 果 数 不 超 过 一 定 的 阈 值 (countthreshold) 时, 返 回 结 果 数 量 的 提 升 更 为 重 要, 若 处 理 后 的 查 询 能 让 结 果 数 得 到 提 升, 我 们 即 认 为 是 一 个 好 的 处 理 例 如 原 始 长 尾 查 询 6.13 号 临 沂 地 震, 返 回 的 结 果 只 有 127 条, 在 这 种 情 况 下, 我 们 认 为 缩 略 临 沂 地 震, 对 应 搜 索 结 果 为 847,000, 大 大 提 高 了 返 回 数, 是 一 个 好 的 处 理 其 次, 如 果 原 始 查 询 结 果 数 超 过 阈 值 (countthreshold), 那 么 对 于 搜 索 结 果 而 言, 提 升 搜 索 结 果 的 标 红 率 ( 反 映 了 结 果 的 质 量 ) 显 得 更 为 重 要, 在 这 种 情 况 下, 我 们 要 求 处 理 后 的 查 询 在 标 红 率 应 该 有 所 提 高 允 许 返 回 的 结 果 数 有 所 下 降, 但 不 能 下 降 太 多, 保 证 在 原 长 尾 查 询 结 果 数 的 80% 以 上 当 然, 结 果 数 和 标 红 率 同 时 提 高 是 最 理 想 的 4.2.2 面 向 用 户 的 人 工 评 价 面 向 用 户 的 人 工 评 价, 考 察 的 是 缩 略 后 的 查 询 能 够 提 高 检 索 结 果 的 质 量, 即 在 保 证 用 户 查 询 意 图 的 前 提 下, 召 回 更 多 高 质 量 的 检 索 答 案 我 们 比 较 缩 略 前 后 的 查 询 输 入 搜 索 引 擎 后 获 取 的 前 10 条 结 果 文 档 集, 人 工 判 断 缩 略 后 查 询 返 回 的 文 档 集 是 否 更 好 地 符 合 用 户 的 查 询 意 图 两 名 志 愿 者 参 与 人 工 评 价, 将 两 名 志 愿 者 达 成 一 致 的 结 果 作 为 正 确 答 案 4.3 实 验 结 果 实 验 时, 我 们 首 先 进 行 基 于 依 存 搭 配 的 查 询 缩 略, 然 后 串 联 地 进 行 基 于 词 语 关 联 度 的 子 查 询 选 择, 其 中 所 有 的 参 数 都 是 在 开 发 集 上 调 试 获 得 的 经 验 最 优 值 开 发 集 是 从 腾 讯 公 司 提 供 的 冗 长 查 询 集 中 随 机 选 取 并 经 过 人 工 标 注 获 得 的 300 条 查 询 我 们 从 两 个 方 面 展 开 实 验 : 一 是 探 索 不 同 的 搭 配 识 别 方 法 对 查 询 缩 略 的 影 响 ; 二 是 与 其 他 方 法 的 对 比, 验 证 方 法 的 有 效 性

4.3.1 搭 配 识 别 方 法 的 影 响 为 了 探 索 不 同 的 搭 配 紧 密 度 衡 量 方 法 对 实 验 结 果 的 影 响, 我 们 比 较 了 互 信 息, 最 大 似 然 比 和 卡 方 分 布 对 结 果 的 影 响, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度, 对 100 条 冗 长 查 询 的 缩 略 进 行 评 价, 面 向 机 器 的 结 果 如 图 3 所 示, 面 向 用 户 的 结 果 如 表 1 所 示 图 3 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 自 动 评 价 ) Fg.3 The Effect of Dfferent Measure Methods for Word Assocaton (Automatc Evaluaton) 图 3 中, 阈 值 (countthreshold) 为 搜 索 结 果 阈 值, 即 当 搜 索 结 果 数 量 小 于 countthreshold 时, 我 们 更 注 重 结 果 数 的 提 升, 当 大 于 阈 值 时, 我 们 更 注 重 检 索 质 量 ( 标 红 率 ) 的 提 升 从 实 验 结 果 的 比 较 可 以 看 出, 使 用 卡 方 分 布 作 为 衡 量 搭 配 紧 密 度 的 方 法 在 面 向 机 器 的 自 动 评 价 中, 并 没 有 表 现 出 优 势, 与 基 于 互 信 息 和 最 大 似 然 比 的 方 法 相 当 ; 但 在 面 向 用 户 人 工 评 价 中, 得 到 了 比 较 好 的 效 果 表 1 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 人 工 评 价 ) Tab.1 The Effect of Dfferent Measure Methods for Word Assocaton (Manual Evaluaton) 准 确 率 @1(%) 平 均 准 确 率 (%) 互 信 息 最 大 似 然 比 卡 方 分 布 互 信 息 最 大 似 然 比 卡 方 分 布 64.00 65.00 68.00 52.35 55.89 56.47 4.3.2 对 比 实 验 作 为 参 照, 我 们 以 利 用 大 规 模 查 询 日 志 统 计 df 为 词 权 重 的 方 法, 作 为 Baselne 当 一 个 词 的 df 小 于 某 一 阈 值 时, 则 认 为 该 词 不 重 要, 将 其 删 除 分 别 在 腾 讯 提 供 的 冗 长 查 询 上 进 行 测 试, 实 验 结 果 如 图 4 和 表 2 所 示 我 们 从 腾 讯 公 司 提 供 的 冗 长 查 询 中, 随 机 抽 取 了 1063 条 查 询 进 行 自 动 评 价, 平 均 每 条 长 尾 查 询 提 供 1.67 条 候 选 随 机 抽 取 100 条 冗 长 查 询 进 行 人 工 评 价, 比 较 缩 略 前 后 搜 索 引 擎 返 回 的 前 十 条 结 果 的 质 量 通 过 人 工 查 验 返 回 的 相 关 结 果 集, 来 确 定 是 否 缩 略 后 的 相 关 结 果 更 加 切 合 用 户 的 查 询 意 图

图 4 自 动 评 测 结 果 Fg.4 The Results of Automatc Evaluaton 从 对 照 试 验 可 以 看 出, 不 同 的 搜 索 结 果 阈 值 表 现 出 的 结 果 波 动 并 不 是 很 明 显, 但 是 在 10000 左 右, 结 果 比 较 好, 这 可 以 看 出 缩 略 对 于 提 高 检 索 结 果 的 数 量 比 较 明 显 综 上, 基 于 词 关 联 度 的 缩 略 能 够 返 回 更 多 标 红 率 高 的 检 索 结 果, 提 升 用 户 的 检 索 体 验 在 保 证 检 索 数 量 的 情 况 下, 我 们 的 方 法 能 够 明 显 提 高 冗 长 查 询 的 检 索 质 量 表 2 人 工 评 测 结 果 Tab.2 The Results of Manual Evaluaton 5 结 论 准 确 率 @1(%) 平 均 准 确 率 (%) Baselne Our Method Baselne Our Method 52.00 68.00 44.12 56.47 本 文 提 出 了 一 种 基 于 词 语 关 联 的 查 询 缩 略 的 方 法 结 合 依 存 句 法 和 搭 配 识 别, 发 现 查 询 中 的 语 义 蕴 含 关 系, 删 除 冗 余 词 ; 基 于 词 语 关 联 的 子 查 询 选 择, 发 现 信 息 量 小 的 词, 将 其 删 除 为 了 验 证 结 果 的 有 效 性, 我 们 提 出 了 面 向 机 器 的 自 动 评 价 方 法 和 面 向 用 户 的 人 工 评 价 方 法, 从 返 回 结 果 的 数 量 和 质 量 两 个 角 度, 对 缩 略 的 结 果 进 行 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 有 效 地 剔 除 查 询 中 冗 余 的 成 份, 提 高 检 索 的 数 量 和 质 量 在 下 一 步 的 工 作 中, 我 们 将 探 索 新 方 法 发 现 更 多 依 存 搭 配 的 频 繁 模 式, 进 一 步 提 高 查 询 缩 略 的 效 果 致 谢 感 谢 国 家 自 然 科 学 基 金 项 目 (61073126,61273321,61133012) 和 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 对 本 课 题 的 支 持 感 谢 腾 讯 公 司 为 本 课 题 提 供 资 金 和 数 据 支 持 参 考 文 [1] M. Bendersky and W. B. Croft. Dscoverng key concepts n verbose queres. In Proceedngs of SIGIR 08, 2008.pages 491-498,. [2] G. Kumaran and J. Allan. A case for shorter queres, and helpng user create them. In Proceedngs of 献

HLT.2007pages 220-227. [3] J. Allan, J. Callan, W. B. Croft, L. Ballesteros, J. Broglo, J. Xu, and H. Shu. INQUERY at TREC-5. In Proceedngs of the Ffth Text Retreval Conference TREC-5. 1997. pages 119-132. [4] M. Lease, J. Allan, and W. B. Croft. Regresson Rank: Learnng to Meet the Opportunty of Descrptve Queres. In Proc. of ECIR 2009. 2009. pages 90-101. [5] R. Jones and D. C. Fan. Query word deleton predcton. In Proceedngs of 25th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. 2003. pages 435-436. [6] N. Balasubramanan, G. Kumaran and V. R. Carvalho. Explorng reductons for long web queres. In Proceedngs of the 33rd nternatonal ACM SIGIR conference on Research and development n nformaton retreval. 2010.pages 571-578. [7] G. Kumaran and J. Allan. Adaptng nformaton retreval systems to user queres. Informaton Processng and Management. 2008.pages 1838-1862. [8] S. Huston and W. B. Croft. Evaluatng verbose query processng technques. In Proceedngs of the 33rdnternatonal ACM SIGIR conference on Research and development n nformaton retreval, SIGIR '10, pages 291-298, New York, NY, USA, 2010. ACM. [9] J. Guo, G. Xu, H. L, and X. Cheng. A unfed and dscrmnatve model for query refnement. In Proceedngs of SIGIR 08, pages 379 386, New York, NY, USA, 2008.