基于词语关联度的查询缩略*

Similar documents
2005硕士论文模版


Microsoft Word - chnInfoPaper6

标题

《哈佛考考你·智力》

62 互 動 性 裝 置 藝 術 對 幼 保 系 學 生 壓 力 情 緒 療 癒 影 響 之 案 例 探 究 62 壹 緒 論 一 研 究 背 景 與 動 機 根 據 財 團 法 人 董 氏 基 金 會 於 2008 年 1 對 大 學 生 主 觀 壓 力 來 源 與 憂 鬱 情 緒 相 關 性 研

Microsoft Word - 5 魏志生.doc

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

untitled

2011-论文选集-2.cdr

Microsoft Word - A _ doc

26 头 孢 他 啶 注 射 剂 27 头 孢 他 美 酯 口 服 常 释 剂 型 28 头 孢 吡 肟 注 射 剂 29 头 孢 硫 脒 注 射 剂 30 头 孢 唑 肟 注 射 剂 31 头 孢 替 安 注 射 剂 32 头 孢 哌 酮 注 射 剂 33 头 孢 哌 酮 舒 巴 坦 注 射 剂

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

34 7 S R θ Z θ Z R A B C D PTP θ t 0 = θ 0 θ t 0 = 0 θ t 0 = 0 θ t = θ θ t = 0 θ t = 0 θ t V max θ t a max 3 θ t A θ t t 0 t / V max a max A = 3 4 S S

zt

Microsoft Word - 专论综述1.doc

Microsoft Word - T 田新广.doc

SVM [6] PCA+SVM 79.75% 9 FERE FERE. PCA LDA Adaboost SVM 5 1 SVM Moghaddam [6] M (x,y ) x R N y x y {0,1} M f ( x) = y α k( x, x ) + b x k f(x) = 1 x

Microsoft Word - A _ doc

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Microsoft Word - 建構企業訓練之課程發展模式.doc


4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

zt

Ashdgsahgdh

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

從實驗教材到官方課程──小學社會科板橋模式教材與改編本教科書的發展

I ln I V = α + ηln + εt, 1 V t, t, t, 1 t, 1 I V η η >0 t η η <0 η =0 22 A_,B_,C0_,C1_,C2_,C3_,C4_,C5_,C6_,C7_,C8_,C99_,D_,E_,F_,G_,H_,I_,J_,K_,L_,M_

南華大學數位論文

24 26,,,,,,,,, Nsho [7] Nakadokoro [8],,,, 2 (Tradtonal estmaton of mage Jacoban matrx), f(t 1 ) p(t 2 ) : f(t 1 ) = [f 1 (t 1 ), f 2 (t 1 ),, f m (t

Microsoft Word - 系统建设1.doc

第六篇


考試學刊第10期-內文.indd

66 a T. S. Kuhn 2 b a b Thomas Kuhn disciplinary matrix examplars or shared examples incommensurability

MOTC-IOT-103-H1DB001a 臺 灣 港 務 公 司 之 監 督 與 公 司 治 理 績 效 評 估 研 究 (2/2) 著 者 : 謝 幼 屏 吳 榮 貴 朱 金 元 吳 朝 升 孫 儷 芳 王 克 尹 林 玲 煥 張 淑 滿 陳 銓 楊 世 豪 陳 秋 玲

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

南華大學數位論文

中国的知识分子与民间(社会)

T e = K 1 Φ m I 2 cosθ K 1 Φ m I cosθ 2 1 T 12 e Φ / 13 m I 4 2 Φ m Φ m 14 I 2 Φ m I 2 15 dq0 T e = K 2 ΦI a 2 16

( s y s t e m ) ( s t r e s s ) (stress model) ( s y s t e m ) [ ] [ 5 ] C o x [ 3 ] 1 [ 1, 2 ] [ 6-8 ] [ 9 ] Tw Fam Med Res 2003 Vol.1 No.1 23

096STUT DOC

高層辦公建築避難演練驗證與避難安全評估之研究

Microsoft Word - HHG 14 Page 001.doc

8 DEA min θ - ε( ^e T S - + e T S ) [ + ] GDP n X 4 j λ j + S - = θx 0 j = 1 n Y j λ j - S + = Y 0 j = 1 5 λ J 0 j = 1 n S - 0 S + 0 ^e = ( 1 1



Microsoft Word - 33-p skyd8.doc

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

~ ~

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

(Microsoft Word - 22\264\301\261\306\252\ \247\271\246\250.doc)

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

清 华 大 学

露 和 溜 的 声 母 是 l, 不 要 读 成 n 丛 的 声 母 是 c, 不 要 读 成 ch 塞 的 声 母 是 s, 不 要 读 成 sh 币 的 韵 母 是 i, 不 要 读 成 ei 甩 的 声 母 是 sh, 不 要 读 成 s 注 意 本 课 的 多 音 字 : { f 佼 佛 家

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

C doc

标题

nooog

,,,,,,, :,,,,, ;,,,,,, : N = Y pr, dn N = dy Y - dpr pr, Y, N, pr,, (1),, ( : / ) :,, : t pr = e 1980 t = 1,t 9

Microsoft Word - 专论综述1.doc

Microsoft Word - A doc

国 有 企 业 相 比, 竞 争 性 国 有 企 业 构 建 有 效 激 励 机 制 的 迫 切 性 和 重 要 性 更 为 突 出 在 竞 争 性 行 业, 国 有 企 业 的 名 号 并 不 能 给 企 业 发 展 带 来 很 多 便 利 条 件, 反 而 常 常 成 为 制 肘 因 素, 通

SWAN min TITAN Thunder Identification Tracking Analysis SWAN TITAN and Nowcasting 19 TREC Tracking Radar Echo by Correlaction T


KEY WORDS Eastern Zhou dynasty Hairstyles Accessories ABSTRACT Hair styles and accessories are important parts of the research of clo

: 3 ( ) :, 1990 UNDP, Spearman HDI,,, ( ), 1990,,,,,, : 1990 (UNDP), ( Human Development Index, HDI), HDI :, ;, ;, GDP(PPP ) (UNDP, 2004) HDI 1

用户手册.cdr


2000 3,,,,,,, (Marriage Market) (Mary Ann Lamanna and Agnes Riedmann,1991) [1 ],,,,,,,, (Marriage Squeeze),,, 11112,,,, : (1),, ;,,,, (2

《米开朗琪罗传》

豐佳燕.PDF


Microsoft Word - 31空中大學校稿檔.doc


a b

A Community Guide to Environmental Health

國立中山大學學位論文典藏.PDF

标题

,, (18 ) , , % ,,; (3) ,a 100 %,b, 6 (, ),c , , , 2000 ; (4),2

Microsoft Word - 12 hhg doc


Microsoft Word - HHG 10 Page 001.doc

Microsoft Word - Rocling 2012 Yu.doc

Ps22Pdf

共 計 四 篇 九 十 二 學 年 度 : 李 汶 娟 老 師 及 洪 廣 朋 老 師 榮 獲 銘 傳 大 學 專 任 教 師 學 術 研 究 成 果 獎 勵, 共 計 三 篇 銘 傳 大 學 補 助 專 任 教 師 出 席 國 際 性 學 術 會 議 處 理 要 點 本 校 為 鼓 勵 專 任 教

试卷

14-1-人文封面

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

92

( 2011) Shirley and Walsh(2001) ( 2011; 2011; 2010) ( 2010; 2011; 2012)??? 2003 ; ( ) ( ) : ( )26.8%; 18

I

zt

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

中文篇吊

Chinese Journal of Applied Probability and Statistics Vol.25 No.4 Aug (,, ;,, ) (,, ) 应用概率统计 版权所有, Zhang (2002). λ q(t)

第 29 卷第 9 期 Vol. 29 NO. 9 重庆工商大学学报 ( 自然科学版 ) J Chongqing Technol Business Univ. Nat Sci Ed Sept X * ABAQUS 1 2

Transcription:

* 基 于 词 语 关 联 度 的 查 询 缩 略 陈 炜 鹏 1, 付 瑞 吉 1, 胡 熠 2, 秦 兵 1, 刘 挺 (1. 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院 社 会 计 算 与 信 息 检 索 研 究 中 心, 黑 龙 江 省 哈 尔 滨 市,150001; 2. 腾 讯 公 司 搜 索 平 台 部, 广 东 省 深 圳 市,518057) 摘 要 : 冗 长 查 询 指 用 户 提 交 的 句 子 成 份 复 杂 的 查 询 当 前 的 搜 索 引 擎 对 于 关 键 字 的 检 索 取 得 了 较 好 的 结 果 但 是 对 于 冗 长 的 查 询, 如 果 将 所 有 词 作 为 关 键 字 进 行 检 索, 往 往 只 能 返 回 相 当 有 限 的 结 果 在 本 文 中, 我 们 尝 试 利 用 关 键 词 之 间 的 词 语 关 联 度, 发 现 语 义 蕴 含, 删 除 信 息 量 小 的 关 键 词, 提 高 检 索 的 效 果 对 于 实 验 结 果, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价 在 面 向 机 器 的 评 价 部 分, 我 们 根 据 搜 索 引 擎 返 回 结 果 的 标 红 率 和 结 果 数 进 行 自 动 评 价 ; 在 面 向 用 户 的 评 价 部 分, 我 们 对 搜 索 结 果 文 档 进 行 人 工 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 明 显 提 高 检 索 结 果 的 数 量 和 质 量 关 键 词 : 查 询 缩 略 ; 词 语 关 联 度 ; 评 价 方 式 中 图 分 类 号 :TP391 文 献 标 识 码 :A Reducng Long Queres Based on Words Assocaton Wepeng Chen 1, Ru Fu 1, Y Hu 2, Bng Qn 1, Tng Lu 1 (1.Research Center for Socal Computng and Informaton Retreval of Computer Scence and Technology School, Harbn Insttute of Technology, Harbn 150001;2.Mnstry of Search Platform of Tencent Inc., Shenzhen 518057) Abstract:Long queres refer to complex queres submtted by users. Current search engnes based on keywords can obtan good results. But for a long query, f all of the words are matched as keywords, often only very lmted results are returned. In ths paper, we attempt to mprove the retreval results by usng the assocaton between the words to delete the words whch offer lttle nformaton. In our experments, two aspects of evaluaton, machne-orented and user-orented, are used. In the machne-orented evaluaton, the change of hghlght rato and the result number of related documents s consdered. In the user-orented evaluaton, the retreval results are evaluated by a human udger. The expermental results show that our method can sgnfcantly mprove the quantty and qualty of search results. Key words:query Reducton; Word Assocaton; Evaluaton Methods 1 1 前 言 查 询 优 化 是 信 息 检 索 研 究 中 的 一 个 重 要 的 问 题 本 文 探 索 有 效 地 滤 除 冗 长 查 询 中 冗 余 成 份 的 方 法, 提 高 检 索 效 果 搜 索 引 擎 的 一 般 原 理 是 对 于 用 户 提 交 的 搜 索 关 键 词, 搜 索 引 擎 根 据 关 键 词 在 网 页 索 引 * 收 稿 日 期 :2013.3.13 定 稿 日 期 :2013.3.26 基 金 项 目 : 国 家 自 然 科 学 基 金 面 上 项 目 (61073126,61273321); 国 家 自 然 科 学 基 金 重 点 项 目 (61133012); 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 作 者 简 介 : 陈 炜 鹏 (1986 ), 男, 硕 士 研 究 生, 主 要 研 究 方 向 为 共 指 消 解 信 息 检 索 ; 付 瑞 吉 (1984 ), 男, 博 士 研 究 生, 主 要 研 究 方 向 为 文 本 挖 掘 自 然 语 言 处 理 ; 胡 熠 (1978 ), 男, 腾 讯 公 司 搜 索 产 品 部 研 究 员, 主 要 研 究 方 向 为 信 息 检 索 自 然 语 言 处 理 数 据 挖 掘 ; 秦 兵 (1968 ), 女, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 抽 取 信 息 检 索 等 ; 刘 挺 (1972 ), 男, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 检 索 社 会 计 算 等

库 中 进 行 检 索, 最 后 以 一 定 的 排 序 算 法 输 出 相 关 的 文 档 显 然, 用 户 输 入 的 查 询 包 含 的 关 键 词 越 多, 检 索 的 难 度 越 大 在 查 询 中, 用 户 常 常 在 添 加 很 多 对 于 检 索 关 键 词 的 补 充 和 修 饰 成 份, 而 这 些 成 份 对 检 索 效 果 的 提 高 并 没 有 什 么 帮 助, 反 而 增 加 了 搜 索 引 擎 的 检 索 难 度 事 实 上, 对 于 用 户 提 交 给 搜 索 引 擎 的 查 询, 都 是 用 户 对 于 希 望 获 得 的 内 容 的 限 定, 因 此 我 们 可 以 理 解 为 对 于 用 户 查 询 的 任 何 改 动, 在 某 种 程 度 上 都 已 经 改 变 了 用 户 的 原 意 但 我 们 可 以 删 除 查 询 中 给 搜 索 引 擎 提 供 的 信 息 量 很 小 的 词, 尽 可 能 小 地 更 改 用 户 查 询 意 图, 同 时 改 善 检 索 结 果 例 如 东 海 最 新 军 事 新 闻 中 的 最 新 就 是 这 种 小 信 息 量 的 词 而 且 有 的 检 索 关 键 词 的 语 义 可 能 已 经 隐 含 在 查 询 中 其 他 关 键 词 中 了, 对 于 这 类 零 额 外 信 息 的 关 键 词, 我 们 也 可 以 予 以 删 除 例 如 查 询 广 东 广 州 市 气 候 特 点 中 的 广 东 已 经 蕴 含 在 广 州 市 的 信 息 之 中 了 本 文 提 出 了 一 种 基 于 关 键 词 之 间 搭 配 紧 密 度 的 缩 略 方 法, 我 们 首 先 分 析 查 询 关 键 词 之 间 的 依 存 句 法 关 系, 然 后 结 合 关 键 词 之 间 的 搭 配 紧 密 度, 确 定 冗 余 关 键 词, 予 以 删 除 同 时, 我 们 还 将 缩 略 看 成 是 一 个 子 查 询 选 择 的 过 程, 对 于 原 查 询 的 任 去 一 词 组 合, 选 择 与 原 查 询 最 接 近 的 缩 略 为 了 评 价 结 果 的 有 效 性, 我 们 从 面 向 机 器 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 结 果 文 档 召 回 数 量 的 帮 助 ; 从 面 向 用 户 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 质 量 的 帮 助 实 验 结 果 表 明, 我 们 的 方 法 能 够 提 高 检 索 结 果 的 数 量 和 检 索 质 量 2 相 关 研 究 查 询 缩 略 是 查 询 优 化 中 一 项 重 要 的 方 式, 引 起 了 很 多 研 究 者 的 关 注 国 外 的 学 者 [1] [2] Bendersky 等 人 和 Kumaran 等 人 在 TREC 语 料 上 的 实 验 结 果 表 明, 查 询 缩 略 能 够 提 高 检 [3] 索 的 效 果 词 冗 余 和 区 分 查 询 中 补 充 成 份 和 主 要 成 份 的 困 难 [4], 导 致 搜 索 引 擎 不 能 正 确 地 理 解 用 户 提 交 的 自 然 语 言 查 询 的 意 图 [3] 从 关 键 词 发 现 的 角 度,Allan 等 人 利 用 语 言 和 统 计 的 方 法 发 现 查 询 中 的 核 心 概 念 [1] Bendersky 等 人 利 用 adaboost 分 类 器 给 查 询 中 的 词 赋 权, 从 而 确 定 词 的 重 要 性 从 排 序 的 [4] 角 度,Lease 等 人 提 出 利 用 排 序 模 型, 对 查 询 关 键 词 进 行 排 序, 从 而 确 定 词 的 重 要 性 从 [5] 子 查 询 排 序 的 角 度,Jones 等 人 利 用 点 互 信 息 构 建 最 大 生 成 树, 获 得 子 查 询 集 合, 并 且 利 用 用 户 的 点 击 信 息, 从 中 确 定 最 佳 的 子 查 询, 证 实 子 查 询 确 实 能 够 提 高 检 索 的 效 果 [6] Balasubramanan 等 人 选 取 了 一 些 有 效 的 特 征, 包 括 文 档 特 征 和 检 索 分 值 特 征 等, 用 于 三 种 学 习 方 法 对 查 询 进 行 缩 略 以 上 的 方 法 都 是 基 于 语 言 和 统 计 的 一 些 信 息, 而 不 能 很 好 地 融 合 检 索 词 之 间 的 关 联 性, 从 而 确 定 词 的 相 对 重 要 性 [7] [4] 验 证 查 询 缩 略 的 效 果, 也 是 一 个 重 要 的 问 题 Bendersky 等 人 和 Lease 等 人 研 究 都 是 基 于 TREC 语 料, 他 们 分 别 将 缩 略 前 后 的 查 询 在 TREC 语 料 中 检 索, 从 检 索 的 结 果 集 来 判 断 查 询 缩 略 的 有 效 性 但 是, 基 于 特 定 语 料 集 上 面 优 化 的 结 果, 并 不 能 完 全 反 映 在 实 际 [8] [9] 搜 索 引 擎 中 的 效 果 所 以 Samuel 等 人 和 Guo 等 人 利 用 搜 索 引 擎 的 结 果, 人 工 标 注 结 果 文 档, 确 定 优 化 的 效 果 以 上 方 法 代 价 比 较 大 在 本 文 中 我 们 尝 试 从 面 向 机 器 和 面 向 用 户 两 个 角 度 来 评 价 查 询 缩 略 的 结 果 3 基 于 词 语 关 联 度 的 查 询 缩 略 方 法 基 于 词 语 关 联 度 的 查 询 缩 略, 从 两 个 方 面 来 解 决 查 询 缩 略 的 问 题 :1) 基 于 依 存 搭 配 的 查 询 缩 略 根 据 依 存 链 两 端 词 的 紧 密 度, 发 现 冗 余 词 ;2) 基 于 词 语 关 联 度 的 子 查 询 选 择 比 较 子 查 询 与 原 始 查 询 的 紧 密 度, 发 现 与 原 查 询 紧 密 度 最 大 的 子 查 询 3.1 基 于 依 存 搭 配 的 查 询 缩 略 对 于 一 个 冗 长 查 询, 我 们 考 察 的 是 关 键 词 之 间 的 蕴 含 关 联, 即 可 能 存 在 某 个 词 的 语 义

已 经 蕴 含 在 其 他 的 词 之 中, 那 么 对 于 这 一 类 词, 予 以 删 除 在 保 证 用 户 的 查 询 意 图 没 有 偏 移 的 前 提 下, 召 回 更 多 的 检 索 结 果, 减 少 零 信 息 词 对 查 询 结 果 的 影 响 我 们 认 为 查 询 词 之 间 的 关 联 关 系 体 现 在 句 法 的 依 存 关 系 之 中 对 于 存 在 依 存 句 法 关 联 的 词, 它 们 存 在 语 义 的 关 联 我 们 需 要 发 现 它 们 之 间 的 语 义 蕴 含 作 为 缩 略 的 依 据, 即 某 个 修 饰 成 份 经 常 只 充 当 另 一 成 份 的 补 充 基 于 搭 配 的 缩 略 主 要 的 方 法 是 利 用 依 存 分 析 的 结 果, 并 且 结 合 词 性 和 命 名 实 体 信 息, 发 现 一 些 频 繁 模 式, 滤 除 查 询 中 的 一 些 冗 余 的 修 饰 关 系 我 们 主 要 考 察 ATT 关 系 ( 定 中 关 系 ) VOB 关 系 ( 动 宾 关 系 ) 和 ADV 关 系 ( 状 中 关 系 ) 例 如 图 1 所 示 的 例 子 中 的 电 视 和 连 续 剧 存 在 ATT 关 系, 结 合 词 性 和 搭 配 关 系, 我 们 删 除 电 视 图 1 依 存 句 法 分 析 例 子 Fg.1 An Example of Dependency Parsng 考 察 两 个 词 之 间 的 搭 配 紧 密 度, 一 共 有 三 种 衡 量 的 方 法 分 别 是 : 1) 点 互 信 息 对 于 搭 配 的 发 现, 一 种 以 信 息 论 为 根 据 的 方 法 是 互 信 息 对 于 我 们 的 情 况, 两 个 具 体 词 同 现 的 点 互 信 息 如 下 : x, a N PMI ( x, (1) ( a b) ( a c) 其 中,N 代 表 句 子 的 数 目,a 代 表 词 w 和 词 w 共 同 出 现 的 句 子 数,b 代 表 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 代 表 词 w 不 出 现, 词 w 出 现 的 句 子 数 互 信 息 是 二 元 组 x, y ) 的 概 率 和 两 单 独 词 的 概 率 乘 积 y ) 的 似 然 对 数 比 考 虑 两 种 极 端 的 情 况 : 两 个 词 的 出 现 是 完 全 互 相 依 赖 的 ( 它 们 是 一 起 出 现 ) 或 完 全 独 立 的 ( 一 个 词 出 现 不 能 给 出 关 于 其 他 词 出 现 的 任 何 信 息 ) 对 于 完 全 的 互 相 依 赖, 有 : x 1 I( x, (2) 也 就 是 说, 在 完 全 依 赖 的 二 元 组 中, 当 它 们 出 现 的 次 数 减 少 时, 它 们 的 互 信 息 是 增 加 的 对 于 完 全 独 立 的 情 况, 有 : x I( x, 1 0 (3) 互 信 息 是 衡 量 独 立 性 的 一 种 很 好 的 方 法, 接 近 0 的 互 信 息 表 明 了 概 率 的 独 立 性 2) 最 大 似 然 比 似 然 比 是 假 设 检 验 的 另 一 种 方 法 我 们 考 察 用 下 面 两 个 可 选 的 假 设 来 解 释 二 元 组 (x, 的 出 现 频 率 假 设 : 假 设 1: x p x (4) 假 设 2: x p1 p2 x (5)

假 设 1 是 独 立 性 假 设 的 形 式 (x 的 出 现 和 前 面 y 的 出 现 是 独 立 的 ), 假 设 2 是 非 独 立 性 假 设 的 形 式 化, 对 于 我 们 感 兴 趣 的 搭 配, 是 一 个 很 好 的 证 据 该 方 法 的 形 式 化 描 述 如 下 : a N b N c N d N 2log LLR( x, alog blog clog d log ( a b)( a c) ( a b)( b d) ( c d)( a c) ( c d)( b d) (6) 其 中,N 代 表 句 子 的 数 目,a 表 示 词 w 和 词 w 共 同 出 现 的 句 子 数,b 表 示 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 表 示 词 w 不 出 现, 词 w 出 现 的 句 子 数 d 表 示 两 个 词 都 不 出 现 的 句 子 数 2 3) 卡 方 分 布 卡 方 分 布 又 称 统 计, 可 以 用 于 度 量 词 与 词 独 立 程 度, 卡 方 值 越 大, 独 立 性 越 小, 相 关 性 越 大 令 N 表 示 训 练 语 料 中 的 句 子 总 数,c 为 某 一 个 词,t 表 示 与 其 搭 配 的 词 条,A 表 示 包 含 c 词 条 且 包 含 t 词 条 的 句 子 频 数,B 表 示 不 包 含 c 词 条 但 是 包 含 t 词 条 的 句 子 频 数,C 表 示 包 含 c 词 条 但 是 不 包 含 t 词 条 的 句 子 频 数,D 是 既 不 包 含 c 词 条 也 不 包 含 t 词 条 的 句 子 频 数, 则 t 对 于 c 的 卡 方 值 由 下 式 计 算 : 2 2 N ( AD BC ) ( t, c) (7) ( A C )( B D )( A B )( C D ) 通 过 观 察, 我 们 对 ATT VOB 和 ADV 这 三 种 关 系 制 定 如 下 启 发 式 规 则 : ATT 关 系 首 先 我 们 找 出 句 子 中 存 在 ATT 关 系 的 词 对 (a,b), b 依 存 于 a, 即 b 的 父 亲 是 a, 然 后 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_att_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 在 这 种 情 况 下, 我 们 利 用 词 频 比 例 关 系 freq(b)/freq(a) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_att_freq, 删 除 词 b, 否 则 删 除 词 a VOB 关 系 首 先 我 们 找 出 句 子 中 存 在 VOB 关 系 的 节 点 对 (a,b), 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_vob_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 然 后, 我 们 利 用 词 频 比 例 关 系 freq(a)/freq(b) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_vob_freq, 删 除 词 b, 否 则 删 除 词 a ADV 关 系 首 先 我 们 找 出 句 子 中 存 在 ADV 关 系 的 节 点 对 (a,b), b 的 父 节 点 是 a, 如 果 (a,b) 的 搭 配 紧 密 度 超 过 阈 值 T_adv_assocaton, 且 词 a 不 是 不 没 没 有 未 非 莫 未 必 等 否 定 副 词 时, 则 将 其 删 除 值 得 注 意 的 是, 每 个 规 则 使 用 的 阈 值 都 是 不 同 的 通 过 对 关 键 词 依 存 搭 配 的 统 计, 我 们 发 现 并 删 除 语 义 蕴 含 在 其 他 词 中 的 关 键 词, 达 到 查 询 缩 略 的 目 的 3.2 基 于 词 语 关 联 度 的 子 查 询 选 择 查 询 缩 略 的 本 质 在 于 从 查 询 中 发 现 相 对 不 重 要 的 词 对 于 一 个 词, 如 果 这 个 词 和 查 询 中 的 其 他 词 之 间 的 紧 密 度 非 常 小, 可 以 认 为 这 个 词 是 一 个 相 对 不 重 要 的 词 基 于 此, 可 以 将 查 询 缩 略 看 成 是 原 始 查 询 子 查 询 选 择 的 问 题, 即 对 于 原 始 查 询 可 以 扩 展 出 多 个 子 查 询, 在 这 些 候 选 子 查 询 中 选 择 与 原 始 查 询 最 接 近 的 查 询 一 个 好 的 子 查 询 应 该 满 足 : 只 保 留 重 要 的 词 用 户 在 提 交 查 询 时, 出 于 语 言 通 畅 性 的 表 示, 往 往 采 用 口 语 化 表 达, 夹 杂 很 多 不 重 要 的 关 键 词, 理 想 的 搜 索 引 擎 应 该 给 这 一 类 词 赋 予 很 低 的 权 重, 但 是 在 实 际 使 用 中, 删 除 这 一 类 词 往 往 能 够 带 来 更 好 的 检 索 效 果 例 如 查 询 2010 世 界 杯 用 球 的 名 字 叫 什 么, 如 果 只 保 留 其 中 的 关 键 字 2010 世 界 杯 用 球 名 字, 检 索 效 果 更 好 基 于 上 面 的 分 析, 我 们 通 过 一 个 例 子 来 介 绍 具 体 的 方 法 :

1) 对 于 原 始 查 询 进 行 名 词 短 语 切 分, 例 如 对 于 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 生 成 绩 查 询 识 别 为 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询 2) 构 造 原 始 查 询 的 子 查 询, 即 任 去 一 词, 构 成 子 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 我 们 构 造 子 查 询 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 2007 年 曲 靖 市 中 考 考 试 成 绩 查 询 等 子 查 询 2 3) 对 于 任 一 查 询, 利 用 统 计 确 定 查 询 词 的 关 联 度 公 式 如 下 : Ch( x ; x ; x ;...; x ) Ch( x ; x ) (8) 1 2, 3 N, {1,2,3,..., N ; } 4) 对 于 任 意 查 询,Ch 最 接 近 原 始 查 询 的 子 查 询, 可 以 认 为 与 原 查 询 最 接 近, 即 是 语 义 含 义 与 原 查 询 最 接 近 的 子 查 询 5) 对 于 获 得 的 与 原 查 询 最 接 近 的 子 查 询, 如 果 与 原 查 询 之 间 的 差 别 : Ch x ; x ; x ;...; x ; x ;...; x ) / Ch( x ; x ; x ;...; x (9) ( 1 2, 3 1 1 N 1 2, 3 N ) 我 们 则 认 为 原 查 询 与 子 查 询 的 差 别 非 常 地 小, 只 要 差 别 在 我 们 容 许 的 的 范 围 内, 我 们 可 以 对 子 查 询 继 续 迭 代 上 述 的 子 查 询 选 择 过 程, 对 查 询 进 行 进 一 步 缩 略, 直 到 不 满 足 公 式 (9) 为 止 基 于 以 上 方 法, 我 们 即 可 在 不 改 变 用 户 查 询 意 图 的 条 件 下, 尽 可 能 地 对 冗 长 查 询 进 行 缩 略 优 化, 改 善 检 索 结 果 4 实 验 和 结 果 4.1 实 验 设 置 实 验 部 分, 我 们 使 用 由 腾 讯 公 司 提 供 20022 条 在 SOSO 搜 索 引 擎 中 查 询 效 果 不 佳 的 冗 长 查 询, 从 中 随 机 抽 取 用 作 开 发 和 测 试 另 外, 我 们 使 用 规 模 为 1.1G 的 搜 狗 全 网 新 闻 语 料 库 (SogouCA) 1 作 为 背 景 语 料 库, 用 来 统 计 词 语 频 率 等 信 息 4.2 评 价 方 法 为 了 验 证 基 于 词 关 联 度 的 缩 略 对 于 检 索 结 果 的 帮 助, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价, 前 者 衡 量 检 索 数 量 的 提 高, 后 者 衡 量 检 索 质 量 的 提 高, 结 合 机 器 自 动 评 价 和 人 工 评 价 来 验 证 本 文 方 法 的 有 效 性 4.2.1 面 向 机 器 的 自 动 评 价 面 向 机 器 的 自 动 评 价, 从 提 升 用 户 的 检 索 体 验 出 发, 考 察 对 于 一 个 冗 长 查 询 的 处 理, 能 否 召 回 更 多 相 关 的 结 果, 而 这 些 关 键 词 还 要 尽 量 能 够 包 含 在 检 索 的 效 果 中 因 为 冗 长 的 查 询 容 易 引 起 检 索 结 果 仅 有 寥 寥 几 条 且 没 有 正 确 结 果, 此 时 帮 助 用 户 自 动 裁 剪 查 询, 提 高 返 回 结 果 数 是 有 意 义 的 我 们 主 要 关 注 两 个 因 素 : 1) 返 回 结 果 的 绝 对 数 量 将 处 理 后 的 查 询 输 入 SOSO 中 搜 索, 返 回 的 结 果 数 比 原 始 冗 长 查 询 的 结 果 数 有 所 提 高 2)SOSO 返 回 结 果 标 红 的 比 率 ( 即 返 回 的 结 果 的 包 含 查 询 关 键 词 的 比 率 ) 1 http://www.sogou.com/labs/dl/ca.html

具 体 的 计 算 公 式 是 : n 1 l( e ) coverage (10) n l( ) 1 q 其 中 l ( e ) 指 的 是 将 查 询 输 入 SOSO 后, 第 条 ttle 中 标 红 的 关 键 词 去 重 后 的 长 度 ; l(q) 指 的 是 查 询 的 长 度 ; 我 们 考 察 搜 索 结 果 中 前 n 条 ttle 的 数 量, 在 实 验 部 分, 我 们 考 查 前 10 条 例 如 查 询 007 街 机 游 戏 图 片 返 回 的 一 条 ttle 如 图 2 所 示 其 中 标 红 的 关 键 词 为 街 机 游 戏, 对 应 的 l ( e ) 为 4, 而 l (q) 为 9, 假 如 我 们 只 考 虑 第 一 条 检 索 结 果, 则 标 红 率 为 4/9=0.44, 可 见 这 条 查 询 的 这 条 效 果 并 不 好 图 2 搜 索 结 果 标 红 率 示 例 Fg.2 An Example of Hghlght Rato of Search Results 通 过 观 察, 我 们 认 为 应 该 分 两 种 情 况 考 虑 我 们 的 评 测 方 法 首 先, 我 们 认 为 一 个 查 询 返 回 的 结 果 数 不 超 过 一 定 的 阈 值 (countthreshold) 时, 返 回 结 果 数 量 的 提 升 更 为 重 要, 若 处 理 后 的 查 询 能 让 结 果 数 得 到 提 升, 我 们 即 认 为 是 一 个 好 的 处 理 例 如 原 始 长 尾 查 询 6.13 号 临 沂 地 震, 返 回 的 结 果 只 有 127 条, 在 这 种 情 况 下, 我 们 认 为 缩 略 临 沂 地 震, 对 应 搜 索 结 果 为 847,000, 大 大 提 高 了 返 回 数, 是 一 个 好 的 处 理 其 次, 如 果 原 始 查 询 结 果 数 超 过 阈 值 (countthreshold), 那 么 对 于 搜 索 结 果 而 言, 提 升 搜 索 结 果 的 标 红 率 ( 反 映 了 结 果 的 质 量 ) 显 得 更 为 重 要, 在 这 种 情 况 下, 我 们 要 求 处 理 后 的 查 询 在 标 红 率 应 该 有 所 提 高 允 许 返 回 的 结 果 数 有 所 下 降, 但 不 能 下 降 太 多, 保 证 在 原 长 尾 查 询 结 果 数 的 80% 以 上 当 然, 结 果 数 和 标 红 率 同 时 提 高 是 最 理 想 的 4.2.2 面 向 用 户 的 人 工 评 价 面 向 用 户 的 人 工 评 价, 考 察 的 是 缩 略 后 的 查 询 能 够 提 高 检 索 结 果 的 质 量, 即 在 保 证 用 户 查 询 意 图 的 前 提 下, 召 回 更 多 高 质 量 的 检 索 答 案 我 们 比 较 缩 略 前 后 的 查 询 输 入 搜 索 引 擎 后 获 取 的 前 10 条 结 果 文 档 集, 人 工 判 断 缩 略 后 查 询 返 回 的 文 档 集 是 否 更 好 地 符 合 用 户 的 查 询 意 图 两 名 志 愿 者 参 与 人 工 评 价, 将 两 名 志 愿 者 达 成 一 致 的 结 果 作 为 正 确 答 案 4.3 实 验 结 果 实 验 时, 我 们 首 先 进 行 基 于 依 存 搭 配 的 查 询 缩 略, 然 后 串 联 地 进 行 基 于 词 语 关 联 度 的 子 查 询 选 择, 其 中 所 有 的 参 数 都 是 在 开 发 集 上 调 试 获 得 的 经 验 最 优 值 开 发 集 是 从 腾 讯 公 司 提 供 的 冗 长 查 询 集 中 随 机 选 取 并 经 过 人 工 标 注 获 得 的 300 条 查 询 我 们 从 两 个 方 面 展 开 实 验 : 一 是 探 索 不 同 的 搭 配 识 别 方 法 对 查 询 缩 略 的 影 响 ; 二 是 与 其 他 方 法 的 对 比, 验 证 方 法 的 有 效 性

4.3.1 搭 配 识 别 方 法 的 影 响 为 了 探 索 不 同 的 搭 配 紧 密 度 衡 量 方 法 对 实 验 结 果 的 影 响, 我 们 比 较 了 互 信 息, 最 大 似 然 比 和 卡 方 分 布 对 结 果 的 影 响, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度, 对 100 条 冗 长 查 询 的 缩 略 进 行 评 价, 面 向 机 器 的 结 果 如 图 3 所 示, 面 向 用 户 的 结 果 如 表 1 所 示 图 3 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 自 动 评 价 ) Fg.3 The Effect of Dfferent Measure Methods for Word Assocaton (Automatc Evaluaton) 图 3 中, 阈 值 (countthreshold) 为 搜 索 结 果 阈 值, 即 当 搜 索 结 果 数 量 小 于 countthreshold 时, 我 们 更 注 重 结 果 数 的 提 升, 当 大 于 阈 值 时, 我 们 更 注 重 检 索 质 量 ( 标 红 率 ) 的 提 升 从 实 验 结 果 的 比 较 可 以 看 出, 使 用 卡 方 分 布 作 为 衡 量 搭 配 紧 密 度 的 方 法 在 面 向 机 器 的 自 动 评 价 中, 并 没 有 表 现 出 优 势, 与 基 于 互 信 息 和 最 大 似 然 比 的 方 法 相 当 ; 但 在 面 向 用 户 人 工 评 价 中, 得 到 了 比 较 好 的 效 果 表 1 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 人 工 评 价 ) Tab.1 The Effect of Dfferent Measure Methods for Word Assocaton (Manual Evaluaton) 准 确 率 @1(%) 平 均 准 确 率 (%) 互 信 息 最 大 似 然 比 卡 方 分 布 互 信 息 最 大 似 然 比 卡 方 分 布 64.00 65.00 68.00 52.35 55.89 56.47 4.3.2 对 比 实 验 作 为 参 照, 我 们 以 利 用 大 规 模 查 询 日 志 统 计 df 为 词 权 重 的 方 法, 作 为 Baselne 当 一 个 词 的 df 小 于 某 一 阈 值 时, 则 认 为 该 词 不 重 要, 将 其 删 除 分 别 在 腾 讯 提 供 的 冗 长 查 询 上 进 行 测 试, 实 验 结 果 如 图 4 和 表 2 所 示 我 们 从 腾 讯 公 司 提 供 的 冗 长 查 询 中, 随 机 抽 取 了 1063 条 查 询 进 行 自 动 评 价, 平 均 每 条 长 尾 查 询 提 供 1.67 条 候 选 随 机 抽 取 100 条 冗 长 查 询 进 行 人 工 评 价, 比 较 缩 略 前 后 搜 索 引 擎 返 回 的 前 十 条 结 果 的 质 量 通 过 人 工 查 验 返 回 的 相 关 结 果 集, 来 确 定 是 否 缩 略 后 的 相 关 结 果 更 加 切 合 用 户 的 查 询 意 图

图 4 自 动 评 测 结 果 Fg.4 The Results of Automatc Evaluaton 从 对 照 试 验 可 以 看 出, 不 同 的 搜 索 结 果 阈 值 表 现 出 的 结 果 波 动 并 不 是 很 明 显, 但 是 在 10000 左 右, 结 果 比 较 好, 这 可 以 看 出 缩 略 对 于 提 高 检 索 结 果 的 数 量 比 较 明 显 综 上, 基 于 词 关 联 度 的 缩 略 能 够 返 回 更 多 标 红 率 高 的 检 索 结 果, 提 升 用 户 的 检 索 体 验 在 保 证 检 索 数 量 的 情 况 下, 我 们 的 方 法 能 够 明 显 提 高 冗 长 查 询 的 检 索 质 量 表 2 人 工 评 测 结 果 Tab.2 The Results of Manual Evaluaton 5 结 论 准 确 率 @1(%) 平 均 准 确 率 (%) Baselne Our Method Baselne Our Method 52.00 68.00 44.12 56.47 本 文 提 出 了 一 种 基 于 词 语 关 联 的 查 询 缩 略 的 方 法 结 合 依 存 句 法 和 搭 配 识 别, 发 现 查 询 中 的 语 义 蕴 含 关 系, 删 除 冗 余 词 ; 基 于 词 语 关 联 的 子 查 询 选 择, 发 现 信 息 量 小 的 词, 将 其 删 除 为 了 验 证 结 果 的 有 效 性, 我 们 提 出 了 面 向 机 器 的 自 动 评 价 方 法 和 面 向 用 户 的 人 工 评 价 方 法, 从 返 回 结 果 的 数 量 和 质 量 两 个 角 度, 对 缩 略 的 结 果 进 行 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 有 效 地 剔 除 查 询 中 冗 余 的 成 份, 提 高 检 索 的 数 量 和 质 量 在 下 一 步 的 工 作 中, 我 们 将 探 索 新 方 法 发 现 更 多 依 存 搭 配 的 频 繁 模 式, 进 一 步 提 高 查 询 缩 略 的 效 果 致 谢 感 谢 国 家 自 然 科 学 基 金 项 目 (61073126,61273321,61133012) 和 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 对 本 课 题 的 支 持 感 谢 腾 讯 公 司 为 本 课 题 提 供 资 金 和 数 据 支 持 参 考 文 [1] M. Bendersky and W. B. Croft. Dscoverng key concepts n verbose queres. In Proceedngs of SIGIR 08, 2008.pages 491-498,. [2] G. Kumaran and J. Allan. A case for shorter queres, and helpng user create them. In Proceedngs of 献

HLT.2007pages 220-227. [3] J. Allan, J. Callan, W. B. Croft, L. Ballesteros, J. Broglo, J. Xu, and H. Shu. INQUERY at TREC-5. In Proceedngs of the Ffth Text Retreval Conference TREC-5. 1997. pages 119-132. [4] M. Lease, J. Allan, and W. B. Croft. Regresson Rank: Learnng to Meet the Opportunty of Descrptve Queres. In Proc. of ECIR 2009. 2009. pages 90-101. [5] R. Jones and D. C. Fan. Query word deleton predcton. In Proceedngs of 25th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. 2003. pages 435-436. [6] N. Balasubramanan, G. Kumaran and V. R. Carvalho. Explorng reductons for long web queres. In Proceedngs of the 33rd nternatonal ACM SIGIR conference on Research and development n nformaton retreval. 2010.pages 571-578. [7] G. Kumaran and J. Allan. Adaptng nformaton retreval systems to user queres. Informaton Processng and Management. 2008.pages 1838-1862. [8] S. Huston and W. B. Croft. Evaluatng verbose query processng technques. In Proceedngs of the 33rdnternatonal ACM SIGIR conference on Research and development n nformaton retreval, SIGIR '10, pages 291-298, New York, NY, USA, 2010. ACM. [9] J. Guo, G. Xu, H. L, and X. Cheng. A unfed and dscrmnatve model for query refnement. In Proceedngs of SIGIR 08, pages 379 386, New York, NY, USA, 2008.