* 基 于 词 语 关 联 度 的 查 询 缩 略 陈 炜 鹏 1, 付 瑞 吉 1, 胡 熠 2, 秦 兵 1, 刘 挺 (1. 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院 社 会 计 算 与 信 息 检 索 研 究 中 心, 黑 龙 江 省 哈 尔 滨 市,150001; 2. 腾 讯 公 司 搜 索 平 台 部, 广 东 省 深 圳 市,518057) 摘 要 : 冗 长 查 询 指 用 户 提 交 的 句 子 成 份 复 杂 的 查 询 当 前 的 搜 索 引 擎 对 于 关 键 字 的 检 索 取 得 了 较 好 的 结 果 但 是 对 于 冗 长 的 查 询, 如 果 将 所 有 词 作 为 关 键 字 进 行 检 索, 往 往 只 能 返 回 相 当 有 限 的 结 果 在 本 文 中, 我 们 尝 试 利 用 关 键 词 之 间 的 词 语 关 联 度, 发 现 语 义 蕴 含, 删 除 信 息 量 小 的 关 键 词, 提 高 检 索 的 效 果 对 于 实 验 结 果, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价 在 面 向 机 器 的 评 价 部 分, 我 们 根 据 搜 索 引 擎 返 回 结 果 的 标 红 率 和 结 果 数 进 行 自 动 评 价 ; 在 面 向 用 户 的 评 价 部 分, 我 们 对 搜 索 结 果 文 档 进 行 人 工 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 明 显 提 高 检 索 结 果 的 数 量 和 质 量 关 键 词 : 查 询 缩 略 ; 词 语 关 联 度 ; 评 价 方 式 中 图 分 类 号 :TP391 文 献 标 识 码 :A Reducng Long Queres Based on Words Assocaton Wepeng Chen 1, Ru Fu 1, Y Hu 2, Bng Qn 1, Tng Lu 1 (1.Research Center for Socal Computng and Informaton Retreval of Computer Scence and Technology School, Harbn Insttute of Technology, Harbn 150001;2.Mnstry of Search Platform of Tencent Inc., Shenzhen 518057) Abstract:Long queres refer to complex queres submtted by users. Current search engnes based on keywords can obtan good results. But for a long query, f all of the words are matched as keywords, often only very lmted results are returned. In ths paper, we attempt to mprove the retreval results by usng the assocaton between the words to delete the words whch offer lttle nformaton. In our experments, two aspects of evaluaton, machne-orented and user-orented, are used. In the machne-orented evaluaton, the change of hghlght rato and the result number of related documents s consdered. In the user-orented evaluaton, the retreval results are evaluated by a human udger. The expermental results show that our method can sgnfcantly mprove the quantty and qualty of search results. Key words:query Reducton; Word Assocaton; Evaluaton Methods 1 1 前 言 查 询 优 化 是 信 息 检 索 研 究 中 的 一 个 重 要 的 问 题 本 文 探 索 有 效 地 滤 除 冗 长 查 询 中 冗 余 成 份 的 方 法, 提 高 检 索 效 果 搜 索 引 擎 的 一 般 原 理 是 对 于 用 户 提 交 的 搜 索 关 键 词, 搜 索 引 擎 根 据 关 键 词 在 网 页 索 引 * 收 稿 日 期 :2013.3.13 定 稿 日 期 :2013.3.26 基 金 项 目 : 国 家 自 然 科 学 基 金 面 上 项 目 (61073126,61273321); 国 家 自 然 科 学 基 金 重 点 项 目 (61133012); 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 作 者 简 介 : 陈 炜 鹏 (1986 ), 男, 硕 士 研 究 生, 主 要 研 究 方 向 为 共 指 消 解 信 息 检 索 ; 付 瑞 吉 (1984 ), 男, 博 士 研 究 生, 主 要 研 究 方 向 为 文 本 挖 掘 自 然 语 言 处 理 ; 胡 熠 (1978 ), 男, 腾 讯 公 司 搜 索 产 品 部 研 究 员, 主 要 研 究 方 向 为 信 息 检 索 自 然 语 言 处 理 数 据 挖 掘 ; 秦 兵 (1968 ), 女, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 抽 取 信 息 检 索 等 ; 刘 挺 (1972 ), 男, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 检 索 社 会 计 算 等
库 中 进 行 检 索, 最 后 以 一 定 的 排 序 算 法 输 出 相 关 的 文 档 显 然, 用 户 输 入 的 查 询 包 含 的 关 键 词 越 多, 检 索 的 难 度 越 大 在 查 询 中, 用 户 常 常 在 添 加 很 多 对 于 检 索 关 键 词 的 补 充 和 修 饰 成 份, 而 这 些 成 份 对 检 索 效 果 的 提 高 并 没 有 什 么 帮 助, 反 而 增 加 了 搜 索 引 擎 的 检 索 难 度 事 实 上, 对 于 用 户 提 交 给 搜 索 引 擎 的 查 询, 都 是 用 户 对 于 希 望 获 得 的 内 容 的 限 定, 因 此 我 们 可 以 理 解 为 对 于 用 户 查 询 的 任 何 改 动, 在 某 种 程 度 上 都 已 经 改 变 了 用 户 的 原 意 但 我 们 可 以 删 除 查 询 中 给 搜 索 引 擎 提 供 的 信 息 量 很 小 的 词, 尽 可 能 小 地 更 改 用 户 查 询 意 图, 同 时 改 善 检 索 结 果 例 如 东 海 最 新 军 事 新 闻 中 的 最 新 就 是 这 种 小 信 息 量 的 词 而 且 有 的 检 索 关 键 词 的 语 义 可 能 已 经 隐 含 在 查 询 中 其 他 关 键 词 中 了, 对 于 这 类 零 额 外 信 息 的 关 键 词, 我 们 也 可 以 予 以 删 除 例 如 查 询 广 东 广 州 市 气 候 特 点 中 的 广 东 已 经 蕴 含 在 广 州 市 的 信 息 之 中 了 本 文 提 出 了 一 种 基 于 关 键 词 之 间 搭 配 紧 密 度 的 缩 略 方 法, 我 们 首 先 分 析 查 询 关 键 词 之 间 的 依 存 句 法 关 系, 然 后 结 合 关 键 词 之 间 的 搭 配 紧 密 度, 确 定 冗 余 关 键 词, 予 以 删 除 同 时, 我 们 还 将 缩 略 看 成 是 一 个 子 查 询 选 择 的 过 程, 对 于 原 查 询 的 任 去 一 词 组 合, 选 择 与 原 查 询 最 接 近 的 缩 略 为 了 评 价 结 果 的 有 效 性, 我 们 从 面 向 机 器 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 结 果 文 档 召 回 数 量 的 帮 助 ; 从 面 向 用 户 的 角 度, 评 价 查 询 缩 略 对 于 提 高 检 索 质 量 的 帮 助 实 验 结 果 表 明, 我 们 的 方 法 能 够 提 高 检 索 结 果 的 数 量 和 检 索 质 量 2 相 关 研 究 查 询 缩 略 是 查 询 优 化 中 一 项 重 要 的 方 式, 引 起 了 很 多 研 究 者 的 关 注 国 外 的 学 者 [1] [2] Bendersky 等 人 和 Kumaran 等 人 在 TREC 语 料 上 的 实 验 结 果 表 明, 查 询 缩 略 能 够 提 高 检 [3] 索 的 效 果 词 冗 余 和 区 分 查 询 中 补 充 成 份 和 主 要 成 份 的 困 难 [4], 导 致 搜 索 引 擎 不 能 正 确 地 理 解 用 户 提 交 的 自 然 语 言 查 询 的 意 图 [3] 从 关 键 词 发 现 的 角 度,Allan 等 人 利 用 语 言 和 统 计 的 方 法 发 现 查 询 中 的 核 心 概 念 [1] Bendersky 等 人 利 用 adaboost 分 类 器 给 查 询 中 的 词 赋 权, 从 而 确 定 词 的 重 要 性 从 排 序 的 [4] 角 度,Lease 等 人 提 出 利 用 排 序 模 型, 对 查 询 关 键 词 进 行 排 序, 从 而 确 定 词 的 重 要 性 从 [5] 子 查 询 排 序 的 角 度,Jones 等 人 利 用 点 互 信 息 构 建 最 大 生 成 树, 获 得 子 查 询 集 合, 并 且 利 用 用 户 的 点 击 信 息, 从 中 确 定 最 佳 的 子 查 询, 证 实 子 查 询 确 实 能 够 提 高 检 索 的 效 果 [6] Balasubramanan 等 人 选 取 了 一 些 有 效 的 特 征, 包 括 文 档 特 征 和 检 索 分 值 特 征 等, 用 于 三 种 学 习 方 法 对 查 询 进 行 缩 略 以 上 的 方 法 都 是 基 于 语 言 和 统 计 的 一 些 信 息, 而 不 能 很 好 地 融 合 检 索 词 之 间 的 关 联 性, 从 而 确 定 词 的 相 对 重 要 性 [7] [4] 验 证 查 询 缩 略 的 效 果, 也 是 一 个 重 要 的 问 题 Bendersky 等 人 和 Lease 等 人 研 究 都 是 基 于 TREC 语 料, 他 们 分 别 将 缩 略 前 后 的 查 询 在 TREC 语 料 中 检 索, 从 检 索 的 结 果 集 来 判 断 查 询 缩 略 的 有 效 性 但 是, 基 于 特 定 语 料 集 上 面 优 化 的 结 果, 并 不 能 完 全 反 映 在 实 际 [8] [9] 搜 索 引 擎 中 的 效 果 所 以 Samuel 等 人 和 Guo 等 人 利 用 搜 索 引 擎 的 结 果, 人 工 标 注 结 果 文 档, 确 定 优 化 的 效 果 以 上 方 法 代 价 比 较 大 在 本 文 中 我 们 尝 试 从 面 向 机 器 和 面 向 用 户 两 个 角 度 来 评 价 查 询 缩 略 的 结 果 3 基 于 词 语 关 联 度 的 查 询 缩 略 方 法 基 于 词 语 关 联 度 的 查 询 缩 略, 从 两 个 方 面 来 解 决 查 询 缩 略 的 问 题 :1) 基 于 依 存 搭 配 的 查 询 缩 略 根 据 依 存 链 两 端 词 的 紧 密 度, 发 现 冗 余 词 ;2) 基 于 词 语 关 联 度 的 子 查 询 选 择 比 较 子 查 询 与 原 始 查 询 的 紧 密 度, 发 现 与 原 查 询 紧 密 度 最 大 的 子 查 询 3.1 基 于 依 存 搭 配 的 查 询 缩 略 对 于 一 个 冗 长 查 询, 我 们 考 察 的 是 关 键 词 之 间 的 蕴 含 关 联, 即 可 能 存 在 某 个 词 的 语 义
已 经 蕴 含 在 其 他 的 词 之 中, 那 么 对 于 这 一 类 词, 予 以 删 除 在 保 证 用 户 的 查 询 意 图 没 有 偏 移 的 前 提 下, 召 回 更 多 的 检 索 结 果, 减 少 零 信 息 词 对 查 询 结 果 的 影 响 我 们 认 为 查 询 词 之 间 的 关 联 关 系 体 现 在 句 法 的 依 存 关 系 之 中 对 于 存 在 依 存 句 法 关 联 的 词, 它 们 存 在 语 义 的 关 联 我 们 需 要 发 现 它 们 之 间 的 语 义 蕴 含 作 为 缩 略 的 依 据, 即 某 个 修 饰 成 份 经 常 只 充 当 另 一 成 份 的 补 充 基 于 搭 配 的 缩 略 主 要 的 方 法 是 利 用 依 存 分 析 的 结 果, 并 且 结 合 词 性 和 命 名 实 体 信 息, 发 现 一 些 频 繁 模 式, 滤 除 查 询 中 的 一 些 冗 余 的 修 饰 关 系 我 们 主 要 考 察 ATT 关 系 ( 定 中 关 系 ) VOB 关 系 ( 动 宾 关 系 ) 和 ADV 关 系 ( 状 中 关 系 ) 例 如 图 1 所 示 的 例 子 中 的 电 视 和 连 续 剧 存 在 ATT 关 系, 结 合 词 性 和 搭 配 关 系, 我 们 删 除 电 视 图 1 依 存 句 法 分 析 例 子 Fg.1 An Example of Dependency Parsng 考 察 两 个 词 之 间 的 搭 配 紧 密 度, 一 共 有 三 种 衡 量 的 方 法 分 别 是 : 1) 点 互 信 息 对 于 搭 配 的 发 现, 一 种 以 信 息 论 为 根 据 的 方 法 是 互 信 息 对 于 我 们 的 情 况, 两 个 具 体 词 同 现 的 点 互 信 息 如 下 : x, a N PMI ( x, (1) ( a b) ( a c) 其 中,N 代 表 句 子 的 数 目,a 代 表 词 w 和 词 w 共 同 出 现 的 句 子 数,b 代 表 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 代 表 词 w 不 出 现, 词 w 出 现 的 句 子 数 互 信 息 是 二 元 组 x, y ) 的 概 率 和 两 单 独 词 的 概 率 乘 积 y ) 的 似 然 对 数 比 考 虑 两 种 极 端 的 情 况 : 两 个 词 的 出 现 是 完 全 互 相 依 赖 的 ( 它 们 是 一 起 出 现 ) 或 完 全 独 立 的 ( 一 个 词 出 现 不 能 给 出 关 于 其 他 词 出 现 的 任 何 信 息 ) 对 于 完 全 的 互 相 依 赖, 有 : x 1 I( x, (2) 也 就 是 说, 在 完 全 依 赖 的 二 元 组 中, 当 它 们 出 现 的 次 数 减 少 时, 它 们 的 互 信 息 是 增 加 的 对 于 完 全 独 立 的 情 况, 有 : x I( x, 1 0 (3) 互 信 息 是 衡 量 独 立 性 的 一 种 很 好 的 方 法, 接 近 0 的 互 信 息 表 明 了 概 率 的 独 立 性 2) 最 大 似 然 比 似 然 比 是 假 设 检 验 的 另 一 种 方 法 我 们 考 察 用 下 面 两 个 可 选 的 假 设 来 解 释 二 元 组 (x, 的 出 现 频 率 假 设 : 假 设 1: x p x (4) 假 设 2: x p1 p2 x (5)
假 设 1 是 独 立 性 假 设 的 形 式 (x 的 出 现 和 前 面 y 的 出 现 是 独 立 的 ), 假 设 2 是 非 独 立 性 假 设 的 形 式 化, 对 于 我 们 感 兴 趣 的 搭 配, 是 一 个 很 好 的 证 据 该 方 法 的 形 式 化 描 述 如 下 : a N b N c N d N 2log LLR( x, alog blog clog d log ( a b)( a c) ( a b)( b d) ( c d)( a c) ( c d)( b d) (6) 其 中,N 代 表 句 子 的 数 目,a 表 示 词 w 和 词 w 共 同 出 现 的 句 子 数,b 表 示 词 w 出 现, 词 w 不 出 现 的 句 子 数,c 表 示 词 w 不 出 现, 词 w 出 现 的 句 子 数 d 表 示 两 个 词 都 不 出 现 的 句 子 数 2 3) 卡 方 分 布 卡 方 分 布 又 称 统 计, 可 以 用 于 度 量 词 与 词 独 立 程 度, 卡 方 值 越 大, 独 立 性 越 小, 相 关 性 越 大 令 N 表 示 训 练 语 料 中 的 句 子 总 数,c 为 某 一 个 词,t 表 示 与 其 搭 配 的 词 条,A 表 示 包 含 c 词 条 且 包 含 t 词 条 的 句 子 频 数,B 表 示 不 包 含 c 词 条 但 是 包 含 t 词 条 的 句 子 频 数,C 表 示 包 含 c 词 条 但 是 不 包 含 t 词 条 的 句 子 频 数,D 是 既 不 包 含 c 词 条 也 不 包 含 t 词 条 的 句 子 频 数, 则 t 对 于 c 的 卡 方 值 由 下 式 计 算 : 2 2 N ( AD BC ) ( t, c) (7) ( A C )( B D )( A B )( C D ) 通 过 观 察, 我 们 对 ATT VOB 和 ADV 这 三 种 关 系 制 定 如 下 启 发 式 规 则 : ATT 关 系 首 先 我 们 找 出 句 子 中 存 在 ATT 关 系 的 词 对 (a,b), b 依 存 于 a, 即 b 的 父 亲 是 a, 然 后 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_att_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 在 这 种 情 况 下, 我 们 利 用 词 频 比 例 关 系 freq(b)/freq(a) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_att_freq, 删 除 词 b, 否 则 删 除 词 a VOB 关 系 首 先 我 们 找 出 句 子 中 存 在 VOB 关 系 的 节 点 对 (a,b), 计 算 它 们 搭 配 紧 密 度, 如 果 这 个 值 超 过 阈 值 T_vob_assocaton, 则 说 明 这 两 个 词 之 间 联 系 非 常 的 紧 密 然 后, 我 们 利 用 词 频 比 例 关 系 freq(a)/freq(b) 来 确 定 删 除 哪 一 个 词, 如 果 比 例 超 过 阈 值 T_vob_freq, 删 除 词 b, 否 则 删 除 词 a ADV 关 系 首 先 我 们 找 出 句 子 中 存 在 ADV 关 系 的 节 点 对 (a,b), b 的 父 节 点 是 a, 如 果 (a,b) 的 搭 配 紧 密 度 超 过 阈 值 T_adv_assocaton, 且 词 a 不 是 不 没 没 有 未 非 莫 未 必 等 否 定 副 词 时, 则 将 其 删 除 值 得 注 意 的 是, 每 个 规 则 使 用 的 阈 值 都 是 不 同 的 通 过 对 关 键 词 依 存 搭 配 的 统 计, 我 们 发 现 并 删 除 语 义 蕴 含 在 其 他 词 中 的 关 键 词, 达 到 查 询 缩 略 的 目 的 3.2 基 于 词 语 关 联 度 的 子 查 询 选 择 查 询 缩 略 的 本 质 在 于 从 查 询 中 发 现 相 对 不 重 要 的 词 对 于 一 个 词, 如 果 这 个 词 和 查 询 中 的 其 他 词 之 间 的 紧 密 度 非 常 小, 可 以 认 为 这 个 词 是 一 个 相 对 不 重 要 的 词 基 于 此, 可 以 将 查 询 缩 略 看 成 是 原 始 查 询 子 查 询 选 择 的 问 题, 即 对 于 原 始 查 询 可 以 扩 展 出 多 个 子 查 询, 在 这 些 候 选 子 查 询 中 选 择 与 原 始 查 询 最 接 近 的 查 询 一 个 好 的 子 查 询 应 该 满 足 : 只 保 留 重 要 的 词 用 户 在 提 交 查 询 时, 出 于 语 言 通 畅 性 的 表 示, 往 往 采 用 口 语 化 表 达, 夹 杂 很 多 不 重 要 的 关 键 词, 理 想 的 搜 索 引 擎 应 该 给 这 一 类 词 赋 予 很 低 的 权 重, 但 是 在 实 际 使 用 中, 删 除 这 一 类 词 往 往 能 够 带 来 更 好 的 检 索 效 果 例 如 查 询 2010 世 界 杯 用 球 的 名 字 叫 什 么, 如 果 只 保 留 其 中 的 关 键 字 2010 世 界 杯 用 球 名 字, 检 索 效 果 更 好 基 于 上 面 的 分 析, 我 们 通 过 一 个 例 子 来 介 绍 具 体 的 方 法 :
1) 对 于 原 始 查 询 进 行 名 词 短 语 切 分, 例 如 对 于 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 生 成 绩 查 询 识 别 为 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询 2) 构 造 原 始 查 询 的 子 查 询, 即 任 去 一 词, 构 成 子 查 询 2007 年 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 我 们 构 造 子 查 询 云 南 省 曲 靖 市 中 考 考 试 成 绩 查 询, 2007 年 曲 靖 市 中 考 考 试 成 绩 查 询 等 子 查 询 2 3) 对 于 任 一 查 询, 利 用 统 计 确 定 查 询 词 的 关 联 度 公 式 如 下 : Ch( x ; x ; x ;...; x ) Ch( x ; x ) (8) 1 2, 3 N, {1,2,3,..., N ; } 4) 对 于 任 意 查 询,Ch 最 接 近 原 始 查 询 的 子 查 询, 可 以 认 为 与 原 查 询 最 接 近, 即 是 语 义 含 义 与 原 查 询 最 接 近 的 子 查 询 5) 对 于 获 得 的 与 原 查 询 最 接 近 的 子 查 询, 如 果 与 原 查 询 之 间 的 差 别 : Ch x ; x ; x ;...; x ; x ;...; x ) / Ch( x ; x ; x ;...; x (9) ( 1 2, 3 1 1 N 1 2, 3 N ) 我 们 则 认 为 原 查 询 与 子 查 询 的 差 别 非 常 地 小, 只 要 差 别 在 我 们 容 许 的 的 范 围 内, 我 们 可 以 对 子 查 询 继 续 迭 代 上 述 的 子 查 询 选 择 过 程, 对 查 询 进 行 进 一 步 缩 略, 直 到 不 满 足 公 式 (9) 为 止 基 于 以 上 方 法, 我 们 即 可 在 不 改 变 用 户 查 询 意 图 的 条 件 下, 尽 可 能 地 对 冗 长 查 询 进 行 缩 略 优 化, 改 善 检 索 结 果 4 实 验 和 结 果 4.1 实 验 设 置 实 验 部 分, 我 们 使 用 由 腾 讯 公 司 提 供 20022 条 在 SOSO 搜 索 引 擎 中 查 询 效 果 不 佳 的 冗 长 查 询, 从 中 随 机 抽 取 用 作 开 发 和 测 试 另 外, 我 们 使 用 规 模 为 1.1G 的 搜 狗 全 网 新 闻 语 料 库 (SogouCA) 1 作 为 背 景 语 料 库, 用 来 统 计 词 语 频 率 等 信 息 4.2 评 价 方 法 为 了 验 证 基 于 词 关 联 度 的 缩 略 对 于 检 索 结 果 的 帮 助, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度 进 行 评 价, 前 者 衡 量 检 索 数 量 的 提 高, 后 者 衡 量 检 索 质 量 的 提 高, 结 合 机 器 自 动 评 价 和 人 工 评 价 来 验 证 本 文 方 法 的 有 效 性 4.2.1 面 向 机 器 的 自 动 评 价 面 向 机 器 的 自 动 评 价, 从 提 升 用 户 的 检 索 体 验 出 发, 考 察 对 于 一 个 冗 长 查 询 的 处 理, 能 否 召 回 更 多 相 关 的 结 果, 而 这 些 关 键 词 还 要 尽 量 能 够 包 含 在 检 索 的 效 果 中 因 为 冗 长 的 查 询 容 易 引 起 检 索 结 果 仅 有 寥 寥 几 条 且 没 有 正 确 结 果, 此 时 帮 助 用 户 自 动 裁 剪 查 询, 提 高 返 回 结 果 数 是 有 意 义 的 我 们 主 要 关 注 两 个 因 素 : 1) 返 回 结 果 的 绝 对 数 量 将 处 理 后 的 查 询 输 入 SOSO 中 搜 索, 返 回 的 结 果 数 比 原 始 冗 长 查 询 的 结 果 数 有 所 提 高 2)SOSO 返 回 结 果 标 红 的 比 率 ( 即 返 回 的 结 果 的 包 含 查 询 关 键 词 的 比 率 ) 1 http://www.sogou.com/labs/dl/ca.html
具 体 的 计 算 公 式 是 : n 1 l( e ) coverage (10) n l( ) 1 q 其 中 l ( e ) 指 的 是 将 查 询 输 入 SOSO 后, 第 条 ttle 中 标 红 的 关 键 词 去 重 后 的 长 度 ; l(q) 指 的 是 查 询 的 长 度 ; 我 们 考 察 搜 索 结 果 中 前 n 条 ttle 的 数 量, 在 实 验 部 分, 我 们 考 查 前 10 条 例 如 查 询 007 街 机 游 戏 图 片 返 回 的 一 条 ttle 如 图 2 所 示 其 中 标 红 的 关 键 词 为 街 机 游 戏, 对 应 的 l ( e ) 为 4, 而 l (q) 为 9, 假 如 我 们 只 考 虑 第 一 条 检 索 结 果, 则 标 红 率 为 4/9=0.44, 可 见 这 条 查 询 的 这 条 效 果 并 不 好 图 2 搜 索 结 果 标 红 率 示 例 Fg.2 An Example of Hghlght Rato of Search Results 通 过 观 察, 我 们 认 为 应 该 分 两 种 情 况 考 虑 我 们 的 评 测 方 法 首 先, 我 们 认 为 一 个 查 询 返 回 的 结 果 数 不 超 过 一 定 的 阈 值 (countthreshold) 时, 返 回 结 果 数 量 的 提 升 更 为 重 要, 若 处 理 后 的 查 询 能 让 结 果 数 得 到 提 升, 我 们 即 认 为 是 一 个 好 的 处 理 例 如 原 始 长 尾 查 询 6.13 号 临 沂 地 震, 返 回 的 结 果 只 有 127 条, 在 这 种 情 况 下, 我 们 认 为 缩 略 临 沂 地 震, 对 应 搜 索 结 果 为 847,000, 大 大 提 高 了 返 回 数, 是 一 个 好 的 处 理 其 次, 如 果 原 始 查 询 结 果 数 超 过 阈 值 (countthreshold), 那 么 对 于 搜 索 结 果 而 言, 提 升 搜 索 结 果 的 标 红 率 ( 反 映 了 结 果 的 质 量 ) 显 得 更 为 重 要, 在 这 种 情 况 下, 我 们 要 求 处 理 后 的 查 询 在 标 红 率 应 该 有 所 提 高 允 许 返 回 的 结 果 数 有 所 下 降, 但 不 能 下 降 太 多, 保 证 在 原 长 尾 查 询 结 果 数 的 80% 以 上 当 然, 结 果 数 和 标 红 率 同 时 提 高 是 最 理 想 的 4.2.2 面 向 用 户 的 人 工 评 价 面 向 用 户 的 人 工 评 价, 考 察 的 是 缩 略 后 的 查 询 能 够 提 高 检 索 结 果 的 质 量, 即 在 保 证 用 户 查 询 意 图 的 前 提 下, 召 回 更 多 高 质 量 的 检 索 答 案 我 们 比 较 缩 略 前 后 的 查 询 输 入 搜 索 引 擎 后 获 取 的 前 10 条 结 果 文 档 集, 人 工 判 断 缩 略 后 查 询 返 回 的 文 档 集 是 否 更 好 地 符 合 用 户 的 查 询 意 图 两 名 志 愿 者 参 与 人 工 评 价, 将 两 名 志 愿 者 达 成 一 致 的 结 果 作 为 正 确 答 案 4.3 实 验 结 果 实 验 时, 我 们 首 先 进 行 基 于 依 存 搭 配 的 查 询 缩 略, 然 后 串 联 地 进 行 基 于 词 语 关 联 度 的 子 查 询 选 择, 其 中 所 有 的 参 数 都 是 在 开 发 集 上 调 试 获 得 的 经 验 最 优 值 开 发 集 是 从 腾 讯 公 司 提 供 的 冗 长 查 询 集 中 随 机 选 取 并 经 过 人 工 标 注 获 得 的 300 条 查 询 我 们 从 两 个 方 面 展 开 实 验 : 一 是 探 索 不 同 的 搭 配 识 别 方 法 对 查 询 缩 略 的 影 响 ; 二 是 与 其 他 方 法 的 对 比, 验 证 方 法 的 有 效 性
4.3.1 搭 配 识 别 方 法 的 影 响 为 了 探 索 不 同 的 搭 配 紧 密 度 衡 量 方 法 对 实 验 结 果 的 影 响, 我 们 比 较 了 互 信 息, 最 大 似 然 比 和 卡 方 分 布 对 结 果 的 影 响, 我 们 分 别 从 面 向 机 器 和 面 向 用 户 两 个 角 度, 对 100 条 冗 长 查 询 的 缩 略 进 行 评 价, 面 向 机 器 的 结 果 如 图 3 所 示, 面 向 用 户 的 结 果 如 表 1 所 示 图 3 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 自 动 评 价 ) Fg.3 The Effect of Dfferent Measure Methods for Word Assocaton (Automatc Evaluaton) 图 3 中, 阈 值 (countthreshold) 为 搜 索 结 果 阈 值, 即 当 搜 索 结 果 数 量 小 于 countthreshold 时, 我 们 更 注 重 结 果 数 的 提 升, 当 大 于 阈 值 时, 我 们 更 注 重 检 索 质 量 ( 标 红 率 ) 的 提 升 从 实 验 结 果 的 比 较 可 以 看 出, 使 用 卡 方 分 布 作 为 衡 量 搭 配 紧 密 度 的 方 法 在 面 向 机 器 的 自 动 评 价 中, 并 没 有 表 现 出 优 势, 与 基 于 互 信 息 和 最 大 似 然 比 的 方 法 相 当 ; 但 在 面 向 用 户 人 工 评 价 中, 得 到 了 比 较 好 的 效 果 表 1 不 同 紧 密 度 衡 量 方 法 的 影 响 ( 人 工 评 价 ) Tab.1 The Effect of Dfferent Measure Methods for Word Assocaton (Manual Evaluaton) 准 确 率 @1(%) 平 均 准 确 率 (%) 互 信 息 最 大 似 然 比 卡 方 分 布 互 信 息 最 大 似 然 比 卡 方 分 布 64.00 65.00 68.00 52.35 55.89 56.47 4.3.2 对 比 实 验 作 为 参 照, 我 们 以 利 用 大 规 模 查 询 日 志 统 计 df 为 词 权 重 的 方 法, 作 为 Baselne 当 一 个 词 的 df 小 于 某 一 阈 值 时, 则 认 为 该 词 不 重 要, 将 其 删 除 分 别 在 腾 讯 提 供 的 冗 长 查 询 上 进 行 测 试, 实 验 结 果 如 图 4 和 表 2 所 示 我 们 从 腾 讯 公 司 提 供 的 冗 长 查 询 中, 随 机 抽 取 了 1063 条 查 询 进 行 自 动 评 价, 平 均 每 条 长 尾 查 询 提 供 1.67 条 候 选 随 机 抽 取 100 条 冗 长 查 询 进 行 人 工 评 价, 比 较 缩 略 前 后 搜 索 引 擎 返 回 的 前 十 条 结 果 的 质 量 通 过 人 工 查 验 返 回 的 相 关 结 果 集, 来 确 定 是 否 缩 略 后 的 相 关 结 果 更 加 切 合 用 户 的 查 询 意 图
图 4 自 动 评 测 结 果 Fg.4 The Results of Automatc Evaluaton 从 对 照 试 验 可 以 看 出, 不 同 的 搜 索 结 果 阈 值 表 现 出 的 结 果 波 动 并 不 是 很 明 显, 但 是 在 10000 左 右, 结 果 比 较 好, 这 可 以 看 出 缩 略 对 于 提 高 检 索 结 果 的 数 量 比 较 明 显 综 上, 基 于 词 关 联 度 的 缩 略 能 够 返 回 更 多 标 红 率 高 的 检 索 结 果, 提 升 用 户 的 检 索 体 验 在 保 证 检 索 数 量 的 情 况 下, 我 们 的 方 法 能 够 明 显 提 高 冗 长 查 询 的 检 索 质 量 表 2 人 工 评 测 结 果 Tab.2 The Results of Manual Evaluaton 5 结 论 准 确 率 @1(%) 平 均 准 确 率 (%) Baselne Our Method Baselne Our Method 52.00 68.00 44.12 56.47 本 文 提 出 了 一 种 基 于 词 语 关 联 的 查 询 缩 略 的 方 法 结 合 依 存 句 法 和 搭 配 识 别, 发 现 查 询 中 的 语 义 蕴 含 关 系, 删 除 冗 余 词 ; 基 于 词 语 关 联 的 子 查 询 选 择, 发 现 信 息 量 小 的 词, 将 其 删 除 为 了 验 证 结 果 的 有 效 性, 我 们 提 出 了 面 向 机 器 的 自 动 评 价 方 法 和 面 向 用 户 的 人 工 评 价 方 法, 从 返 回 结 果 的 数 量 和 质 量 两 个 角 度, 对 缩 略 的 结 果 进 行 评 价 实 验 结 果 表 明, 我 们 的 方 法 能 够 有 效 地 剔 除 查 询 中 冗 余 的 成 份, 提 高 检 索 的 数 量 和 质 量 在 下 一 步 的 工 作 中, 我 们 将 探 索 新 方 法 发 现 更 多 依 存 搭 配 的 频 繁 模 式, 进 一 步 提 高 查 询 缩 略 的 效 果 致 谢 感 谢 国 家 自 然 科 学 基 金 项 目 (61073126,61273321,61133012) 和 国 家 863 前 沿 技 术 研 究 项 目 (2012AA011102) 对 本 课 题 的 支 持 感 谢 腾 讯 公 司 为 本 课 题 提 供 资 金 和 数 据 支 持 参 考 文 [1] M. Bendersky and W. B. Croft. Dscoverng key concepts n verbose queres. In Proceedngs of SIGIR 08, 2008.pages 491-498,. [2] G. Kumaran and J. Allan. A case for shorter queres, and helpng user create them. In Proceedngs of 献
HLT.2007pages 220-227. [3] J. Allan, J. Callan, W. B. Croft, L. Ballesteros, J. Broglo, J. Xu, and H. Shu. INQUERY at TREC-5. In Proceedngs of the Ffth Text Retreval Conference TREC-5. 1997. pages 119-132. [4] M. Lease, J. Allan, and W. B. Croft. Regresson Rank: Learnng to Meet the Opportunty of Descrptve Queres. In Proc. of ECIR 2009. 2009. pages 90-101. [5] R. Jones and D. C. Fan. Query word deleton predcton. In Proceedngs of 25th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval. 2003. pages 435-436. [6] N. Balasubramanan, G. Kumaran and V. R. Carvalho. Explorng reductons for long web queres. In Proceedngs of the 33rd nternatonal ACM SIGIR conference on Research and development n nformaton retreval. 2010.pages 571-578. [7] G. Kumaran and J. Allan. Adaptng nformaton retreval systems to user queres. Informaton Processng and Management. 2008.pages 1838-1862. [8] S. Huston and W. B. Croft. Evaluatng verbose query processng technques. In Proceedngs of the 33rdnternatonal ACM SIGIR conference on Research and development n nformaton retreval, SIGIR '10, pages 291-298, New York, NY, USA, 2010. ACM. [9] J. Guo, G. Xu, H. L, and X. Cheng. A unfed and dscrmnatve model for query refnement. In Proceedngs of SIGIR 08, pages 379 386, New York, NY, USA, 2008.