2 北 京 邮 电 大 学 学 报 第 35 卷 习 一 个 认 知 模 型, 从 而 解 决 在 不 同 特 征 空 间 进 行 知 识 迁 移 的 问 题. 特 征 迁 移 问 题 一 般 被 归 为 直 推 式 迁 移 学 习 [6], 其 定 义 为 : 给 定 源 数 据 空 间 D s



Similar documents
SVM [6] PCA+SVM 79.75% 9 FERE FERE. PCA LDA Adaboost SVM 5 1 SVM Moghaddam [6] M (x,y ) x R N y x y {0,1} M f ( x) = y α k( x, x ) + b x k f(x) = 1 x

Microsoft Word - 系统建设1.doc

2 : 237.,. [6 7] (Markov chan Monte Carlo, MCMC). MCMC, [8 9].,,, [0 ].,, : ),,,.,, ; 2),,.,.,. : ),.,,. ; 2),.,,. ; 3), EM, EM,.,, EM, EM. K M,.,. A

Vol.39 No. 8 August 2017 Hyeonwoo Noh [4] boundng box PASCALV VOC PASCAL VOC Ctyscapes bt 8 bt 1 14 bt

24 26,,,,,,,,, Nsho [7] Nakadokoro [8],,,, 2 (Tradtonal estmaton of mage Jacoban matrx), f(t 1 ) p(t 2 ) : f(t 1 ) = [f 1 (t 1 ), f 2 (t 1 ),, f m (t

34 7 S R θ Z θ Z R A B C D PTP θ t 0 = θ 0 θ t 0 = 0 θ t 0 = 0 θ t = θ θ t = 0 θ t = 0 θ t V max θ t a max 3 θ t A θ t t 0 t / V max a max A = 3 4 S S

T e = K 1 Φ m I 2 cosθ K 1 Φ m I cosθ 2 1 T 12 e Φ / 13 m I 4 2 Φ m Φ m 14 I 2 Φ m I 2 15 dq0 T e = K 2 ΦI a 2 16

Microsoft Word - A doc

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

标题

基于词语关联度的查询缩略*

Microsoft Word 战玉丽C.doc

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

作为市场化的人口流动

Microsoft Word - T 田新广.doc

Microsoft Word - 5 魏志生.doc

untitled

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

[1-3] (Smile) [4] 808 nm (CW) W 1 50% 1 W 1 W Fig.1 Thermal design of semiconductor laser vertical stack ; Ansys 20 bar ; bar 2 25 Fig

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

國立台灣大學圖書資訊學系四十週年系慶學術研討會論文格式

Microsoft Word - chnInfoPaper6

中文模板

Microsoft Word - 19王建华.doc

Microsoft Word 定版

Ashdgsahgdh

标题

F3

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

ISSN (2004) vol. 1, no. 2, page 155~172 * ** *** * ** ***

正文封面.PDF

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa


複本 2016 P1 P2 P5 得獎名單.xls

untitled

标题

的 景 點 物 件, 景 點 物 件 盡 可 能 地 占 滿 了 整 張 圖 片, 他 們 不 能 處 理 其 中 包 含 兩 個 景 點 以 上 的 照 片 或 是 沒 有 完 整 入 鏡 的 景 點 照 片, 在 本 文 中, 我 們 提 出 了 一 種 新 方 法 來 辨 識 非 單 一 完

I ln I V = α + ηln + εt, 1 V t, t, t, 1 t, 1 I V η η >0 t η η <0 η =0 22 A_,B_,C0_,C1_,C2_,C3_,C4_,C5_,C6_,C7_,C8_,C99_,D_,E_,F_,G_,H_,I_,J_,K_,L_,M_

1 引言

基于VC++6.0和数据库的案例推理认知引擎


Corpus Word Parser 183

的 社 会 应 用 的 公 共 领 域 或 空 间 这 个 概 念 体 现 出 互 联 网 结 构 的 三 个 层 次, 即 传 输 基 础 网 络 构 成 和 人 们 的 使 用 行 为 传 输 基 础 是 人 们 利 用 互 联 网 进 行 各 种 活 动 的 通 信 信 道 网 络, 主 要

74 14 PWM 1 PWM L a I a I a R a E a = U a 1 PID 2 3 T e = J D θ K D θ T M 2 fuzzy cerebellar model artculaton controller FCMAC E a = K e θ 3 T

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

穨423.PDF

Microsoft Word - xb 陈兴蜀.doc

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

y 1 = 槡 P 1 1h T 1 1f 1 s 1 + 槡 P 1 2g T 1 2 interference 2f 2 s y 2 = 槡 P 2 2h T 2 2f 2 s 2 + 槡 P 2 1g T 2 1 interference 1f 1 s + n n

Microsoft Word 罗磊.doc

准北春晖油田油气勘探快速突破的三点启示

259 I

untitled

mm ~

标题

km km mm km m /s hpa 500 hpa E N 41 N 37 N 121

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

Microsoft Word - 2--张磊_new_.doc

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

1

(Geographic data or geodata ) 30 (Buelher, K and L. Mckee1996) (Open GIS Consortium OGC) OGC GIS Open GIS OGC (Geography Markup Langu

Microsoft Word - 61-杨丽丽

(Microsoft Word \254F\255\267\266\351\246a.doc)

41 10 Vol. 41, No ACTA AUTOMATICA SINICA October, ,, (Least square support vector machines, LS-SVM)., LS-SVM,,,, ;,,, ;,. DOI,,,,,

Dan Buettner / /

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

《中文信息学报》投稿模版

附件2

工程教育专业认证准备工作指导手册目录_1.CDR

17

80 温 州 大 学 学 报 社 会 科 学 版 (2012) 第 25 卷 第 1 期 构 混 乱 表 意 不 明 不 合 逻 辑 其 中 前 四 种 属 于 结 构 类 语 病, 考 查 几 率 较 高 ; 后 两 种 属 于 语 义 类 语 病, 有 时 会 单 独 出 题 上 面 这 道 题

穨webj05-06

自動分類成效分析.doc

Microsoft Word - 004王皓 doc


f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

荨荨 % [3] [4] 86%( [6] 27 ) Excel [7] 27 [8] 2 [9] K2 [2] ; Google group+ 5 Gmail [2] 2 fxljwcy 3E [22] 2 2 fxljzrh 2D [23] 3 2 fxzphjf 3D 35

EL ECTR IC MACH IN ES AND CON TROL Vol113 No11 Jan. 2009,, (, ) :, X 2Y,,,,,,, P ID P ID P ID,, : ; ; ; P ID : TM33 : A : X

Microsoft Word - 7OCT TANG PAPER _in Chinese_.rtf

1.0 % 0.25 % 85μm % U416 Sulfate expansion deformation law and mechanism of cement stabilized macadam base of saline areas in Xinjiang Song

~ ~

, Vol.34, No.21 nm nm nm nm μm μm μm a b c d e

Microsoft Word - Preface_1_14.doc

山东省招生委员会

中文模板

标题

10 ( ) ( ) [5] 1978 : [1] (P13) [6] [1] (P217) [7] [1] (P19) : : [1] [4] (P1347) (P18) 1985 : [1] (P343) 1300 : [1] (P12) 1984 :

2011年上海市高校精品课程申报表(本科)

JOURNAL OF EARTHQUAKE ENGINEERING AND ENGINEERING VIBRATION Vol. 31 No. 5 Oct /35 TU3521 P315.

专 技 能 1. 精 通 Matlab/Simulink 平 台 下 的 海 洋 运 载 器 运 动 控 制 系 统 与 仿 真 建 模 设 计 ; 2. 精 通 51 单 片 机 AVR 单 片 机 Arduino 开 源 板 的 开 发 和 设 计 ; 3. 精 通 基 于 Arduino 板


( ) 63 ( ) 68 ( ) 72 ( ) 77 ( ) 85 ( ) 91 ( ) ( ) 98 ( ) 103 ( ) 107 ( ) 111 ( ) 114 ( ) 117 ( ) 121 ( ) 125 ( ) 127 ( ) ( ) 133 ( ) 139

三维网格模型的骨架抽取

常 规 治 理 何 以 替 代 运 动 式 治 理 考 察 国 家 治 理 ( 包 括 运 动 式 治 理 和 常 规 治 理 ), 但 他 未 指 出 不 同 国 家 治 理 模 式 的 转 化 条 件 徐 岩 等 认 为, 合 法 性 承 载 及 其 引 起 的 注 意 力 分 配 是 运 动

United Nations ~ ~ % 2010

Transcription:

2012 年 12 月 第 35 卷 第 6 期 北 京 邮 电 大 学 学 报 Journal of Bejng Unversty of Posts and Telecommuncatons Dec. 2012 Vol. 35 No. 6 文 章 编 号 :1007 鄄 5321(2012)06 鄄 0001 鄄 05 一 种 基 于 迁 移 学 习 的 文 本 图 像 特 征 映 射 算 法 刘 杰, 杜 军 平 (1 郾 北 京 邮 电 大 学 智 能 通 信 软 件 与 多 媒 体 北 京 市 重 点 实 验 室, 北 京 100876; 2 郾 北 京 邮 电 大 学 计 算 机 学 院, 北 京 100876) 摘 要 : 提 出 一 种 事 件 约 束 下 基 于 迁 移 学 习 的 文 本 图 像 特 征 映 射 算 法. 通 过 潜 在 狄 利 克 莱 分 配 方 法 对 事 件 文 本 数 据 进 行 主 题 建 模, 并 通 过 计 算 主 题 特 征 的 信 息 增 益 选 出 最 显 著 的 文 本 特 征 ; 用 视 觉 词 袋 模 型 和 朴 素 贝 叶 斯 方 法 对 事 件 图 片 进 行 主 题 建 模 ; 通 过 同 事 件 下 的 文 本 数 据 特 征 分 布 和 文 本 图 像 共 现 数 据 特 征 分 布, 实 现 了 对 图 像 特 征 分 布 的 近 似. 在 包 含 15 个 主 题 事 件 的 数 据 集 上 进 行 实 验 的 结 果 证 明 了 所 提 特 征 映 射 算 法 的 有 效 性. 关 键 词 : 事 件 约 束 ; 迁 移 学 习 ; 文 本 图 像 特 征 映 射 ; 共 现 数 据 中 图 分 类 号 : TN919 文 献 标 志 码 : A A Transfer Learnng Based Text 鄄 Image Feature Mappng Algorthm LIU Je, DU Jun 鄄 png (1 郾 Bejng Key Laboratory of Intellgent Telecommuncaton Software and Multmeda, Bejng Unversty of Posts and Telecommuncatons, Bejng 100876, Chna; 2 郾 School of Computer, Bejng Unversty of Posts and Telecommuncatons, Bejng 100876, Chna) Abstract: A transfer learnng based text 鄄 mage feature mappng algorthm under event constrant s pro 鄄 posed. Frstly, the documents of each event are modeled by the latent drchlet allocaton, n whch the most dscrmnatng feature s obtaned by computng the nformaton gan of each topc. Secondly, the mages of the correspondng event are modeled through the bag 鄄 of 鄄 vsual 鄄 word model and the na 觙 ve bayes approach. Fnally, the feature dstrbutons of the target mages are approxmated by utlzng the feature dstrbutons of the text data and the text 鄄 mage co 鄄 occurrence data wthn the same event. Experment s conducted on a dataset contanng 15 categores of events. The effectveness of the proposed feature map 鄄 png algorthm s shown. Key words: event constrant; transfer learnng; text 鄄 mage feature mappng; co 鄄 occurrence data 随 着 互 联 网 信 息 传 播 技 术 的 发 展, 文 本 图 像 相 互 伴 随 的 事 件 信 息 的 数 量 越 来 越 多. 传 统 的 文 本 信 息 挖 掘 技 术 已 经 不 能 满 足 人 们 对 多 媒 体 信 息 知 识 的 学 习 需 求. 但 是 目 前 直 接 在 多 媒 体 数 据 特 征 空 间, 特 别 是 图 像 特 征 空 间 中 学 习 知 识 模 型 还 有 很 大 难 度 [1]. 能 否 利 用 成 熟 的 文 本 挖 掘 技 术 和 互 联 网 上 充 足 的 文 本 信 息 来 辅 助 图 像 数 据 的 知 识 学 习, 是 现 在 研 究 的 一 个 热 点 [2 鄄 3]. 对 于 知 识 在 不 同 特 征 空 间 的 迁 移 问 题, 曾 经 有 学 者 提 出 多 视 角 学 习 的 概 念, 对 每 个 数 据 实 例 都 通 过 多 个 视 角 来 看 待, 并 在 跨 空 间 的 知 识 学 习 中 取 得 了 一 定 的 成 绩 [4] [5]. 迁 移 学 习 与 多 视 角 学 习 相 比, 在 数 据 层 面 不 再 要 求 每 个 数 据 实 例 都 要 有 相 应 多 的 视 角 概 念 表 达. 迁 移 学 习 要 通 过 利 用 现 有 数 据 来 学 收 稿 日 期 : 2012 鄄 01 鄄 12 基 金 项 目 : 国 家 重 点 基 础 研 究 发 展 计 划 项 目 (2012CB821200,2012CB821206); 国 家 自 然 科 学 基 金 项 目 (91024001, 61070142); 北 京 市 自 然 科 学 基 金 项 目 (4111002) 作 者 简 介 : 刘 杰 (1984 ), 男, 博 士 生, E 鄄 mal: luje. bupt@ gmal. com; 杜 军 平 (1963 ), 女, 教 授, 博 士 生 导 师.

2 北 京 邮 电 大 学 学 报 第 35 卷 习 一 个 认 知 模 型, 从 而 解 决 在 不 同 特 征 空 间 进 行 知 识 迁 移 的 问 题. 特 征 迁 移 问 题 一 般 被 归 为 直 推 式 迁 移 学 习 [6], 其 定 义 为 : 给 定 源 数 据 空 间 D s 和 相 应 的 学 习 任 务 T s, 目 标 数 据 空 间 D t 和 目 标 数 据 空 间 学 习 任 务 T t, 直 推 式 迁 移 学 习 通 过 利 用 D s 和 T s 中 的 知 识, 帮 助 学 习 D t 中 的 目 标 预 测 函 数 f T, 其 中 :D s 屹 D t T s = T t. 在 特 征 迁 移 过 程 中, 即 使 源 数 据 空 间 与 目 标 数 据 空 间 中 的 数 据 在 实 例 层 面 没 有 交 集, 却 可 能 会 在 特 征 层 面 上 有 关 联. 可 以 利 用 具 备 2 个 特 征 视 角 的 数 据 来 建 立 一 个 纽 带, 对 2 个 不 同 的 特 征 空 间 进 行 连 接. 这 些 数 据 不 一 定 作 为 知 识 学 习 的 训 练 数 据, 但 是 可 扮 演 一 个 字 典 的 角 色. 以 某 个 主 题 事 件 作 为 背 景, 将 互 联 网 上 关 于 此 事 件 充 足 的 文 本 图 像 伴 随 信 息 作 为 进 行 知 识 迁 移 的 一 个 基 础. 1 事 件 约 束 下 的 文 本 图 像 共 现 数 据 在 异 构 空 间 学 习 模 型 中, 若 利 用 一 种 具 有 2 个 特 征 空 间 视 角 的 数 据 作 为 辅 助, 将 会 使 整 个 学 习 过 程 的 难 度 大 为 降 低, 而 事 件 约 束 下 的 异 构 空 间 学 习 模 型 提 供 了 该 可 能 性. 这 里 给 出 事 件 约 束 下 文 本 图 像 共 现 数 据 :E 为 事 件 集 合, 事 件 e 沂 E;V 为 整 个 图 片 数 据 集, 事 件 e 下 相 关 图 片 {v} 沂 V;D 为 整 个 文 本 数 据 集, 事 件 e 下 文 本 集 合 {d} 沂 D;U V 为 图 像 特 征 空 间,U D 为 文 本 特 征 空 间 ; 文 本 图 像 共 现 数 据 实 例 (v,d) 沂 S,S 为 共 现 数 据 集. u v 沂 U V 和 u d 沂 U D 分 别 为 图 像 数 据 实 例 和 文 本 数 据 实 例 所 对 应 的 特 征. 事 件 约 束 下 文 本 图 像 共 现 数 据 (v,d) 在 特 征 层 面 的 形 式 化 描 述 为 ) = 乙,d)P(u d d)dd (1) D w z, 准 (z ) ~ dsc( 准 (z ) ), 准 ~ dr( 茁 ) z 兹 (d ) ~ dsc( 兹 (d ) ), 兹 ~ dr( 琢 ) (4) 为 处 理 事 件 训 练 文 本 之 外 的 新 文 本, 便 于 参 数 (d) (z) 推 理, 对 兹 和 准 做 对 称 dr( 琢 ) dr( 茁 ) 先 验 概 率 假 设. 为 了 获 取 文 本 主 题 概 率 分 布, 不 直 接 计 算 准 和 兹, 而 是 计 算 词 汇 w 对 于 文 本 主 题 的 后 验 概 率 P(w z), 再 通 过 Gbbs 抽 样 间 接 计 算 准 和 兹. 通 过 计 算 各 主 题 的 信 息 增 益, 在 事 件 类 别 c 下 找 出 其 文 本 主 题 特 征 空 间 中 最 具 有 判 别 能 力 的 特 征. 信 息 增 益 越 多 的 特 征, 就 可 作 为 显 著 文 本 特 征. 2 郾 2 图 像 数 据 建 模 采 用 朴 素 贝 叶 斯 模 型 对 图 像 进 行 建 模. 首 先 计 算 加 速 稳 健 特 征 ( SURF, speeded up robust fea 鄄 tures) [8], 并 建 立 视 觉 词 袋 ( BOVW, bag of vsual words) 模 型 [9]. 将 图 片 v 认 为 是 视 觉 词 汇 的 集 合, 每 个 视 觉 词 汇 f 来 自 视 觉 词 汇 本 F,v = {f f 沂 F},F 同 时 表 示 整 个 图 像 特 征 空 间. 由 特 征 独 立 性 假 设, 定 义 图 像 分 类 模 型 为 : 一 个 事 件 类 别 c 决 定 一 种 图 像 特 征 分 布 P( f 沂 F c). 通 过 此 模 型, 并 利 用 极 大 后 验 来 推 测 图 片 分 类 目 标 函 数 h NB :V 寅 C, 完 成 图 像 主 题 类 别 建 模. 对 于 目 标 图 片 v, 其 主 题 类 别 为 h NB = arg max c 沂 C p(c) 仪 f 沂 v 3 文 本 图 像 特 征 映 射 P(f c) (5) 文 本 主 题 建 模 和 图 像 主 题 建 模 都 属 于 离 散 型 对 象 模 型, 可 对 其 特 征 运 用 特 征 独 立 性 假 设, 即 每 个 特 征 独 立 影 响 实 例 在 给 定 事 件 类 别 下 的 后 验 概 率. 在 文 本 图 像 特 征 迁 移 过 程 中, 把 文 本 特 征 和 图 像 特 征 分 别 拆 分 进 行 映 射, 能 使 特 征 迁 移 的 问 题 大 大 简 化. 图 1 为 文 本 图 像 特 征 迁 移 示 意 图. ) = 乙 P(v ) v)dv (2) V ) = 乙 V 乙 D P(v,d)P(u d d) v)dvdd (3) 其 中 P(u d d) 和 v) 是 特 征 提 取 过 程. 2 文 本 和 图 像 数 据 建 模 2 郾 1 文 本 主 题 建 模 使 用 基 于 Gbbs 抽 样 的 潜 在 狄 利 克 莱 分 配 [7] (LDA,latent drchlet allocaton) 模 型 抽 取 文 本 集 合 的 主 题 信 息 为 相 关 文 本 进 行 主 题 建 模, 其 概 率 模 型 为 图 1 事 件 约 束 下 的 文 本 图 像 特 征 迁 移 事 件 约 束 下 的 D 中 每 个 文 本 的 类 标 与 图 像 目 标 类 别 c 相 同, 文 本 d 使 用 主 题 特 征 词 袋 表 示 为 d =

第 6 期 刘 杰 等 : 一 种 基 于 迁 移 学 习 的 文 本 图 像 特 征 映 射 算 法 3 {t t 沂 T}, 其 中 主 题 特 征 词 典 T 是 文 本 特 征 空 间 主 题 词 汇 表. 同 时, 存 在 相 应 事 件 下 文 本 图 像 共 现 数 据 集 合 S = {( v,d)}. 为 推 测 事 件 类 别 c 下 的 图 像 特 征 分 布 P(f c), 首 先 计 算 文 本 集 合 D 中 最 显 著 的 文 本 特 征, 再 借 助 文 本 图 像 共 现 数 据 集 合 S 将 最 显 著 文 本 特 征 映 射 到 图 像 特 征 空 间 上. 通 过 事 件 文 本 集 合 中 的 文 本 显 著 特 征 和 文 本 图 像 共 现 数 据 来 推 测 目 标 类 别 下 的 图 像 特 征 分 布, 表 示 为 P(f c) = N c 移 P(f w,c,s)p(w c,d) (6) w 沂 W(c) 其 中 :W(c) 是 事 件 类 别 c 下 文 本 集 合 D 中 最 显 著 的 文 本 特 征 集 合,N c 是 正 规 化 系 数,P( w c,d) 是 事 件 类 别 c 下 的 文 本 特 征 分 布,P(f w,c,s) 是 文 本 图 像 共 现 数 据 上 的 图 像 特 征 条 件 分 布 概 率. 式 (6) 表 示 若 给 定 事 件 类 别 c, 特 定 图 像 特 征 出 现 的 概 率 与 其 在 每 个 显 著 文 本 特 征 关 联 的 文 本 图 像 共 现 数 据 里 出 现 的 概 率 呈 正 比 例. 同 时, 特 定 图 像 特 征 出 现 的 概 率 还 与 每 个 显 著 文 本 特 征 对 目 标 概 念 的 重 要 程 度 相 关. 下 面, 具 体 阐 述 P(f w,c,s) 和 P(w c,d) 的 计 算 过 程. 首 先, 为 每 个 事 件 类 别 概 念 c 沂 C 计 算 文 本 特 征 分 布 P(w c,d), 并 以 此 计 算 最 显 著 的 事 件 文 本 特 征 集 合 W( c). 对 事 件 文 本 集 合 采 用 LDA 模 型 建 模, 并 使 用 拉 普 拉 斯 平 滑 来 解 决 文 本 主 题 特 征 稀 疏 的 问 题. P(w c,d) = [1 + n(w,c,d)] / [ W + n(c,d)] (7) n(w,c,d) = 移 n(w d)p(c d) (8) d 沂 D n(c,d) = 移 n(d)p(c d) (9) d 沂 D 然 后 计 算 文 本 图 像 共 现 数 据 集 中 图 像 特 征 条 件 分 布 P(f w,c,s), 依 然 使 用 拉 普 拉 斯 平 滑. P(f w,c,s) = [1 + n(f,w,c,s)] / [ F + n(w,c,s)] (10) n(f,w,c,s) = 移 n(f v)p(w,c d) (11) (v,d) 沂 S n(w,c,s) = 移 n(v)p(w,c d) (12) (v,d) 沂 S 4 实 验 4 郾 1 评 价 标 准 文 本 图 像 特 征 映 射 算 法 目 标 是 要 估 计 出 事 件 类 别 下 图 片 信 息 的 特 征 分 布. 根 据 视 觉 词 袋 模 型 所 具 有 的 特 征 独 立 性 假 设, 把 图 像 特 征 作 为 相 互 独 立 出 现 的 随 机 变 量. 图 像 特 征 分 布 可 以 表 示 为 一 个 维 度 与 特 征 词 袋 大 小 相 同 的 向 量 : F - 1 P(f c) = 掖 p 逸 0 业 = 0, 移 p = 1 (13) 将 余 弦 相 似 度 和 K 鄄 L 离 散 度 ( Kullback 鄄 Lebler dvergence) 作 为 性 能 评 价 尺 度, 设 定 某 种 概 率 分 布 p 是 数 据 基 准 分 布, 另 一 个 概 率 分 布 q 是 分 布 p 的 近 似. 2 个 特 征 分 布 的 余 弦 相 似 度 越 大, 则 2 种 特 征 分 布 就 越 接 近, 近 似 程 度 越 高. 余 弦 相 似 度 的 计 算 公 式 为 CS(p,q) = 移 p q ( 移 p 2 + 移 q 2 ) (14) K 鄄 L 离 散 度 是 评 价 2 个 概 率 分 布 差 异 性 的 非 对 称 型 度 量 标 准, 其 数 值 反 映 了 分 布 q 对 分 布 p 的 近 似 程 度. 在 基 准 图 像 数 据 特 征 分 布 确 定 时,K 鄄 L 离 散 度 定 义 为 4 郾 2 数 据 集 KL(p 椰 q) = 移 p lb p q (15) 数 据 集 采 自 互 联 网 上 15 个 类 别 的 食 品 安 全 事 件 的 相 关 报 道. 对 应 类 别 为, E1: 三 鹿 奶 粉 事 件 ; E2: 红 心 鸭 蛋 事 件 ;E3: 多 宝 鱼 事 件 ;E4: 金 浩 茶 油 事 件 ;E5: 麦 乐 鸡 事 件 ;E6: 塑 化 剂 事 件 ;E7: 瘦 肉 精 事 件 ;E8: 石 蜡 火 锅 底 料 事 件 ;E9: 地 沟 油 事 件 ;E10: 小 龙 虾 事 件 ;E11: 福 寿 螺 事 件 ;E12: 毒 馒 头 事 件 ;E13: 蛆 虫 柑 橘 事 件 ;E14: 爆 裂 西 瓜 事 件 ;E15: 毒 燕 窝 事 件. 根 据 事 件 的 持 续 时 间 长 短, 下 载 相 关 文 本 数 量 分 别 为 800 ~ 2 000 个, 其 中 文 本 图 像 伴 随 文 本 的 数 量 约 占 1 / 3 ~ 1 / 2. 一 个 文 本 图 像 伴 随 的 样 本 作 为 一 个 共 现 数 据 实 例, 而 对 于 一 个 样 本 里 面 有 多 幅 图 片 的 情 况, 认 为 是 一 幅 图 片 对 应 相 同 的 伴 随 文 本, 并 按 图 片 的 数 量 计 算 共 现 数 据 实 例 数 量. 通 过 人 工 方 式 从 互 联 网 搜 索 引 擎 和 相 关 网 页 上 搜 集 每 个 食 品 安 全 事 件 对 应 的 图 片 数 据. 对 于 每 个 事 件, 分 别 搜 集 200 ~ 400 张 图 片. 并 利 用 BOVW 模 型 对 每 张 图 片 进 行 视 觉 词 袋 表 示, 得 出 每 张 图 片 的 直 方 图 向 量 表 达. 4 郾 3 实 验 结 果 及 分 析 事 件 约 束 下 文 本 图 像 特 征 映 射 算 法 的 本 质 在 于 使 用 文 本 数 据 与 文 本 图 像 共 现 数 据 去 估 计 相 应 事 件 类 别 中 的 图 像 特 征 分 布. 评 价 算 法 的 一 个 视 角 是 看 估 计 出 的 分 布 是 否 与 该 事 件 类 别 下 的 基 准 图 像 特 征 分 布 相 似.

4 北 京 邮 电 大 学 学 报 第 35 卷 首 先 构 造 基 准 图 像 特 征 分 布, 使 用 每 个 事 件 类 别 c 下 的 全 部 图 片, 通 过 朴 素 贝 叶 斯 分 类 器, 得 出 一 个 图 像 特 征 分 布 作 为 基 准 特 征 分 布. 理 论 上, 在 训 练 数 据 充 分 多 的 情 况 下, 通 过 朴 素 贝 叶 斯 分 类 器 能 计 算 出 目 标 类 别 下 真 实 的 图 像 特 征 分 布. 选 择 较 为 直 观 的 2 种 方 法 与 文 本 图 像 特 征 映 射 算 法 作 对 比. 第 1 种 是 均 匀 分 布 算 法. 假 设 每 个 图 像 特 征 以 相 同 的 概 率 在 每 个 事 件 目 标 概 念 下 随 机 地 出 现. 第 2 种 方 法 是 标 记 查 询 算 法. 直 接 将 类 别 c 的 名 称 作 为 查 询 关 键 字, 在 互 联 网 搜 索 引 擎 中 进 行 搜 索, 使 用 返 回 的 前 K 张 图 片 对 朴 素 贝 叶 斯 模 型 进 行 训 练 得 到 图 片 特 征 分 布, 本 实 验 根 据 经 验 取 K 值 为 50. 3 种 算 法 在 余 弦 相 似 度 下 的 效 果 比 较 如 图 2 所 示, 度 量 结 果 中, 值 越 大 越 好. 分 布, 而 均 匀 分 布 算 法 只 在 一 个 类 别 (E6) 下 接 近 其 他 算 法 所 得 结 果. 通 过 检 查 该 类 别 下 的 数 据 发 现, 这 是 由 于 其 图 片 数 据 相 互 差 异 过 大 造 成 的. 通 过 标 记 查 询 算 法 在 3 个 类 别 (E1,E9,E11) 下 与 笔 者 所 提 出 的 文 本 图 像 特 征 映 射 算 法 效 果 相 当. 通 过 检 查 数 据, 对 于 这 几 个 事 件 类 别, 从 搜 索 引 擎 上 直 接 输 入 事 件 类 别 名 作 为 查 询 关 键 字, 所 得 的 图 片 与 事 件 类 别 关 联 度 都 相 当 紧 密, 所 以 标 记 查 询 算 法 所 近 似 的 分 布 效 果 比 较 好. 除 了 与 上 述 直 接 方 法 进 行 比 较 外, 可 从 不 同 训 练 数 据 规 模 的 角 度 来 衡 量 一 个 近 似 图 片 特 征 分 布 对 基 准 分 布 的 逼 近 程 度. 每 次 从 所 搜 集 到 的 事 件 图 片 数 据 集 的 每 个 类 别 中, 随 机 地 挑 选 N 张 图 片, 并 训 练 朴 素 贝 叶 斯 模 型 100 次, 将 每 次 得 到 的 图 像 特 征 分 布 和 基 准 分 布 作 比 较, 最 后 把 所 有 重 复 轮 次 下 的 结 果 进 行 算 数 平 均. 每 个 事 件 类 别 下 每 次 随 机 选 取 的 图 片 数 量 依 次 为 20 40 60 80 100 120 140 160. 对 均 匀 分 布 算 法 标 记 查 询 算 法 和 特 征 映 射 算 法 在 每 个 类 别 下 的 近 似 结 果 取 平 均 值, 然 后 与 上 面 的 方 法 进 行 比 较. 图 4 和 图 5 给 出 了 在 2 种 度 量 尺 度 下, 这 些 近 似 计 算 方 法 所 得 到 的 图 像 特 征 分 布 与 基 准 分 布 的 平 均 差 异. 图 2 余 弦 相 似 度 下 不 同 算 法 估 计 分 布 的 效 果 比 较 图 3 所 示 为 3 种 算 法 在 K 鄄 L 离 散 度 下 的 预 测 效 果 比 较, 可 见, 度 量 结 果 中, 值 越 小 越 好. 图 4 余 弦 相 似 度 下 不 同 算 法 估 计 分 布 的 效 果 比 较 图 3 K 鄄 L 离 散 值 下 不 同 算 法 估 计 分 布 的 效 果 比 较 从 以 上 不 同 度 量 尺 度 下 不 同 算 法 估 计 分 布 的 效 果 比 较 图 中 可 看 出, 文 本 图 像 特 征 映 射 算 法 在 大 多 数 事 件 类 别 下 产 生 的 图 像 特 征 分 布 最 接 近 其 基 准 从 图 4 和 图 5 可 看 出, 文 本 图 像 特 征 映 射 算 法 与 用 100 张 带 标 注 的 图 片 训 练 所 得 特 征 分 布 相 当. 表 明 文 本 图 像 特 征 映 射 算 法 可 有 效 地 从 相 关 事 件 的 文 本 数 据 和 文 本 图 像 共 现 数 据 中 学 习 到 目 标 事 件 类 别 下 的 图 像 特 征 分 布. 5 结 束 语 提 出 了 一 种 利 用 同 一 主 题 事 件 下 的 文 本 图 像 共 现 数 据 实 现 文 本 和 图 像 数 据 之 间 特 征 迁 移 的 学 习

第 6 期 刘 杰 等 : 一 种 基 于 迁 移 学 习 的 文 本 图 像 特 征 映 射 算 法 5 图 5 K 鄄 L 离 散 值 下 不 同 算 法 估 计 分 布 的 效 果 比 较 算 法. 通 过 基 于 Gbbs 抽 样 的 LDA 模 型 和 信 息 增 益 计 算 出 显 著 文 本 特 征, 并 且 利 用 BOVW 模 型 和 朴 素 贝 叶 斯 方 法 对 图 像 数 据 进 行 主 题 建 模. 随 后 在 同 一 事 件 文 本 图 像 共 现 数 据 的 帮 助 下, 将 文 本 特 征 分 布 映 射 到 图 像 特 征 空 间, 并 近 似 出 该 事 件 下 图 像 数 据 的 特 征 分 布. 在 包 含 15 个 主 题 事 件 的 数 据 集 上 进 行 了 实 验, 结 果 证 明 了 所 提 出 的 事 件 约 束 下 文 本 图 像 特 征 映 射 算 法 的 有 效 性. 参 考 文 献 : [1] Zhu Zhenfeng, Zhu Xngquan, Ye Yangdong, et al. Transfer actve learnng [ C ] 椅 Proceedngs of the 20 th ACM Internatonal Conference on Informaton and Knowl 鄄 edge Management. Glasgow: ACM, 2011: 2169 鄄 2172. [2] Zhu Yn, Chen Yuqang, Lu Zhongq, et al. Heterogene 鄄 ous transfer learnng for mage classfcaton [ C] 椅 Pro 鄄 ceedngs of the 25 th AAAI Conference on Artfcal Intell 鄄 gence. San Francsco: AAAI Press, 2011: 1304 鄄 1309. [3] Q Guojun, Aggarwal C, Huang Thomas. Towards se 鄄 mantc knowledge propagaton from text corpus to web m 鄄 ages[ C] 椅 Proceedngs of the 20 th Internatonal Confer 鄄 ence on World Wde Web. Hyderabad: ACM Press, 2011: 297 鄄 306. [4] Muslea I, Mnton S, Knoblock C A. Actve + sem 鄄 super 鄄 vsed learnng = robust mult 鄄 vew learnng[c] 椅 Proceed 鄄 ngs of the 19 th Internatonal Conference on Machne Learnng. Sydney: ACM Press, 2002: 435 鄄 442. [5] Pan S J L, Yang Qang. A Survey on transfer learnng [J]. IEEE Transacton on Knowledge and Data Engneer 鄄 ng, 2010, 22(10): 1345 鄄 1359. [6] Pan Jaln. Feature 鄄 based transfer learnng wth real 鄄 world applcaton[ D]. Hong Kong: The Hong Kong Unversty of Scence and Technology, 2010. [7] Porteous I, Newman D, Ihler A, et al. Fast collapsed gbbs samplng for latent drchlet allocaton [ C] 椅 Pro 鄄 ceedngs of the 14 th ACM SIGKDD Internatonal Confer 鄄 ence on Knowledge Dscovery and Data Mnng. Las Ve 鄄 gas: ACM Press, 2008: 569 鄄 577. [8] Bay H, Eelaars A, Gool L V. Speed 鄄 up robust features (SURF) [ J]. Computer Vson and Image Understand 鄄 ng, 2008, 110(3): 346 鄄 359. [9] L Fefe, Perona P. A bayesan herarchcal model for learnng natural scene categores[c] 椅 Proceedngs of the IEEE Computer Socety Conference on Computer Vson and Pattern Recognton. San Dego: IEEE Press, 2005: 524 鄄 531.