第 31 卷第 5 期 2013 年 9 月 应用科学学报 JOURNAL OF APPLIED SCIENCES Electronics and Information Engineering Vol. 31 No. 5 Sept DOI: /j.issn

Similar documents
untitled

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

1 引言

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

(Pattern Recognition) 1 1. CCD

2 137 [5]. [6].. [7]. [8-9].. (PCA) PCA HIS C1C2C3.. RGB Hotelling. [1-11]. R G B 3. RGB 1) RGB M N 3 x = [x R x G x B ] T. RGB 3 3 C x (1)

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN


报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

[1] [4] Chetverikov Lerch[8,12] LeaVis CAD Limas-Serafim[6,7] (multi-resolution pyramids) 2 n 2 n 2 2 (texture) (calf leather) (veins)

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

Vol. 22 No. 2 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Apr ,,,,, Apriori,,,,,,,,

<4D F736F F D20C9CFBAA3BFC6BCBCB4F3D1A7D0C5CFA2D1A7D4BA C4EAC7EFBCBEC8EBD1A7B2A9CABFD7CAB8F1BFBCCAD4CAB5CAA9CFB8D4F22D C8B7B6A8B8E5>

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

92 湖 南 工 业 大 学 学 报 2014 年 基 于 特 征 的 方 法 是 现 今 图 像 匹 配 的 主 要 研 究 与 发 展 方 向 这 种 匹 配 方 法 的 原 理 是, 寻 找 待 处 理 图 像 某 区 域 中 的 特 征 点 或 者 关 键 点, 在 计 算 特 征 点 周

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

标题

United Nations ~ ~ % 2010

soturon.dvi

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

2013国际营销科学与信息技术大会(MSIT2013)

y 1 = 槡 P 1 1h T 1 1f 1 s 1 + 槡 P 1 2g T 1 2 interference 2f 2 s y 2 = 槡 P 2 2h T 2 2f 2 s 2 + 槡 P 2 1g T 2 1 interference 1f 1 s + n n

北 京 大 学

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

Microsoft Word doc

标题

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

untitled

标题

Machine Learning for Computer Vision

p 3 p 4 p 5 p 6 p 7 p 8 p 9 p 10 p 11 θ 1 θ 2 θ 3 θ 4 θ 5 θ 6 θ 7 θ 8 θ 9 θ d 1 = 0 X c 0 p 1 p 2 X c 0 d pi p j p i p j 0 δ 90

2014 年 11 月 总 第 251 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 赠 人 一 片 云 1 科 研 动 态 与 学 术 交 流 自 动 化 所 人 脸 识 别 技 术 在 首 届

附3


/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

山东省招生委员会

Stock Transfer Service Inc. Page No. 1 CENTURY PEAK METALS HOLDINGS CORPORATION (CPM) List of Top 100 Stockholders As of 12/31/2015 Rank Sth. No. Name

Microsoft Word doc

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

标题

214 年 第 3 期 郑 丹 青 等 : 高 职 学 生 个 性 特 征 及 职 业 能 力 调 查 与 分 析 61 一 问 题 的 提 出 随 着 高 等 教 育 大 众 化, 高 职 院 校 的 学 生 来 源 出 现 多 样 化, 学 生 的 基 本 素 质 和 职 业 能 力 参 差 不

Microsoft Word - 专论综述1.doc

08_729.dvi

穨423.PDF

标题

T K mm mm Q345B 600 mm 200 mm 50 mm 600 mm 300 mm 50 mm 2 K ~ 0. 3 mm 13 ~ 15 mm Q345B 25

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

untitled

元培科技大學 年度「傑出校友」推薦表

2016 YOUNG MATHEMATICIAN FORUM Introduction To promote academic communication and cooperation between young staffs from the SMS and the BICMR of Pekin

标题

Z-I A b Z-I A b Z Z-I A A b Z-I Miller [5] Z i I i Z-I [6] Z-I Z-I Z-I Z-I Z I Wilson [7] 1970 [8] [9] 20.32% Sasaki [10] Nino- miya [11] [12]

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

Journal of Northwestern Polytechnical University Apr. Vol No. 2 ICM ICM ICM ICM ICM ICM TP A

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

Microsoft Word tb 何颖

34 22 f t = f 0 w t + f r t f w θ t = F cos p - ω 0 t - φ 1 2 f r θ t = F cos p - ω 0 t - φ 2 3 p ω 0 F F φ 1 φ 2 t A B s Fig. 1

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

基于因子分析法对沪深农业类上市公司财务绩效实证分析

Supporting_Information_revise

Microsoft Word 記錄附件

Microsoft Word - 专论综述1.doc

中文模板

Microsoft Word 简报第3期 修改

交流活动

专 技 能 1. 精 通 Matlab/Simulink 平 台 下 的 海 洋 运 载 器 运 动 控 制 系 统 与 仿 真 建 模 设 计 ; 2. 精 通 51 单 片 机 AVR 单 片 机 Arduino 开 源 板 的 开 发 和 设 计 ; 3. 精 通 基 于 Arduino 板

<4D F736F F D20B8BDBCFE3220BDCCD3FDB2BFD6D8B5E3CAB5D1E9CAD2C4EAB6C8BFBCBACBB1A8B8E6A3A8C4A3B0E5A3A92E646F6378>

H 2 SO ml ml 1. 0 ml C 4. 0 ml - 30 min 490 nm 0 ~ 100 μg /ml Zhao = VρN 100% 1 m V ml ρ g

2011年上海市高校精品课程申报表(本科)


LaDefense Arch Petronas Towers 2009 CCTV MOMA Newmark Hahn Liu 8 Heredia - Zavoni Barranco 9 Heredia - Zavoni Leyva

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

效 率 的 評 估 準 則 1.1 研 究 動 機 和 背 景 常 見 於 數 位 相 機 的 自 動 對 焦 系 統, 分 為 主 動 式 和 被 動 式 自 動 對 焦 兩 種 技 術 主 動 式 對 焦 系 統, 必 需 藉 助 測 量 距 離 裝 置 主 動 元 件, 測 量 拍 攝 物 體

Revit Revit Revit BIM BIM 7-9 3D 1 BIM BIM 6 Revit 0 4D 1 2 Revit Revit 2. 1 Revit Revit Revit Revit 2 2 Autodesk Revit Aut

中國傳統醫學及養生保健學說中,與經脈及穴道有密不可分的關係

[1] Nielsen [2]. Richardson [3] Baldock [4] 0.22 mm 0.32 mm Richardson Zaki. [5-6] mm [7] 1 mm. [8] [9] 5 mm 50 mm [10] [11] [12] -- 40% 50%

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

1

Improved Preimage Attacks on AES-like Hash Functions: Applications to Whirlpool and Grøstl

(1) ( ) : (3), (12) (7) (10)

2/80 2

Microsoft Word - KSAE06-S0262.doc

电 信 领 域 排 名 前 20 名 占 15 席 1 IEEE Communications Surveys And Tutorials IEEE Communications Magazine IEEE Journal On Selected A

理 成 可 做 關 聯 分 析 的 格 式, 再 應 用 統 計 統 計 計 算 軟 體 R (R Core Team, 2013) 中 的 延 伸 套 件 arules (Hahsler, Gruen, and Hornik, 2005; Hahsler, Buchta, Gruen, and H

Microsoft Word - A doc

義 守 大 學 101 學 年 度 第 2 學 期 第 4 次 行 政 會 議 紀 錄 時 間 :102 年 5 月 8 日 ( 星 期 三 ) 下 午 14:00 地 點 : 行 政 大 樓 十 樓 國 際 會 議 廳 主 席 : 顏 志 榮 副 校 長 紀 錄 : 楊 育 臻 壹 報 告 事 項

江苏省高等学校

RPN 2 DeepParts 22 part pool 2 3 HOG 12 LBP 13 Harr - like 15 DPM 16 Deformable Parts Model VGG16 X. Wang 14 VGG Convolutiona

Transcription:

第 31 卷第 5 期 2013 年 9 月 应用科学学报 JOURNAL OF APPLIED SCIENCES Electronics and Information Engineering Vol. 31 No. 5 Sept. 2013 DOI: 10.3969/j.issn.0255-8297.2013.05.013 一种用于手势识别的局部均值模式纹理描述子 丁友东 1, 庞海波 2,3, 吴学纯 2, 魏小成 2 1. 上海大学影视艺术技术学院, 上海 200072 2. 上海大学计算机工程和科学学院, 上海 200072 3. 郑州大学软件技术学院, 郑州 450002 摘要 : 提出了一种改进的局部二值模式即局部均值模式用于对静态手势进行分类. 计算不同分辨率的原始手势图像 非线性光照变化图像 高斯模糊图像和椒盐噪音图像的局部均值模式 局部二值模式和局部角相模式. 利用 gentle_adaboost 分类算法对这些算子特征进行训练和测试, 实现手势分类. 文中提出的局部均值模式能充分利用区域内像素灰度值之间相关性和区别性信息进行编码, 恰当地描述不同手势的特征, 具有简单快速及良好的区分度等特点. 实验结果表明 : 与局部二值模式和局部角相模式相比, 局部均值模式算子取得了更高的分类准确度. 对于原始图像, 该描述子的分类准确度达到 95%, 同时该模式对非线性光照变化和高斯模糊具有较强鲁棒性. 关键词 : 局部二值模式 ; 局部均值模式 ; 手势识别 ; 鲁棒性 ; 分类算法中图分类号 :TP391.41 文章编号 :0255-8297(2013)05-0526-07 Local Mean Pattern Texture Descriptor for Gesture Recognition DING You-dong 1, PANG Hai-bo 2,3, WU Xue-chun 2, WEI Xiao-cheng 2 1. School of Film and TV Arts Technology, Shanghai University, Shanghai 200072, China 2. School of Computer Engineering and Science, Shanghai University, Shanghai 200072, China 3. School of Software Technology, Zhengzhou University, Zhengzhou 450002, China Abstract: This paper presents an improved local binary pattern (LBP) descriptor, known as the local mean pattern (LMP), to classify static gestures. We select original gesture images, nonlinear illumination images, Gaussian blurred images, and images contaminated by salt and pepper noise, calculate their LMP, LBP and local angular phase (LAP) descriptor. The gentle_adaboost classification algorithm is used for training and verifying these gesture features. The descriptor makes full use of correlation and difference of pixel gray values in certain regions. It is a good description for the characteristics of different gesture images. Experiment results show that LMP descriptor outperforms LBP and LAP. Classification accuracy of LMP descriptor reaches 95%. The descriptor is robust to nonlinear illumination and Gaussian blur. Keywords: local binary pattern, local mean pattern, gesture recognition, robust, classification algorithm 随着计算机技术和多媒体技术的不断发展, 以及人们需求的不断增加, 键盘 鼠标等传统输入设备已不能充分满足人机交互的需求, 于是寻求新的交互形式成为研究热点. 其中基于计算机视觉的人机交互系统研究引起了广泛的关注. 人机交互系统研究内容主要包括人脸识别 姿势识别 手势识别 声音识别 指 纹识别 掌纹识别和虹膜识别等. 其中, 手势是一种特殊形式的语言, 也是人们之间交流的一种重要形式. 它具有普遍性 易识别性和多样性等特点, 被广泛应用于人机交互系统中. 到目前为止, 已经有大量成熟的算法应用于手势识别, 并且也有一些手势识别产品应用于生活 [1]. 然而, 手势识别算法本身还存在一些 收稿日期 :2011-09-06; 修订日期 :2011-11-13 基金项目 : 上海市科委国际合作项目基金 (No.09510700900); 上海市重点学科建设项目基金 (No.J50103); 上海市教委创新项目基金 (No.09YZ10) 资助作者简介 : 丁友东, 教授, 博导, 研究方向 : 模式识别和可视媒体修复,E-mail: ydding@shu.edu.cn

第 5 期丁友东等 : 一种用于手势识别的局部均值模式纹理描述子 527 问题, 识别结果容易受外在条件如光照 遮挡 灰度变化 模糊等影响而导致识别率降低, 且单一算法鲁棒性不强. 文献 [2] 提出了一种多角度手势识别方法, 首先将 3 个摄像机摆放在手左前方 前方 右前方, 单独采集图像. 然后利用一个支持向量机 (support vector machine, SVM) 对每个摄像机的输出进行手势训练, 于是形成 3 个 SVM 分类器. 训练结束后, 对手势的识别采用投票的方法, 根据少数服从多数的原则给出最终识别结果. 该方法的正确率可以达到 93%, 但该研究只针对 3 种手势, 尤其是当手势种类增加时, 识别率显著下降. 文献 [3] 引入 Gabor 滤波 主成分分析 (principal components analysis, PCA) 和 SVM 算法, 解决了复杂背景下简单手势的识别问题. 利用肤色模型从视频序列中提取很多手势图片, 借助 Gabor 滤波获取特征 ; 然后采用 PCA 方法对 Gabor 滤波获取的数据空间进行降维 ; 最后将 SVM 分类器引入实验中并对这些获取的特征进行训练和验证. 该方法正确率可以达到 95.2%, 但需要选择不同尺度滤波窗口和很多滤波参数, 故处理时间不能满足实时需求. 文献 [4] 对分割的手势进行角度估计和修正, 将识别正确率提高到 96.1%, 但对每一帧图片的处理时间为 250 ms, 远远不能满足实施系统需求. 文献 [5] 采用 Gabor 滤波和 PCA 方法对美国手语字母进行识别, 识别率比较低. 文献 [6] 提出了一个两层次的识别方法, 在第 1 层次利用类 Haar 特征和 Adaboost 方法进行粗分类, 第 2 层次采用一个基于随机猜测上下文无关文法的统计分析方法进行识别. 该方法在 4 种手势角度旋转不超过 15 的基础上进行, 平均 AUC(area under curve) 接近 0.98, 对分辨率为 320 240 的图片, 可以达到每秒钟 15 帧的处理速度 ; 但并没有给出方法的平均准确率 ; 而且该研究采用的手势只有 4 种, 且这些手势本身区分度比较大, 当手势种类增加时, 识别准确率快速下降. 局部二值模式 (local binary pattern, LBP) [7] 是一种密集型的算子, 其特征描述能力强于稀疏算子, 于是被直接用来进行人手检测及跟踪等, 或结合其他特征进行人脸 手势等识别. 文献 [8] 将 LBP 和拉普拉斯特征脸相结合, 进行人脸表情识别, 取得了 70.48% 的准确率 ; 文献 [9] 利用了修改的 LBP-TOP 算子实现人的动作识别, 获得了 91.25% 的准确率 ; 文献 [10] 将 LBP 算子用于 3 种手势的检测和识别, 取得了 93.13% 的准确率. 文献 [11] 提出了 LBP 和 haar 小波结合的特征, 并用于图像检索, 所得效果优于单独的 Haar 小波特征 LBP 特征. 文献 [12] 针对 LBP 算子本身的改进, 提出了局部角相 (local angular phase, LAP) 算 子. 该算子是一种稀疏算子, 它对局部空间像素极坐标进行傅里叶转换, 然后利用该转换的相位信息提取特征. 当该特征用于纹理分类时, 分类效果优于 LBP 算子特征 ; 用于本研究中的手势分类时, 其分类能力不如 LBP 算子. 文献 [13] 结合 Gabor 滤波和 LBP 进行硬币识别, 即对 Gabor 滤波后结果进行特征统计, 结合 LBP 特征并利用最近邻分类器进行识别, 取得了 81.4% 的准确率, 不但准确率不高, 而且特征提取时间较长. 除了文献 [12] 是针对 LBP 算子进行改进外, 其他文献均结合多种特征结合进行研究和实验. 本文对 LBP 算子本身进行改进, 以期获得更好的特征描述能力. 研究重点是对比 LBP LAP 和改进的 LBP 算子特征描述能力. 手势识别的主要任务是提取不同手势特征. 不同手势之间特征区分度越大, 分类效果越好. 但是, 特征的提取通常受到光照 尺度 模糊和噪声的影响. LBP 方法和 LAP 方法对尺度变化都具备一定的鲁棒性, 但对于非线性亮度变化和图像模糊鲁棒性不明显, 特别是在灰度平坦区域, 即亮度值变化很小的情况下, 提取的特征不能真实代表原始特征 ; 在边界区域, 提取的特征也不能很好地突出边界特性. 本文在文献 [7] 的基础上研究并改进了 LBP 算子, 提出了局部均值模式 (local mean pattern, LMP). LMP 算子是一种高区分度的算子, 对尺度变化 非线性亮度变化 图像模糊具有很强鲁棒性, 且经实验证明它具有 LBP 算子所不具备的特征描述能力, 是一种较强的纹理描述算子. 1 局部二值模式和局部均值模式 1.1 局部二值模式 LBP 局部二值模式 LBP 是一种有效的纹理描述算子, 能够提取图像中局部区域的纹理特征. 它具有高分辨率 对灰度单调变化不敏感和计算速度快等优点, 常用于表情识别 人脸识别和手势识别等. 最初的 LBP 算子定义是以像素 g c (x, y) 为中心点, 取其周围 3 3 的窗口为计算范围, 将相邻的 8 个像素与 g c (x, y) 进行减操作. 如果周围某像素的灰度值大于中心像素灰度值, 则将该像素所在位置设置标记 1, 否则设置标记 0. 经上述处理后, 像素 g c (x, y) 周围有 8 位二进制的 1 和 0, 然后将这 8 位二进制数按照顺时针或者逆时针顺序进行编码, 最终转换成一个介于 0 255 之间的十进制数, 这就是中心像素 g c (x, y) 的 LBP 编码值. LBP 算子形成过程如图 1 所示. 分析 LBP 算子的形成过程可以看出, 当光照变化不明显, 不足以改变中心像素与周围像素之间的

528 应用科学学报第 31 卷 大小关系时, 计算得到的 LBP 算子是固定的, 表明 LBP 算子具有一定的线性光照不变性. 对于模糊图像的情况, 特别是在模糊图像的边缘区域,LBP 算子特征不能充分代表原始图像特征. 最初的 LBP 算子由于选择了 3 3 的窗口进行采样, 采样点数 P 仅为 8, 明显偏少 ; 且由于选择半径 R = 1 的小区域, 只能代表很小区域特征, 对整体区域描述能力有限. 于是, 后来出现了一些针对 LBP 算子的半径 R 采样点数 P 进行的改进 [7], 希望获得更好的特征描述能力, 如 R = 2,P = 16 的 LBP 算子. 然而, 随着半径 R 和采样点数 P 的增加, 计算出的 LBP 算子模式也迅速增加. 因此,Ojala 提出了统一模式, 利用该模式对 LBP 算子编码图像进行降维, 可以大大减少特征模式的维数. 为了提高 LBP 特征描述能力,Ojala 又提出了旋转不变模式和傅里叶局部二值模式 [14]. 图 1 基本 LBP 算子定义 Figure 1 LBP definition 1.2 局部均值模式 LMP 局部均值模式 LMP 是在充分分析 LBP 算子存在不足的情况下提出的, 可以解决如下问题 :1) 非线性光照变化引起的 LBP 算子不稳定 ;2) 边界区域特征响应不明显 ;3) 图像模糊引起的 LBP 算子不稳定等问题. LMP 算子对纹理描述类似于 LBP 算子. 步骤 1 首先 LMP 算子定义为在 n n 的窗口, 以窗口中心像素 g c (x, y) 为阈值. 将相邻 P 个像素点的像素值与 g c (x, y) 分别相减, 并记下该差值 d p (p = 1,, P ), 形成式 (1) 所示的向量 T T = t(d 1, d 2,, d p ), p = 1,, P (1) 式中,T 是一个纹理描述算子, 能反映像素 g c (x, y) 与它周围像素之间的关系 [7]. 步骤 2 为了提高该向量对非线性光照的鲁棒性, 根据式 (2) 求向量 T 元素的均值 m m = (d 1 + d 2 + d p )/P, p = 1,, P (2) 步骤 3 然后求向量 T 的每个 d p (p = 1,, P ) 与均值 m 的差, 可得到向量 F. F = (d 1 m, d 2 m,, d p m), p = 1,, P (3) 步骤 4 接着对向量 F 进行归一化操作, 归一化到区间 ( 1,1). N =2(F p F. min)/(f. max F. min) 1, p = 1,, P (4) 步骤 5 为了提高边界区域的特征值响应, 并考虑到向量 N 存在的符号问题, 由式 (5) 对向量 N 的元素求绝对值, 得到向量 L N p, N p 0 L =, p = 1,, P (5) N p, otherwise 步骤 6 为尽量减少与像素 g c (x, y) 灰度值相近像素的影响, 根据式 (6) 求向量 L 每一个元素的近似值, 得到向量 R. { 1, Lp 0.5 R =, p = 1,, P (6) 0, otherwise 步骤 7 最后, 将向量 R 组织成一组二进制的值, 例如, 当 P = 8 时, 将 R 1,R 2,, R 8 的二进制数分别赋予一定的权值进行累加, 如式 (7) 所示. LMP = P 1 p=0 R p 2 p 1, p = 1,, P (7) LMP 算子形成过程如图 2 所示. 经步骤 1 7 处理之后, 像素 g c (x, y) 可以用 LMP 值来代替. 类似于 LBP 算子, 对于灰度平滑区域, 差值结果较小, 在图像对象的边界区域或者点区域, 利用上述方法对图像进行处理之后所得到的 LMP 算子值较大. 图 2 改进 LBP 算子 Figure 2 Improved LBP 该算子充分利用了区域内像素之间的相关性和区别性, 对非线性光照及图像模糊都具有较强的鲁棒性. 类似于 LBP 算子,LMP 算子既可以采用统一模板降维, 又可以实现旋转不变性. 因此,LMP 算子是一个高区分度算子. 2 实验数据获取和处理 2.1 实验图像获取 为了获得实验所用手势图像, 本文首先利用摄像机拍摄 12 种不同手势的视频, 视频分辨率 320 240 像素 ; 然后将视频处理成单帧图像, 选择具有代表性

丁友东等 一种用于手势识别的局部均值模式纹理描述子 第5期 和一些有较大旋转角度 (约40度) 的手势图像作为实 验素材 构建一个总计 600 张图像的实验图库 其中 包含 12 种手势 每种手势取 50 张图像. 12 种手势分 别如图 3 所示 图 4 是具有代表性手势 1 和 3 的 不同角度图片. 图 3 实验采用的不同手势 Figure 3 Different gestures in experiments 529 LABR2009b 上编程实现 并且将 gentle_adaboost 分类算法[15] 引入实验进行分类. 实验过程如下 1) 训练和测试 将 600 张手势图像提取的特征随机划分为训练数 据和测试数据 其中训练特征数据 420 组 测试特征 数据 180 组. 2) 实验结果 分析每类数据训练和测试的 ROC(receiver operating characteristic) 曲线 并计算每类数据分类准 确度. 详细的 LBP LAP 和 LMP 算子特征分类比较见 表 1 和 2. 本节着重对 LBP 算子特征和 LMP 算子特 征分类性能进行比较. 图 4 数字 1 和 3 的不同角度手势 Figure 4 Different gestures of number 1 and 3 2.2 实验图像预处理和特征提取 本实验对尺度为 320 240 像素的图像分别进行 非线性亮度变化 高斯模糊和添加椒盐噪声处理 得 到 3 组图像 对尺度为 40 30 像素的图像进行同样 的操作 也可以得到 3 组图像. 在上述所有实验图像 上进行实验 比较 LBP LAP 和 LMP 算子对尺度 光照 模糊和椒盐噪声的鲁棒性. 对上述几类图像求 LBP LAP 和 LMP 算子特 征 得到 LBP LAP 和 LMP 编码图像 然后采用统 一模式进行降维. 本实验取采样半径 R = 1 采样点 数 P = 8(对于 LAP 特征 采样点个数 P 为 9). 对于 采样点坐标不在像素中心的采样值 采用双线性插值 进行处理. 于是 对每一张实验图像可以求得 59(LAP 为 75) 个特征值 然后将图像旋转 90 再利用统一模 式取得 59(75) 个特征值 并将这些特征值组织成一个 具有 118(150) 列的行向量. 经过上述处理后 对应于 LBP LAP 和 LMP 算 子分别有如下几类特征 尺度为 320 240 的原始图 像 非线性亮度变化图像 高斯模糊图像和加椒盐噪 声图像 以及尺度为 40 30 的原始图像 非线性亮度 变化图像 高斯模糊图像和加椒盐噪声图像. 3 实验结果和分析 实验运行环境 Inter(R) core (TM) 2 Quad CPU Q8300 @2.5 GHz 2.5 GHz, 3.00 GB 内存 在 MAT- 图 5 40 30 原始图像 LMP 结果 Figure 5 40 30 original image LMP result 图 5(a) 为对尺度 40 30 原始图像进行 LMP 特 征提取后利用 gentle_adaboost 算法分类的 ROC 曲 线图 图 5(b) 是利用 LBP 特征所获得的 ROC 曲线 图. 从图中可以看出 LMP 算子特征和 LBP 算子特 征的 ROC 曲线基本相同 LMP 特征略有优势 同样

应 530 用 科 学 它们分类的准确度分别是 0.876 0 0.856 7 说明 LMP 特征具有比 LBP 特征更高的分类准确度. 图 6(a) 显示了对高斯模糊图像提取 LMP 特征进 行分类的 ROC 曲线图 图 6(b) 显示了在同组实验图 像上获得的 LBP 特征 ROC 曲线图. 可见 经过高斯 模糊图像的 LMP 特征略优于 LBP 特征. 进一步计 算这两类特征的准确度分别是 0.873 3 0.854 6 因此 无论是 ROC 曲线还是准确度 LMP特征都比 LBP 特 征有一些优势. 学 报 第 31 卷 组实验图像上获得的 LBP 特征的 ROC 曲线图. 可 以看出 与 LBP 特征相比 加椒盐噪声图像的 LMP 特征性能急速下降 它们分类的准确度分别是 0.583 3 和 0.691 7 说明 LMP 特征对椒盐噪声更加敏感. 图 7 40 30 非线性亮度变化图像 LMP 结果 Figure 7 40 30 nonlinear illumination LMP result 图 6 40 30 高斯模糊 LMP 结果 Figure 6 40 30 Gaussian blurred LMP result 图 7(a) 是对非线性亮度变化的 40 30 图像提取 LMP 特征后进行分类的 ROC 曲线图 图 7(b) 显示了 在同组实验图像上获得的 LBP 特征 ROC 曲线图. 可 以看出 经过非线性亮度变化图像的 LMP 特征略优 于 LBP 特征. 进一步计算这两类特征的准确度分别 是 0.883 3 0.855 0 类似于图 6 的结果 无论是 ROC 曲线还是准确度 LMP 特征都比 LBP 特征有一些 优势. 图 8(a) 是对加椒盐噪声的 40 30 图像提取 LMP 特征后进行分类的 ROC 曲线图. 图 8(b) 显示了在同 考虑到图像尺度存在的影响 图 9(a) 是对尺度为 320 240 原始图像提取 LMP 特征进行分类的 ROC 曲线图 图 9(b) 是对同组图像提取 LBP 特征进行 分类的 ROC 曲线图 可以看出 此时 AUC 值很接 近 LBP 特征有些优势 但计算 LMP 特征和 LBP 特 征的准确度分别为 0.953 3 和 0.938 3 LMP 特征分类 准确度优于 LBP 特征. 同前述图像尺度为 40 30 的 实验相比 当图像尺度增加时 分类准确率明显提高. 本实验采用了 12 种不同手势 由于旋转和遮挡 影响 一些不同手势非常接近以及相同手势相差很 大 从而导致分类准确度降低 这是由实验数据本身 造成的 如图 10 和 11 所示. 在图 10 中左边所示是实验中代表数字 10 的手 势 右边也是数字 10 的手势 由于受到旋转影响

第5期 丁友东等 一种用于手势识别的局部均值模式纹理描述子 531 从人眼视觉已经很难将它们划分为同一类手势 从而 在分类实验中产生了分类错误. 图 9 320 240 原始图像 LMP 结果 Figure 9 320 240 original image LMP result 图 8 0 30 椒盐噪声图像 LMP 结果 Figure 8 40 30 salt and pepper noised LMP result 图 10 数字 10 的两种角度图像 在图 11 中左边所示是本实验中代表数字 1 的 手势 右边是代表数字 9 的手势 同样由于旋转和 视角的影响 这两个手势显得非常相似 在分类实验 中产生了分类错误. 表 1 是尺度为 40 30 时利用 LBP LAP 和 LMP 算子提取特征分类的准确度 表 2 是尺度为 320 240 时获得的相应准确度. 比较上述实验以及表 1 和 2 可 以看出 LMP 算子对非线性亮度变化 高斯模糊都有 较强的鲁棒性 在尺度增大情况下 会获得更高准确 率 当实验图像大小为 320 240 时 准确率可以达 到 0.953 3 优于 LBP 算子的 0.938 3 和 LAP 算子的 0.926 7. 另外 该算法对于椒盐噪声非常敏感 实验 中只对图像添加因子为 0.1 的椒盐噪声 LMP特征获 得的分类准确度明显低于其他两个算子 因此在进行 手势图像识别之前 先要去除图像的椒盐噪声. Figure 10 Two-angle images of number 10 图 11 数字 1 和数字 9 相近的图像 Figure 11 Similar images of number 1 and number 9 同时 在本实验平台上对 40 30 的实验图像进行 验证时间大约为0.01 s 完全能够满足实时系统的需 要 当增加图像尺度时 处理速度会变慢 对 320 240 的图像进行测试时间大约为 0.1 s 也基本上能够满足 实时系统需要. 表 1 图像分辨率为 40 30 时 LBP LAP 和 LMP 准确度

532 应用科学学报第 31 卷 Table 1 LBP, LAP and LMP accuracies when image is 40 30 pixels original noise Gaussian blur nonlinear illumination LAP 0.8667 0.7767 0.8833 0.8633 LBP 0.8567 0.6917 0.8546 0.8550 LMP 0.8760 0.5833 0.8733 0.8833 表 2 图像分辨率为 320 240 时 LBP LAP 和 LMP 准确度 Table 2 LBP, LAP and LMP accuracies when image is 320 240 pixels original noise Gaussian blur nonlinear illumination LAP 0.9267 0.9067 0.9167 0.9133 LBP 0.9383 0.8767 0.9200 0.9300 LMP 0.9533 0.8367 0.9400 0.9433 4 结语 本文采用一种在静态手势识别中使用的算子 LMP 提取不同手势图像特征, 在实验阶段引入 gentle_adaboost 分类器, 对非线性亮度变化 高斯模糊 椒盐噪声和不同尺度图像进行实验. 实验证明 : 相比于 LBP 和 LAP 算子,LMP 算子对于非线性亮度变化 高斯模糊都有很强鲁棒性, 并具有较高的分类准确率, 而对于椒盐噪声非常敏感. 因此, 使用前需要对图像进行椒盐噪声滤波处理. 同时, 在该实验平台上进行识别的速度能够满足实时处理的需求. 但是, 本文提出的描述算子还不够理想, 特征描述能力需要进一步提高, 如何充分利用局域像素之间相关性和区别性提取更强特征将是下一步工作. 参考文献 : [1] Black M J, Jepson A D. Recognition temporal trajectories using the condensation algorithm [C]//1998 IEEE Conference on Automated Face and Gesture Recognition, Japan, 1998: 16-21. [2] Chen Y T, Tseng K T. Multiple-angle hand gesture recognition by fusing SVM classifiers [C]//2007 IEEE Conference on Automation Science and Engineering, Scottsdale, AZ, USA, Sep 2007: 527-530. [3] Huang D Y, Hu W C, Chang S H. Vision-based hand gesture recognition using PCA + Gabor filters and SVM [C]//The 5th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Kyoto, Japan, Sep 2009: 1-4. [4] Huang D Y, Hu W C, Chang S H. Gabor filterbased hand-pose angle estimation for hand gesture recognition under varying illumination [J]. Expert Systems with Applications, 2011, 38(5): 6031-6042. [5] Amin M A, Yan H. Sign language finger alphabet recognition from Gabor-PCA representation of hand gestures [C]//The Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, August 2007: 2218-2223. [6] Chen Q, Georganas N D, Petriu E M. Hand gesture recognition using Haar-like features and a stochastic context-free grammar [J]. IEEE Transactions on Instrumentation and Measurement, 2008, 57(8): 1562-1571. [7] Ojala T M, Pietikainen M, Maenpaa T. Multiresolution gray scale and rotation invariant texture classification with local binary pattern [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (7): 971-987. [8] Ying Zilu, Cai Linbo, Gan Junying, He Sibin. Facial expression recognition with local binary pattern and Laplacian eigenmaps [C]//Emerging Intelligent Computing Technology and Applications, LNCS, 2009, 5754: 228-235. [9] Mattivi R, Shao L. Human action recognition using LBP-TOP as sparse spatio-temporal feature descriptor [C]//Computer Analysis Images and Patterns, LNCS, Volume 5702, 2009: 740-747. [10] Xiao Bin, Xu Xiangmin, Mai Qianpei. Real-time hand detection and tracking using LBP features [C]//2010 Proceedings of the 6th International Conference on Advanced Data Mining and Applications, 2010, 2: 282-289,. [11] Su S Z, Chen S Y, Li S Z, Li S A, Duh D J. Structured local binary Haar pattern for pixelbased graphics retrieval [J]. Electronics Letters, 2010, 46(14): 996-998. [12] Saipullah K M, Kim D H. A robust texture feature extraction using the localized angular phase [J]. Multimedia Tools and Applications, Springer, Jan 1, 2011. [13] Shen L, Jia S, Ji Z, Chen W S. Extracting local texture features for image-based coin recognition [J]. Image processing IET, 2011, 5(5):394-401. [14] Ahonen T, Matas J, He C, Pietikäinen M. Rotation invariant image description with local binary pattern histogram Fourier features [C]//16th Scandinavian Conference on Image Analysis, Oslo, Norway, 2009: 61-70. [15] Friedman J, Hastie T, Tibshirani R. Additive logistic regression: a statistical view of boosting [J]. The Annals of Statistics, 2000, 28: 337-374. ( 编辑 : 管玉娟 )