第 35 卷第 期计算机应用研究 Vol. 35 No. 优先出版 Application Research of Computers Online Publication 基于边缘检测的卷积核数量确定方法 * 文元美, 余霆嵩, 凌永权 ( 广东工业大学信息工程学院, 广州 50006) 摘要 :

Similar documents
泰迪杯全国数据挖掘挑战赛 OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,,

untitled

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

[1] [4] Chetverikov Lerch[8,12] LeaVis CAD Limas-Serafim[6,7] (multi-resolution pyramids) 2 n 2 n 2 2 (texture) (calf leather) (veins)

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

Microsoft Word - 专论综述1.doc

RPN 2 DeepParts 22 part pool 2 3 HOG 12 LBP 13 Harr - like 15 DPM 16 Deformable Parts Model VGG16 X. Wang 14 VGG Convolutiona

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

<4D F736F F D20C9CFBAA3BFC6BCBCB4F3D1A7D0C5CFA2D1A7D4BA C4EAC7EFBCBEC8EBD1A7B2A9CABFD7CAB8F1BFBCCAD4CAB5CAA9CFB8D4F22D C8B7B6A8B8E5>

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

1 引言

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

附3

彩色地图中道路的识别和提取

(Pattern Recognition) 1 1. CCD

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

Journal of Northwestern Polytechnical University Apr. Vol No. 2 ICM ICM ICM ICM ICM ICM TP A

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析

soturon.dvi

标题

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Microsoft Word - 专论综述1.doc

Vol.39 No. 8 August 2017 Hyeonwoo Noh [4] boundng box PASCALV VOC PASCAL VOC Ctyscapes bt 8 bt 1 14 bt

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

2

Vol. 22 No. 2 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Apr ,,,,, Apriori,,,,,,,,

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa

Presentation Title

CH01.indd

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

2014 年 11 月 总 第 251 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 赠 人 一 片 云 1 科 研 动 态 与 学 术 交 流 自 动 化 所 人 脸 识 别 技 术 在 首 届

标题

Microsoft Word - chnInfoPaper6

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

第 29 卷第 9 期 Vol. 29 NO. 9 重庆工商大学学报 ( 自然科学版 ) J Chongqing Technol Business Univ. Nat Sci Ed Sept X * ABAQUS 1 2

untitled

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

Landscape Theory & Study 17

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目

untitled

穨423.PDF

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Microsoft Word - A _ doc


标题

,, 2,,,,,,,,, S7-400 PLC, F M mm ;, AGC 6 mm ;,, 3 AGC AFC ( ) ( ), I/O ET 200M, PROFIBUS-DP S7 400 PLC 1 S7-400 PLC ( HMI) ET200M, PROFIBUS

Microsoft Word - 14-戴伟聪_oee180350_xeyz.doc

a a a 1. 4 Izumi et al Izumi & Bigelow b

北 京 大 学

: (2012) Control Theory & Applications Vol. 29 No. 1 Jan Dezert-Smarandache 1,2, 2,3, 2 (1., ; 2., ;

. 1 4 Web PAD

标题

2 137 [5]. [6].. [7]. [8-9].. (PCA) PCA HIS C1C2C3.. RGB Hotelling. [1-11]. R G B 3. RGB 1) RGB M N 3 x = [x R x G x B ] T. RGB 3 3 C x (1)

word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra

第壹章

视觉皮层结构卷积神经网络可以看成是上面这种机制的简单模仿 它由多个卷积层构成, 每个卷积层包含多个卷积核, 用这些卷积核从左向右 从上往下依次扫描整个图像, 得到称为特征图 (feature map) 的输出数据 网络前面的卷积层捕捉图像局部 细节信息, 有小的感受野, 即输出图像的每个像素只利用输

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

小论文草稿2_邓瀚

Microsoft Word 記錄附件

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

F4

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

Microsoft Word - 贺小凤,王国胜.doc

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

MAXQ BA ( ) / 20

<4D F736F F D20B8BDBCFE3220BDCCD3FDB2BFD6D8B5E3CAB5D1E9CAD2C4EAB6C8BFBCBACBB1A8B8E6A3A8C4A3B0E5A3A92E646F6378>

第 期 孙跃文等 基于深度学习的辐射图像超分辨率重建方法 ; 线摄影技术已成为安全检查领域的主要应用技术 然而受探测器物理尺寸和数目的限制 数字化 射线摄影系统产生的数字辐射图像的空间分辨率往往难以满足审图人员的需求 而受到成像原理和制作工艺的限制 制造高空间分辨率的探测器将会大幅增加系统的成本和研

交流活动

附件1:

Microsoft Word - KSAE06-S0262.doc

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

荨荨 % [3] [4] 86%( [6] 27 ) Excel [7] 27 [8] 2 [9] K2 [2] ; Google group+ 5 Gmail [2] 2 fxljwcy 3E [22] 2 2 fxljzrh 2D [23] 3 2 fxzphjf 3D 35

第 卷 第 期林封笑 陈华杰 姚勤炜 等 基于混合结构卷积神经网络的目标快速检测算法 议生成模块不完全占用参数规模与计算开销 分类模块能通过压缩方法进行有效压缩 如采用奇异值分解策略 采用卷积神经网络作为特征提取网络 对检测算法的检测性能具有显著影响 通常采用的卷积神经网络有 ' (( ( 5* 等

Technical Acoustics Vol.27, No.4 Aug., 2008,,, (, ) :,,,,,, : ; ; : TB535;U : A : (2008) Noise and vibr

Microsoft Word doc

34 www. cjig. cn wavelet transform 1 2 JPEG LIVE E s o = 1 T Σ log 2 C s o + 1 E T C s o Lu Wen contourlet C 0 7 N

PowerPoint 演示文稿

社科网-论文在线


[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

Mnq 1 1 m ANSYS BEAM44 E0 E18 E0' Y Z E18' X Y Z ANSYS C64K C70C70H C /t /t /t /mm /mm /mm C64K

[1] Nielsen [2]. Richardson [3] Baldock [4] 0.22 mm 0.32 mm Richardson Zaki. [5-6] mm [7] 1 mm. [8] [9] 5 mm 50 mm [10] [11] [12] -- 40% 50%

clc

44 深 圳 信 息 职 业 技 术 学 院 学 报 第 10 卷 业 实 际 进 出 口 单 证 样 本 的 演 示 与 讲 解, 导 致 学 生 在 学 校 看 到 的 都 是 过 时 的 单 据 演 练 的 陈 旧 的 工 作 流 程, 走 上 工 作 岗 位 后, 一 旦 遇 到 实 际 问

Natural Neural Networks

Transcription:

基于边缘检测的卷积核数量确定方法 作者机构基金项目预排期卷摘要关键词作者简介中图分类号访问地址发布日期 文元美, 余霆嵩, 凌永权广东工业大学信息工程学院国家自然科学基金资助项目 (637273,66763); 广东省研究生教育创新计划资助项目 (204QTLXXM8) 计算机应用研究 208 年第 35 卷第 期针对卷积神经网络中卷积核数量多凭经验确定的问题, 提出了一种统计图像边缘信息来确定卷积核数量的方法 首先, 采用边缘检测算子对训练图像进行边缘检测, 并依据卷积层的卷积核尺寸对边缘图像进行边缘块提取 ; 然后, 统计提取到的边缘块以获得边缘特征矩阵 ; 最后, 计算边缘特征矩阵各列的方差, 将方差排序且归一化, 选择方差较大部分边缘类型的个数作为卷积核数量 在 Mnist Chars74K 数据集上的实验结果表明, 本文方法能依数据集特点自适应地确定卷积核数量, 构造的卷积神经网络模型大小适应于特定数据集, 且能获得较高分类准确率 卷积神经网络 ; 边缘检测 ; 卷积核数量 ; 字符识别文元美 (968-), 女, 湖北荆州人, 副教授, 博士, 主要研究方向为智能信息处理 (ym028@gdut.edu.cn); 余霆嵩 (993-), 男, 广西柳州人, 硕士研究生, 主要研究方向为物体识别与深度学习 ; 凌永权 (973-), 男, 中国香港人, 教授, 博士, 主要研究方向为最优化信号处理与时频分析. TP39.4 http://www.arocmag.com/article/02-208--048.html 207 年 月 0 日 引用格式文元美, 余霆嵩, 凌永权. 基于边缘检测的卷积核数量确定方法 [J/OL]. 208, 35(). [207- -0]. http://www.arocmag.com/article/02-208--048.html.

第 35 卷第 期计算机应用研究 Vol. 35 No. 优先出版 Application Research of Computers Online Publication 基于边缘检测的卷积核数量确定方法 * 文元美, 余霆嵩, 凌永权 ( 广东工业大学信息工程学院, 广州 50006) 摘要 : 针对卷积神经网络中卷积核数量多凭经验确定的问题, 提出了一种统计图像边缘信息来确定卷积核数量的方法 首先, 采用边缘检测算子对训练图像进行边缘检测, 并依据卷积层的卷积核尺寸对边缘图像进行边缘块提取 ; 然后, 统计提取到的边缘块以获得边缘特征矩阵 ; 最后, 计算边缘特征矩阵各列的方差, 将方差排序且归一化, 选择方差较大部分边缘类型的个数作为卷积核数量 在 Mnist Chars74K 数据集上的实验结果表明, 本文方法能依数据集特点自适应地确定卷积核数量, 构造的卷积神经网络模型大小适应于特定数据集, 且能获得较高分类准确率 关键词 : 卷积神经网络 ; 边缘检测 ; 卷积核数量 ; 字符识别中图分类号 :TP39.4 Method for determining the number of convolution kernel via edge detection approach Wen Yuanmei, Yu Tingsong, Ling Yongquan (School of Information Engineering Guangdong University of Technology, Guangzhou 50006, China) Abstract: Conventionally, the number of convolution kernel is determined by experience. This paper proposes a method for determining the number of convolution kernel by counting the image edge information. First, the training image edges are detected. Then, the edge block is extracted based on the size of the convolution kernel. Second, the edge blocks are counted to obtain the edge feature matrix. Finally, the column variance of the edge feature matrix is calculated, normalized and sorted. The number of convolution kernel is then determined. The experimental results on the Mnist and Chars74K datasets show that the proposed method changes the number of convolution kernel adaptively for different data sets. Also, a higher classification accuracy is achieved. Key Words: convolution neural network; edge detection; number of convolution kernel; character recognition 0 引言 卷积神经网络是为处理图像数据而专门设计的一种多层神 经网络模型, 具有局部感知 权值共享 降采样等特点, 其在 充分提取数据空间信息的基础上, 将传统的特征提取过程融入 到整个神经网络中, 省却了复杂的特征提取过程, 在计算机视 觉 自然语言处理等领域获得广泛应用 [-4] 卷积神经网络主要 由卷积层 池化层全连接层组成, 结构如图 所示 其中卷 积层是卷积神经网络的核心部分, 由多个权值可更新的二维卷 积核构成, 每个卷积核可看做一个特征提取模块, 负责对前一 层进行特征提取 ; 池化层 ( 又称采样层 ) 通常连接于卷积层之 后, 对上一卷积层输出的特征图进行采样, 降低特征图的分辨 率, 并获得具有空间不变性的特征 ; 全连接层中每个神经元与 上一层所有神经元进行连接, 将提取到的特征图进行整合, 最 终得到输出 在卷积神经网络的构造中, 卷积核数量是影响卷积神经网 络结构最重要的因素之一 卷积核个数少, 网络获得的信息少, 识别准确度低, 收敛速度慢, 卷积核个数越多, 识别准确度越 高, 但也会导致网络结构过于复杂, 训练时间过长, 网络训练 过度, 识别误差反而升高 图 卷积神经网络结构 在实际应用中, 卷积核的数量一般凭借经验选取, 通过构 造不同的网络结构分别进行训练, 从中选择较为满意的网络结 构参数, 具有很强的主观性, 并且对于不同的数据集, 需要进 行不同的调整, 如 Alex-Net [5] Res-Net [6] GoogLeNet [7] 等在构 造卷积神经网络中都是直接给出卷积核的数量 ;206 年李媛媛 基金项目 : 国家自然科学基金资助项目 (637273,66763); 广东省研究生教育创新计划资助项目 (204QTLXXM8) C3: 卷积层 F5: 全连接层 P4: 池化层 P2: 池化层输出层 作者简介 : 文元美 (968-), 女, 湖北荆州人, 副教授, 博士, 主要研究方向为智能信息处理 (ym028@gdut.edu.cn); 余霆嵩 (993-), 男, 广西柳州 人, 硕士研究生, 主要研究方向为物体识别与深度学习 ; 凌永权 (973-), 男, 中国香港人, 教授, 博士, 主要研究方向为最优化信号处理与时频分析. 输入层 C: 卷积层

优先出版文元美, 等 : 基于边缘检测的卷积核数量确定方法第 35 卷第 期 [8] 等提出采用灰色关联分析法来确定卷积核数量, 完成对卷积神经网络结构的优化, 但是仍然需要人为设定卷积核数量的初始值 2009 年 Erhan [9] 等人提出激活最大化方法对深度置信网络 DBN(deep belief networks) 的卷积核进行可视化, 发现卷积核学习了图像的边缘特征 ;202 年 Alex [5] 等人在提出改进的卷积神经网络 Alex-Net 时, 同样对卷积神经网络的卷积核进行了可视化, 发现卷积核表示的是不同频率与方向的滤波器 ;203 年 Matthew [0] 等人对反卷积神经网络卷积核的可视化发现卷积核学习了图像的边缘特征 本文从 Matthew 的研究结果中受到启发, 提出对训练图像的边缘块进行统计分析, 自动确定各个卷积层卷积核数量的方法 基于边缘检测的卷积核数量确定方法. 卷积核数量确定原理卷积神经网络的卷积层是由多个可更新权值的卷积核构成, 每个卷积核可看做一个滤波器, 卷积核对图像进行卷积 ( 滤波 ) 操作, 即对图像进行特征提取, 卷积运算得到的是特征响应图 卷积核与图像越相似, 特征响应图的响应值越大 ; 卷积核对不同类别图像卷积运算所得到响应值的差异越大, 该卷积核对于区分不同类别图像越有价值 图像 图像 2 图像 2 的响应值 图像 卷积核 0 0 0 0 卷积核 2 图 2 卷积操作示意图图 2 给出了不同卷积核对相同两个图像 ( 图像 图像 2) 的卷积运算结果 卷积核 对于图像 图像 2 卷积运算得到的响应值分别为 3, 响应值差异为 2; 而卷积核 2 对于图像 图像 2 卷积运算得到的响应值均为, 响应值没有差异 很显然, 在卷积神经网络的构造实践中, 选择卷积核 而不是卷积核 2 作为网络卷积核中的一个, 对于区分图像 图像 2 更有优势 本文方法就是探讨如何在众多卷积核中, 选取出对不同类别图像具有最大区分度的若干个卷积核来参与卷积神经网络的运算 基于卷积核学习的是图像边缘特征这一结论, 本文将不同类别图像中最具差异性的那部分边缘类型的个数作为卷积核 3 图像 的响应值 图像 2 图像 2 的响应值 图像 的响应值 的数量, 进而使得有限数量卷积核提取到的图像特征能有效地 区分不同的图像类别 具体方法是 : 检测训练图像的边缘图像, 依卷积核尺寸 S S 提取出不同类型的边缘特征 ; 然后统计不同类别图像的边 e e e 2 n e e 2 2 n 缘类型个数并存储于边缘特征矩阵 E 中, e e e m m2 mn ( 矩阵 E 的行表示图像类别数, 最大为 m 个 ; 矩阵 E 的列表示 边缘特征类型的个数, 最大数 n 取值为 * 2 S S ; 矩阵中元素 示第 i 个类别图像中包含 e ij 个第 e ij 表 j 种边缘特征类型 ); 最后再寻 找出在不同类别图像中最具有差异性的那部分边缘类型的个数 作为卷积核数量 在此, 通过特征矩阵 E 各列的方差来衡量此种边缘类型对 不同类别图像的差异性, 方差越大表明此种边缘类型对区分不 同类别图像更具优势 计算特征矩阵 E 各列的方差得到方差向 量,,,, 2 k n V v v v v R S S 2 为便于计算差异性较大的那 部分边缘类型的个数, 将方差向量 V 中元素从大至小排序, 并 通过式 () 计算出卷积核的数量 即 * 2 S S, X (0,] 是能量 ( 方差 ) 占比 k min i k n i k 其中 n 为方差向量的长度, v i X v i 边缘特征矩阵 E 的列方差越大, 此列对应的边缘特征在不 同类图像中的差异越大, 对于不同类别物体的区分度越大 因 此, 选取方差较大列对应的边缘类型个数作为卷积核数量 () k, 即式 () 中, 当能量 ( 方差 ) 占比达 X 时, 所需要方差向量的 元素个数为 k.2 卷积核数量确定流程 下面以卷积神经网络中某卷积层的卷积核尺寸 3*3 为例, 来说明基于边缘检测的卷积核数量确定流程 首先将所有训练图像转换为灰度图像, 再利用边缘检测算 子进行边缘检测, 获得训练图像的边缘图像 假设获得如图 3 所示的 5*5 边缘图像, 边缘图像为二值图像, 边缘部分为, 其余部分为 0 然后对边缘图像进行边缘块提取 假如卷积神经网络中某 卷积层的卷积核尺寸为 3*3, 以边缘图像的边缘像素点作为边 缘块中心点进行边缘块提取, 所提取的边缘块大小为 3*3, 边 缘块可能的类型共计 3*3 2 种 以图 3 所示的 5*5 边缘图像为 例, 依卷积核尺寸 3*3 提取出的 4 个边缘块如图 4 所示 其次对提取出的边缘块即边缘特征类型, 依图像类别以及 特征类别进行统计, 并存储于边缘特征矩阵 E 最后, 计算边缘特征矩阵 E 各列方差, 即不同类别图像包 含同一边缘特征类型个数的方差, 并存于方差向量 V 中 ; 将方 差向量 V 中元素从大至小排序, 并通过式 () 计算出卷积核的

优先出版文元美, 等 : 基于边缘检测的卷积核数量确定方法第 35 卷第 期 数量 k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 图 3 5*5 边缘图像图 4 提取出的边缘块 2 实验描述本文选取 Mnist 数据集 Chars74K 数据集来验证基于边缘检测确定卷积核数量方法的有效性 Mnist 数据集 [] 是手写阿拉伯数字的数据集, 共计 0 个类别 (0~9), 包含 60000 个训练样本,0000 个测试样本 Chars74K 数据集 [2] 大部分为印刷字体, 本文选取大小写英文字母作为实验对象, 共计 52 个类别, 在其中随机选取百分之八十即 50098 个样本作为训练集, 剩下百分之二十的样本共计 2706 个作为测试集 Mnist 数据集 Chars74K 数据集部分样本分别如图 5 图 6 所示 在 Mnist 数据集 Chars74K 数据集上进行的分类实验, 具有相同的实验流程 图 5 Mnist 数据集部分样本图 6 Chars74K 数据集部分样本实验采用表 结构的八层卷积神经网络进行训练分类 其 中 Conv 层 Conv2 层为卷积层, 其卷积核数量 K 2 K 分别 由本文提出的方法确定 ;Conv3 层为卷积层代替全连接层 [3], 卷积核数量 K3 设为两倍 K 2 ;Conv4 层也是作为全连接层, 其 卷积核数量为分类的类别数 ; 各池化层 Pool Pool2 均采用最 大池化方法对上一层输出的特征图进行池化 ;Relu 层 Softmax 层分别为激活函数层分类输出层 本文实验在 Windows 0 64 位系统 Intel-I5 CPU GTX 960m 2G GPU 8G 运行内存的计算机上进行, 在 Matlab R206a 平 台下实现 表 本文采用的卷积神经网络结构 层数 类型 输出特征图卷积核池化核尺寸尺寸尺寸 0 Input 28*28* Conv 26*26*K 3*3 2 Pool 3*3*K 2*2 3 Conv2 9*9*K2 5*5 4 Pool2 4*4*K2 2*2 5 Conv3 **K3 4*4 6 Relu **K3 7 Conv4 **0 * 8 Softmax **0 下面以 Mnist 数据集的实验过程为例来进行描述 a) 将所有 0 类训练图像转换为灰度图像, 并缩放至 28*28, 该灰度图像作为卷积神经网络的输入 b) 确定卷积层 Conv Conv2 的卷积核数量 K K 2 首 先对归一化的灰度图像进行边缘检测, 对获得的边缘图像分别 依卷积核尺寸 3*3 5*5 进行边缘块提取, 统计 0 个图像类 别中所含边缘类型的数量, 分别存储于边缘特征矩阵 量 E 2 V 0 65536 R 256 R E 0 256 R 中 ; 计算边缘特征矩阵各列的方差, 得到方差向 V 2 65536 R, 将方差向量 V V 2 中元素从大至小 排序, 选取 80%,85%,90%,95%,99% 五种能量占比 X 所对 应的方差元素个数作为 Conv 层 Conv2 层的卷积核数量 K 2 c) 将原始训练图像输入到确定结构与卷积核数量的卷积神 经网络中进行训练, 其中批大小设置为 50, 学习率为 0.00, 迭代次数为 20 试 d) 将测试数据输入已完成训练的卷积神经网络进行分类测 3 实验结果与分析 下文给出了采用不同检测算子进行图像边缘检测, 对卷积 核数量确定的影响以及对图像分类准确率影响的实验结果, 并 进行了分析 文中选取三种不同特性的检测算子, 分别是 Canny 算子 Sobel 算子 Log 算子 3. 不同检测算子对卷积核数量确定的影响 在包含 0 个图像类别的 Mnist 数据集以及包含 52 个图像 类别的 Chars74K 数据集上采用不同检测算子计算得到的卷积 层 Conv( 简称 C) Conv2( 简称 C2) 的卷积核数量分别如 表 2 3 所示 从表 2 可见, 对于 Mnist 数据集来说 : a) 在同一能量占比情况下, 采用不同检测算子计算出的 C 层 C2 层卷积核数量不同, 并且 C 层卷积核数量普遍少于相 同检测算子计算出的 C2 层卷积核数量 这是因为不同的检测 算子提取出的边缘特征类型以及同一边缘特征类型在不同类图 像中的差别不同所致, 并且 C 层卷积核尺寸小于 C2 层卷积核 尺寸, 小的卷积核尺寸产生规模较小的边缘特征矩阵, 进而使 得相同能量占比 X 情况下所需要的边缘类型个数即卷积核数量 较少 b) 当能量占比 X 升高时, 无论采用何种检测算子, 计算出 的 C 层 C2 层卷积核数量均呈上升趋势 c) 同一能量占比 X 情况下, 采用 Log 检测算子计算出的 C 层 C2 层神经元总数 ( K *3*3) ( K *5*5) 最少, 采用 Sobel 2 检测算子计算出的最多, 采用 Canny 检测算子计算出的神经元 总数居中 神经元总数越大, 卷积神经网络模型的计算复杂度 越高, 如能量占比为 99% 时, 采用 Log 检测算子所获得 C 层 C2 层的神经元总数为 (*3*3) (0*5*5) 2624, 采用 Sobel 检测算子所获得 C 层 C2 层的神经元总数为 (3* 3* 3) (535* 5* 5) 3492 可见对于 Mnist 数据集来说, 同一能量占比 X 情况下, 采用 Log 检测算子计算出的卷积核数 K

优先出版文元美, 等 : 基于边缘检测的卷积核数量确定方法第 35 卷第 期 量带来的卷积神经网络计算复杂度最小,Canny 检测算子次之, Sobel 检测算子带来的计算复杂度最大 究其原因, 是因为 Mnist 数据集是由手写体阿拉伯数字组成, 图像噪声较大, 而 Log 检 测算子较好地发挥了抗噪能力强的优势, 提取出了在不同图像 类别中差异较大的边缘特征, 进而在同一能量占比 X 情况下所 需要的边缘特征类型最少 表 2 Mnist 数据集上计算出的卷积核数量 能量 占比 Canny 算子 Sobel 算子 Log 算子 C 卷积核数量 C2 卷积核数量 C 卷积核数量 C2 卷积核数量 C 卷积核数量 C2 卷积核数量 80% 32 4 48 5 4 85% 6 4 5 7 6 8 90% 2 58 6 7 25 95% 27 02 9 204 9 4 99% 38 240 3 535 0 表 3 Chars74K 数据集上计算出的卷积核数量 能量 占比 Canny 算子 Sobel 算子 Log 算子 C 卷积核数量 C2 卷积核数量 C 卷积核数量 C2 卷积核数量 C 卷积核数量 C2 卷积核数量 80% 5 5 2 3 3 4 85% 7 2 3 4 3 6 90% 2 22 4 7 4 0 95% 20 4 7 26 7 9 99% 34 25 4 27 39 在表 3 中, 对于 Chars74K 数据集来说 : a) 与在 Mnist 数据集中得到的结果相同, 在同一能量占比情况下, 采用不同检测算子计算出的 C 层 C2 层卷积核数量不同,C 层卷积核数量普遍少于相同检测算子计算出的 C2 层卷积核数量, 并且当能量占比 X 升高时, 计算出的 C 层 C2 层卷积核数量均呈上升趋势 b) 同一能量占比 X 情况下, 采用 Canny 检测算子计算出的 C 层 C2 层卷积核数量最大, 对应卷积神经网络模型的神经元总数均为最大, 因而其卷积神经网络模型的计算复杂度最高 在能量占比较小 (80% 85% 90%) 时, 采用 Log 检测算子计算出的 C 层 C2 层神经元总数略高于 Sobel 算子的计算结果, 而在能量占比较大 (95% 99%) 时, 采用 Log 检测算子计算出的 C 层 C2 层神经元总数明显低于 Sobel 算子的计算结果 究其原因, 是因为 Chars74K 数据集是印刷体的大小写英文字母, 图像噪声较小, 因此在能量占比小时, 采用 Log 检测算子与采用 Sobel 算子所需要的边缘特征类型差别不大 ; 而当能量占比较大时,Log 算子提取出差异较大边缘特征的优势发挥出来, 只需要较小的边缘类型个数就可以 综上 :a) 同一能量占比 X 情况下, 同一检测算子在 Chars74K 数据集中计算出的卷积核数量均小于 Mnist 数据集的计算结果 这主要是因为 Mnist 数据集由手写字符组成, 不同人写出来的字符形状差异较大, 并且手写体图片中的噪声较多, 而 Chars74K 数据集中的字符来自印刷体, 字符边缘较为整齐, 图片噪声较少, 因此同一算子在噪声较小的数据集中, 都较好地提取出了差异较大的边缘特征类型, 因此只需要较小的边缘类 型个数 同时也说明本文提出的卷积核数量计算方法能根据不同数据集的特点自适应地确定卷积神经网络相关层的卷积核数量 b) 同一能量占比 X 情况下, 相比 Sobel 算子以及 Canny 算子,Log 算子在 Mnist 数据集 Chars74K 数据集中所获得的神经元总数相对较少, 可见对于不同数据集, 采用 Log 算子来计算卷积核数量的方法在由其计算结果确定的卷积神经网络计算复杂度上均具有优势 c) 同一能量占比情况下, 由于 Mnist 数据集噪声相对于 Chars74K 大, 噪声敏感的 Sobel 算子在 Mnist 数据集中所需的神经网络元总数要大于 Canny 算子, 而在 Chars74K 数据集中却恰恰相反 3.2 不同检测算子对分类准确率的影响为分析不同检测算子所确定卷积神经网络模型性能的差异, 采用 3. 节中的三种检测算子确定的卷积神经网络模型分别对 Mnist 数据集 Chars74K 数据集进行分类实验, 分类准确率如表 4 5 所示 表 4 Mnist 数据集分类准确率 Canny 算子分 Sobel 算子分类 Log 算子分类能量占比类准确率准确率准确率 80% 98.98% 99.0% 98.76% 85% 99.00% 99.2% 98.85% 90% 99.05% 98.99% 98.89% 95% 99.03% 99.0% 98.93% 99% 99.07% 99.4% 98.95%

优先出版文元美, 等 : 基于边缘检测的卷积核数量确定方法第 35 卷第 期 表 5 Chars74K 数据集分类准确率 Canny 算子分类 Sobel 算子分类准 Log 算子分类准能量占准确率确率确率 80% 58.44% 45.4% 53.38% 85% 67.6% 53.38% 58.89% 90% 72.54% 62.38% 65.3% 95% 76.4% 73.33% 70.79% 99% 77.6% 77.44% 75.66% 准确率计算公式如下 : Accuracy 样本分类错误总数 00% (2) 样本总数 对表 4 表 5 的分析发现 : a) 由表 4 可见, 在不同能量占比 X 情况下, 对于 Mnist 手写体数据集来说, 由三种检测算子计算出的卷积核数量而确定的卷积神经网络模型的分类准确率均达到 99% 左右 ; 表 5 显示, 对于 Chars74K 数据集来说, 三种检测算子获得的分类准确率相对低一些, 这是由于 Chars74K 数据集中大小写字母不易分辨而造成分类困难所致, 如 C O Z 等字母的大小写均为同一形状 b) 在同一能量占比 X 情况下,Sobel 算子在 Mnist 手写体数据集的分类中所获得的准确率整体高于 Canny 算子, 而在 Chars74K 数据集中情况却相反 究其原因是同一能量占比 X 情况下,Sobel 算子在 Mnist 数据集中需要的神经元总数均高于 Canny 算子的需要, 即以高的卷积神经网络计算复杂度换取了较高的分类准确率 ; 而在 Chars74K 数据集中 Canny 算子需要的神经元总数均高于 Sobel 算子的需要, 因此分类准确率也是最高 c) 在同一能量占比 X 情况下,Log 算子在 Mnist 数据集 Chars74K 数据集中所获得的分类准确率相对较差, 但对 Mnist 数据集的分类准确率也接近 99%, 因此对于 Mnist 数据集来说, 在保证准确率较高的情况下, 可选用卷积核数量需求较小的 Log 算子, 减少模型分类的计算量 ; 在 Chars74K 数据集的模型分类中, 在能量占比 X 较低 (80% 85% 90%) 时,Log 算子对应的分类准确率高于 Sobel 算子, 而在能量占比 X 较高 (95% 99%) 时,Log 算子对应的分类准确率又低于 Sobel 算子, 结合表 3 分析发现差别在于其在不同能量占比 X 下需要的神经元总数的变化, 其实也是以高的卷积神经网络计算复杂度换取较高分类准确率的体现 4 结束语在卷积核可视化相关研究的启发下, 本文提出一种基于边缘检测确定卷积核数量的方法, 并分别在 Mnist 数据集 Chars74K 数据集中进行了验证 结果表明 : a) 本文提出的卷积核数量确定方法是有效性, 本文方法计 算出的卷积核数量能依据数据集的复杂程度增加或减少, 具有自适应能力 b) 不同边缘检测算子所获得的卷积核数量以及由此确定的卷积神经网络模型的分类实验, 发现针对不同特点的数据, 应综合考虑计算复杂度以及分类准确率来选用不同的边缘检测算子确定卷积核数量 c) 卷积核权值初始化同样影响着卷积神经网络训练速度识别准确率, 如何结合卷积核可视化的研究给出更有效的卷积核权值初始化方法将是下一步的研究重点 参考文献 : [] Çakır E, Parascandolo G, Heittola T, et al. Convolutional recurrent neural networks for polyphonic sound event detection [J]. IEEE Trans on Audio Speech & Language Processing, 207, 25 (6): 29-303. [2] 邬美银, 陈黎, 田菁. 基于卷积神经网络的视频图像失真检测及分类 [J]. 计算机应用研究, 206, 33 (9): 2827-2830. [3] 夏从零, 钱涛, 姬东鸿. 基于事件卷积特征的新闻文本分类 [J]. 计算机应用研究, 207, 34 (4): 99-994. [4] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述 [J]. 计算机学报, 207, 40 (7): -23. [5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [C]// Proc of International Conference on Neural Information Processing Systems. 202: 097-05. [6] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning [J]. arxiv: 602. 0726v2, 206 [7] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. [S. l. ] : IEEE Press, 205: 770-778. [8] 李媛媛. 卷积神经网络优化及其在图像识别中的应用 [D]. 沈阳 : 沈阳工业大学, 206. [9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 8 (7): 527-554. [0] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks [J]. arxiv: 3. 290v3, 203 [] Kussul E, Baidyk T. Improved method of handwritten digit recognition tested on MNIST database [J]. Image & Vision Computing, 2004, 22 (2): 97-98. [2] Campos T E D, Babu B R, Varma M. Character recognition in natural images [C]// Proc of International Conference on Computer Vision Theory and Applications. 2009: 273-280 [3] Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation [J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 207, 39 (4): 640-65.