第 卷 第 期 计算机工程 年 月! 人工智能及识别技术 文章编号 文献标志码 中图分类号 基于混合结构卷积神经网络的目标快速检测算法 林封笑 陈华杰 姚勤炜 张杰豪 杭州电子科技大学自动化学院 杭州 摘 要 为提高基于卷积神经网络 目标检测算法的检测速度 提出一种基于混合结构 的目标快速检测算法 采用基于 的 '$*5# 目标检测框架 对其 进行优化 基于多层感知器结构 提出 5# 卷积层结构 在网络浅层采用 5 策略 同时结合 5# 层结构和 5 策略 合理设计层参数 构成卷积神经网络 将该卷积神经网络融合到 '$*5# 检测框架中 实现目标快速检测 实验结果表明 在检测精度的适当影响范围内 该算法能够减少网络模型参数并降低网络模型的内存消耗 提高网络的实时性 关键词 目标快速检测 '$*5# 框架 卷积神经网络 特征提取 混合结构 低通道 中文引用格式 林封笑 陈华杰 姚勤炜 等 基于混合结构卷积神经网络的目标快速检测算法 计算机工程 # 英文引用格式 '$ $ 7& 82 $%$.$*, $0!$*, 01!, * $$2 # 4"(;$(#"("-(%!4%( &$"%! '0(-("9%!5% (%! 8" 8"(1% '$ $7& 82( 0$ $, *$+0 $+*1$+0 0$ $(-(, 0, *,.0$$2 $, $0$$.$*, $0!$*, 01!, * **, *+,!1 #!$*, '$*5# $,.$2-$*, 0$1 * $5# $ $1* **,%05 *$1 *$,, 0*0$2 $1.02$, 05# $1* $, 05 *$1 $!,,* 0$1$$*$*$!1. *, 0'$*5#,.$2 $0$, $,$***02 0$ $, 20 0'$*5#'$00$0 $, 02,$$*, 0 1 *.02,$, 0$#.$.02 /"0 1%$ $.$*,'$*5#.$2$$2.$$ 01!, * 2 0$ # 4**# 概述 目标检测与识别是通过分析目标的几何或统计特征 在未知图像中能够准确地检测并识别出目标 目前 目标检测算法比较复杂 耗时且缺乏鲁棒性 卷积神经网络 $$2 已成为目标检测与识别领域的研究热点 # # 卷积神经网络是深度学习模型的一种 能从大量数据中自动学习目标特征 文献 提出 5# 目标检测框架 实现 的目标检测算法 文献 提出 '$*5# 目标检测框架 减少在 5# 检测框架中存在的冗余计算 文献 提出 '$*5# 目标检测框架 降低检测框架中候选区域算法的复杂度 文献 提出基于 7&& 的目标检测框架 该框架提高了检测速度 但消耗较多的检测精度 基于 的目标检测算法在应用中性能稳定 但模型规模较为庞大 存在大量的参数 带来沉重的计算开销 影响网络的检测速度 基于 的目标检测算法的基本流程为特征提取网络 区域建议生成 感兴趣区域分类 其中 区域建 作者简介 林封笑 男 硕士研究生 主研方向为模式识别 机器学习 陈华杰 教授 博士 姚勤炜 张杰豪 硕士研究生 收稿日期 ## 修回日期 ##0+%.
第 卷 第 期林封笑 陈华杰 姚勤炜 等 基于混合结构卷积神经网络的目标快速检测算法 议生成模块不完全占用参数规模与计算开销 分类模块能通过压缩方法进行有效压缩 如采用奇异值分解策略 采用卷积神经网络作为特征提取网络 对检测算法的检测性能具有显著影响 通常采用的卷积神经网络有 ' (( ( 5* 等 这一系列网络通过逐步加深网络提高性能 然而 深度的增加会带来大规模的参数数量 因此 研究人员进行了针对小型卷积神经网络的设计 增加网络宽度的 /+ 简化卷积计算结构的 "! 增强单层卷积特征提取的 小型卷积神经网络实现网络参数规模的缩减 具有较好的特征提取性能 但其仍存在网络深度或计算开销的制约 影响网络的速度 针对上述研究存在的不足 本文提出一种基于混合结构卷积神经网络的目标快速检测算法 将 '$*5# 目标检测框架特征提取的卷积神经网络进行替换 采用混合结构卷积神经网络 并利用小型卷积神经网络设计卷积层结构 在保持较浅网络深度的情况下 减少网络参数的同时降低计算开销 目标快速检测网络框架 本文目标快速检测网络框架基于 '$*5# 目标检测算法 如图 所示 该框架将区域建议网络 5 *$25 和目标识别网络 '$* 5# 相拼接 个网络均采用卷积神经网络进行特征提取 因此 将共有的卷积特征提取部分参数共享 使 个网络结合得到一个端到端的检测网络 '$*5# 网络用于对候选区域分类和边框回归 获得目标检测结果 以输入图像以及通过 5 网络得到的区域候选窗作为输入 通过卷积神经网络提取到最后一层输出的特征图 然后对区域候选窗在特征图上进行映射 并采用 5 池化操作将映射区域池化到同一大小 通过全连接层得到特征向量 利用特征向量实现边框回归以及目标分类 卷积神经网络作为 5 网络和 '$*5# 网络的共享部分 作用是对输入图像进行特征提取 典型卷积神经网络通常由输入层 卷积层 池化层 全连接层 输出层组成 其中 卷积层是核心部件 且网络采用多层卷积层串联的结构组合方式构成深层网络 每一层卷积层中的不同卷积核能够学习不同的目标特征 多层卷积层实现对输入信息的分层特征提取与融合 低层卷积层主要提取低级特征 如边缘 角落 颜色组合等 高层卷积层主要对低级特征的抽象 获取更高级的特征 如形状或目标的显著变化 特征提取网络设计 混合结构卷积神经网络卷积神经网络中的参数源于每层卷积层的卷积核数量 卷积层结构示意图如图 所示 其中 单层卷积层的结构如图 $ 所示 图 ;$("2988 目标检测网络 5 网络用于生成区域候选窗口 利用卷积神经网络进行特征提取 在最后一层特征图上采用一个滑动窗口平移遍历 每次移动滑窗后 以滑窗位置中心为基准 通过尺度与宽高比生成候选区域窗口 对产生的所有候选区域窗口采用非极大值抑制算法存在的冗余窗口进行剔除 并选取前 个候选区域作为最终生成的候选区域窗口 用于 '$*5# 网络的训练 图 卷积层结构示意图
计 算 机 工 程 年 月 日 一幅通道数为 4 的特征图经过卷积层时 与每个卷积核分别进行卷积操作 通过激活函数 - 形成对应输出特征图中的一个通道信息 多个卷积核使输出特征图仍保持多通道 为获得完备的特征信息 需要网络采用更深的层次 每层拥有更多的卷积核数目 导致网络具有庞大的计算开销 影响其提取速度 因此 本文对卷积神经网络优化改进的设计方向是当网络层数较浅时仍具有良好的特征提取性能 此外 根据参数来源分析 层之间的通道数对参数数量以及计算开销有直接影响 降低卷积层之间的通道数 通过低通道数来减少参数规模 降低计算 开销 本文采用全卷积结构 利用 层卷积层进行串联 减少池化层造成的信息丢失及全连接层过多的参数规模 为减少网络的参数规模 根据结构优化的主要设计原则 5# 0$5, "$1 $ 卷积层结构替换原有卷积层 并采用 5 策略协同作用 混合卷积神经网络结构如表 所示 第 层为标准的卷积层 其余 层采用 5# 卷积层结构 同时在网络的前 层中 采用 5 策略 第 层为 5# 结构和 5 策略的混合 表 混合卷积神经网络结构 层名层类型通道数 卷积参数 *+4*,4$,, 输出特征图尺寸,$$,$$$1 " " 5 4##4#4 " 4 4 " " 55# ### " 4 4 " " 55# ### " 4 4 " " 5# ### " 4 4 " " 5# ### " 4 4 " " 5# ### " 4 4 " " $.$ " " 92,-%!5 卷积层结构根据卷积层结构与整体网络结构的设计原则 本文提出 5# 卷积层结构 其网络结构如图 所示 其中 图! & 图, 采取单卷积核描述 结构应用于 网络中 网络结构形式如图! 所示 通过在每个卷积核中添加微型多层感知器网络 对每个局部感受器的神经元进行非线性抽象 增强该层特征的表达 采用 结构能够使整体卷积神经网络在网络深度与特征提取性能之间取得较好的平衡 即不需要很深的网络结构 仍具有较好的特征提取性能 5# 结构采用文献 提出的点卷积预先降低通道数 将上层得到的输出特征图输入到 结构 点卷积由卷积核大小为 " 的多个卷积核组成 其个数是点卷积的通道数 决定了点卷积在通道数上的变化尺度 为实现低通道操作 点卷积通道数小于输入特征图以及卷积层的通道数 卷积层的通道数与参数数量呈现正相关关系 5# 结构在保持其特征提取性能的基础上 能有效减少卷积层的卷积参数规模 降低由参数数量带来复杂的计算开销 92". 策略本文采用级联修正线性单元 $$, 5., $*5 策略 应用在卷积神 经网络的浅层结构中 对卷积层参数通过降低通道数进行缩减 卷积神经网络的浅层网络中 其卷积层的卷积核存在一定程度上的相位成对现象 且相位相反 即存在一个卷积核的激活则存在与之相位相反的另一个激活卷积核 导致在学习过程中得到的浅层卷积核存在冗余 根据冗余卷积核的相位成对现象 5 策略在网络中加入相位的先验信息 消除卷积核中的冗余 在结构上 5 策略将卷积层的输出取反操作 将其与输出进行通道上的连接合并 得到输出特征图 如图 所示 因此 在剔除冗余卷积核的同时 为得到与网络结构相同的特征图输出 将结构中的卷积层通道数设置为原有结构通道数的一半 图 92". 策略结构示意图
第 卷 第 期林封笑 陈华杰 姚勤炜 等 基于混合结构卷积神经网络的目标快速检测算法 定量分析 在卷积神经网络中 第 层卷积层如图 $ 所示 其输入特征图尺寸为, 4 4 "4 其中 4 为输入图像通道数 经卷积操作后输出特征图尺寸为, " 其中 为输出通道数 则该卷积层由 个卷积核组成 假设每个卷积核的尺寸为, ", "4 则有,, 4, 6 其中 表示边缘填充的宽度 6 表示卷积核的滑动步长 设典型卷积神经网络的输入长宽均相等 且不带偏置项 则第 层卷积层的参数数量 与计算开销 % 分别为 4 " % 4 " 由式 可以看出 通道数与参数数量 计算开销成正相关关系 表明降低通道数能够减少网络模型的参数规模 在 5# 结构中 点卷积通道数 的选择准则为 输入通道数 4 与输出通道数 分别是 的 倍 & 倍 则第 层卷积层的参数数量变为 4 " " " " 计算开销变为 % ", 与卷积结构相比 有 % % 4 根据 的选择 采用 5# 层结构能够减少约 & 的参数数量及计算开销 5 策略的第 层卷积层通道数为 $ 则其需要的滤波器参数数量为, " 4 " 计算开销为 % 与卷积结构相比 参数数量和计算开销均减少一半 % % 假设典型卷积神经网络为 层网络 则该网络的总参数数量与总计算开销为 % 若网络采用混合 5# 卷积层结构和 5 策略的结构设计 则 层网络拥有总参数数量与总计算开销分别为 ' %' 其中 %' ' 和 ' 4 " " " " 分别表示第 层的计算开销与参数数量 若假定选择 $$4, 则与 层典型卷积神经网络相比 该网络能减少约 的参数数量及计算开销 实验与结果分析 本文实验环境如下 操作系统为! ( 型号为 %$ ) 开发框架采用 $. 深度学习框架 实验采用 ( 加速 卷积神经网络的训练 训练卷积神经网络需大量的数据集 防止出现过拟合 采用预训练网络对目标分类或目标检测网络微调 保证网络性能较好 本文目标快速检测网络的训练采用 次训练策略 通过大数据集训练得到特征提取部分的预训练网络 采用预训练网络对目标快速检测网络训练 其中 预训练网络通过实现分类任务对网络进行性能评价 预训练网络采用已有的网络数据集作为训练数据集 如 $ 数据集 该数据集含有近 多万张图像 涵盖 万多个类别 图像在输入网络前剪裁至 " 并把图像顺序随机打乱 预训练网络中层的待学习参数用均值为 标准差为 的高斯分布随机采样进行初始化 预训练网络的初始学习率 "5%* 设置为 学习率策略为 1 策略 其函数形式为 *"5%*" % # 5* 其中 表示当前迭代次数 % 表示最大迭代次数 5* 为超参数 本文取 % 5*$ 检测网络采用带有边框信息的数据集作为训练数据集 如 $*$& 数据集 该数据集含有 类检测目标 共 张图像 且每张图像含有多目标或多类目标 检测网络将输入图像缩放 使图像最短边长设置为 检测网络的特征提取层参数利用预训练网络得到的参数初始化 待学习参数以均值为 标准差为 的高斯分布随机采样初始化 检测网络的初始学习率 "5%* 设置为 并且在第 次迭代时 将学习率调整为 最大迭代次数设置为 次 单一结构对网络性能的影响 本节通过多组模型的对比实验验证单一结构对卷积神经网络的性能影响 实验采用已有的网络模型作为基准 在基准网络模型上重新设计每一种基本构建单元的网络模型 具体如下 模型 采用文献 提出的典型 层 ' 网络 模型 采用文献 提出的 层 (( 网络 模型 采用文献 提出的 层 网络 模型 卷积层采用 5# 卷积层结构替换 整体网络的层数与层参数与模型 相同 模型 基于模型 在网络前 层采用 5 策略 通过实现分类任务对每一个网络进行性能评价 每一个网络的训练策略采用 节中预训练网络的训练策略 对 类目标分类 训练数据集源
计 算 机 工 程 年 月 日 于 5 数据集 共含有 张图像 实验结果如表 所示 表 单一结构对网络的性能影响 卷积层 准确率 4 模型 参数数量 计算开销 % % ' 6 (- (( " (- 6 (- 5# 6 "- 5# 5 6 "- 从表 可以看出 采用 结构构成深度较浅的卷积神经网络 其分类准确率分别达到了 和 与模型 相比分别提高 和 与模型 保持相近的准确率 网络具有较好的性能 其参数数量及计算开销与浅层模型相近 但相较于深层模型有显著降低 在保持网络性能的同时 采用 5# 层结构的网络 参数数量减少 计算开销降低 采用 5 策略的网络 其参数数量减少 计算开销降低 结合 5# 层结构和 5 策略的网络 项降幅分别为 和 综上分析 本文提出的结构设计在网络较浅时能保持其特征提取性能 并且能有效减少网络的参数数量 降低计算开销 基于混合结构 988 的目标快速检测网络本文对 类常见目标进行目标检测任务 该 类分别为飞机 船只 轿车 火车 人 其中预训练网络通过 类目标的分类任务训练得到 预训练网络训练数据集来源 5 数据集 含有 张图像 目标检测网络的训练集与测试集数据来源于 & 数据集 训练集含有 张图像 本文采用相同的数据集以及训练模式 对文献 提供的 种常用网络模型训练 将得到的网络模型与本文目标快速检测网络模型对比 结果如表 所示 表 检测网络性能对比实验结果 共享卷积层运行时间运行内存模型参数数量计算 4.$ 4"- 4 开销 * 平均正确率均值 4 目标快速检测网络算法 "- 4 '$*5# ((# (- 4 '$*5# ' (- 4 从表 可以看出 目标快速检测网络算法的检测性能为 与其余 个模型的检测性能相比差值为 和 但在参数数量与计算开销方面 目标快速检测网络算法优势较为明显 能够分别减少 和 的参数数量 同时也分别降低 和 的计算开销 较少的参数数量降低网络的资源消耗 提升了网络的检测速度 目标快速检测网络在测试时占用的运行内存为 "- 与其余 个模型相比分别减少 和 在对网络检测速度测试时 目标快速检测网络算法对单幅图像测试时间为 * 比其他 个模型分别提升 倍和 倍 因此 本文算法能够有效地减少网络的参数规模 提高目标检测网络的检测速度 同时有效地减少检测网络的资源消耗 结束语本文提出混合结构卷积神经网络的目标快速检测算法 该算法利用 5# 结构降低通道数 网络浅层应用 5 策略 通过级联两者 得到结构优化的混合结构卷积神经网络 实验结果表明 本文算法能够减小网络模型的参数规模 提高网络的实时性 降低网络模型的内存消耗 如何进一步降低模型规模和提高检测性能是下一步的研究方向 参考文献 %("7 7( " 5%& " $.$ * 0$ 0$#.$.$.$# 44,*.. * $, $ 5:$*0 *# 姚相坤 万里红 霍 宏 等 基于多结构卷积神经网络的高分遥感影像飞机目标检测 计算机工程 # 易 生 梁华刚 茹 锋 基于多列深度 卷积神经网络的手势识别 计算机工程 # 7-(&7%&( $ $ # 王兆凯 李亚星 冯旭鹏 等 基于深度信念网络的个性化信息 计算机工程 # (565&55%$50.$ 0$0*. $ $!, $, *$ *$ 44,*.. * $, $ 5:$*0 *# (565'$*5# 44,*.# $$. *:$*0 *#
第 卷 第 期林封笑 陈华杰 姚勤炜 等 基于混合结构卷积神经网络的目标快速检测算法 5 6 (56 5 $'$*5# 2$,*$#!, 20 *$ 2* %$*$* $ $1**$, "$0 # 5"& (56 5 $7 1.,$#!, 44,*.. * $, $ 5:$*0 (7 : 7 $(,20 * 44,*.. * $, $ 5:$*0 *# 6( )5 $ *,$$. $ 44,*.. * $, $ 5:$*0 *# **# '&55% &( "%%: : " $ %& 5"- : -5 $ /+ $# $ $1 20.2 $* 20 $2*.. $$ 44,*.$$. $.$ * 1**$!"% *# 6567 %65 %& ( $ $**.$ 20, $$ 2* 44,*.$$. $.$ ** 1**2 7 "# 5" '5( 5*$+ $,,*$, $$*$, "-,*+ -4& # # 0 * 44$ 4,.4,. &:5 ( " - $"!*. $$2*.!* $$* -4& ## 0 * 44$ 4,.4,. " 87 2 2-4& ## 0 * 44$ 4,.4,. (:&6"$,*$, $, $ 2* 44,*. $ $$2* $ $$,. *-($1 # "&765" 1, $ 2*.$#*$ $ -4& ##0 *44$ 4$!*4., $* -4& ## 0 * 44 $ 4,.4,. 李传朋 秦品乐 张晋京 基于浓度卷识神经网络的图像去噪研究 计算机工程 # 编辑 赵 辉 上接第 页 谢智歌 王岳青 窦 勇 等 基于卷积 # 自动编码机的三维形状特征学习 计算机辅助设计与图形学学报 # 5(5(&7 &((5 & $, *$*$00 ** 44#,*. *. * $, $ 5:$*0 *# :( 7 (& 7 ) $&# # & %((5 & $2*,*.$ */ *.$ #2 44,*.. * $, $ 5:$*0 *# 董水龙 李海生 祝晓斌 等 利用 特征和 -:* 的三维模型检索算法 广西大学学报 自然科学版 # 855"$$, #2!$*, $ $ 2*. *0$ *.!$*.$,$$ 44,*. $$1** " %$*$* ($0*. * $, $ 5 :$*0 *# - - & $$, $$ *$.# *0$ $ " 6 " $%0 *0$! 0$ 44,*.. * * # 0$ $*:$*0 " 6&(56 $"#2 *# $$2*., *0$ # ( 5'*! $*.$ 44,*.$$. *,$$*$* *:$*0 编辑 金胡考 **#