调 研 : 基 于 卷 积 神 经 网 络 的 图 像 识 别 王 建 峰 电 子 工 程 与 信 息 科 学 系 年 月 日 摘 要 近 些 年, 卷 积 神 经 网 络 () 在 图 像 识 别 及 其 相 关 的 领 域 取 得 了 突 破 性 的 进 展 并 且 获 得 了 广 泛 的 关 注 本 文 从 卷 积 神 经 网 络 的 组 成, 结 构, 优 化, 应 用 等 方 面 对 该 领 域 的 进 展 进 行 调 研 学 习 在 网 络 组 成 方 面, 对 网 络 中 的 各 个 层 的 定 义 以 及 相 关 的 公 式 推 导 进 行 总 结 ; 在 结 构 方 面, 对 一 些 比 较 成 功 的 网 络 进 行 调 研 和 对 比 ; 在 优 化 方 面, 对 后 向 传 播 的 相 关 公 式 进 行 了 推 导 方 便 代 码 实 现 ; 在 应 用 层 面, 对 图 像 的 分 类 检 测 分 割 等 问 题 进 行 讨 论 介 绍 由 于 大 规 模 有 标 签 数 据 的 存 在, 例 如, 以 及 高 性 能 计 算 资 源 的 发 展, 例 如, 卷 积 神 经 网 络 近 年 来 在 图 像 识 别 领 域 取 得 了 很 大 的 成 功 在 图 像 物 体 识 别 领 域, 和 是 两 个 重 要 的 推 动 技 术 不 断 进 步 的 数 据 库 表 格 () 列 举 了 在 这 两 个 数 据 集 上 面 最 近 的 一 些 结 果 的 结 果 主 要 参 考 官 方 网 站 的 () 上 面 获 得 研 究 人 员 根 据 网 站 提 供 的 测 试 集 合 预 测 对 应 的 标 签, 并 且 将 预 测 结 果 上 传 到 相 关 的 服 务 器 上 进 行 评 测 每 周 单 用 户 提 交 次 数 具 有 一 定 的 限 制, 并 且 其 测 试 集 合 的 标 签 没 有 被 公 开 结 果 为 平 均 均 匀 准 确 率, 越 高 越 好, 最 低 为, 最 高 为 该 数 据 集 合 提 供 了 两 个 任 务, 一 个 是 图 像 分 类 一 个 是 图 像 检 测 对 于 这 两 个 任 务, 测 试 集 合 都 是 张 图 片, 总 共 有 个 类 别 从 表 格 () 中 可 以 看 出 在 图 像 分 类 的 任 务 中, 基 于 卷 积 神 经 网 络 的 方 法 最 高 的 性 能 为, 而 非 神 经 网 络 的 方 法 最 高 仅 为 神 经 网 络 的 方 法 目 前 来 说 能 够 带 来 将 近 个 点 的 提 升 的 结 果 为 前 五 的 错 误 率, 即 给 定 一 副 图 片, 算 法 提 供 的 个 最 有 可 能 的 标 签 都 是 错 的 概 率 总 共 有 个 类 别 数 值 越 低 越 好, 最 小 值 为 该 数 据 集 有 大 约 1.2 10 6 个 图 片 的 训 练 集,50 10 3 个 图 片 的 校 验 集, 和 100 10 3 个 图 片 的 测 试 集 带 有 星 号 的 结 果 是 在 测 试 集 上 的 错 误 率, 否 则 是 在 校 验 集 上 的 非 神 经 网 络 的 结 果 是 在 测 试 集 上 的 结 果 从 结 果 也 可 以 看 出, 基 于 卷 积 神 经 网 络 的 算 法 准 确 率 上 有 巨 大 的 性 能 的 提 升, 并 且 目 前 为 止 占 据 了 主 导 地 位 由 于 卷 积 神 经 网 络 在 各 方 面 的 优 势 以 及 其 取 得 了 较 高 的 准 确 率, 本 文 则 主 要 是 对 卷 积 神 经 网 络 在 图 像 识 别 领 域 进 行 调 研 调 研 主 要 分 为 四 个 部 分 第 一 部 分 是 卷 积 神 经 网 络 的 组 合, 讨 论 卷 积 神 经 网 络 的 各 个 层 的 定 义 第 二 部 分 是 卷 积 神 经 网 络 的 结 构, 讨 论 如 何 将 各 个 部 件 组 合 起 来, 主 要 讨 论 目 前 应 用 比 较 多 的 模 型 第 三 部 分 是 卷 及 神 经 网 络 的 优 化, 讨 论 后 向 传 播 的 定 义 以 及 相 关 公 式
和 数 据 集 上 准 确 率 从 结 果 中 可 以 看 出, 基 于 卷 积 神 经 网 络 的 方 法 取 得 了 巨 大 的 性 能 的 提 升 星 号 表 示 测 试 集 合 上 面 的 结 果, 否 则 为 校 验 集 上 的 卷 积 神 经 网 络 非 神 经 网 络 图 像 分 类 图 像 检 测 图 像 分 类 4.82 4.94 5.98 6.8 25.7 28.2 第 四 部 分 讨 论 卷 积 神 经 网 络 的 应 用, 主 要 是 在 图 像 识 别 中 的 应 用 最 后 讨 论 一 些 未 来 可 能 的 发 展 方 向 卷 积 神 经 网 络 的 组 成 从 测 试 的 角 度, 图 像 分 类 可 以 认 为 是 给 定 一 副 测 试 图 片 作 为 输 入 R W H C, 输 出 该 图 片 属 于 哪 一 类 参 数 W 是 图 像 的 宽 度,H 是 高 度,C 是 通 道 的 个 数 ; 彩 色 图 像 中 C = 3, 灰 度 图 像 中 C = 1 一 般 的 会 设 定 总 共 类 别 的 个 数, 例 如 在 竞 赛 中 总 共 有 个 类 别 ; 在 中 有 个 类 别 卷 积 神 经 网 络 则 可 以 看 成 这 样 的 黑 匣 子 输 入 是 原 始 图 片, 输 出 是 L 维 的 向 量 R L L 表 示 预 先 设 定 的 类 别 个 数 向 量 的 每 一 个 维 度 代 表 图 像 属 于 对 应 类 别 的 可 能 性 的 大 小 如 果 是 单 类 别 识 别 问 题, 也 就 是 说 每 一 幅 图 像 只 分 配 L 个 标 签 中 的 一 个 标 签, 那 么 可 以 对 中 的 元 素 进 行 比 较, 选 取 最 大 的 值 对 应 的 标 签 作 为 分 类 的 结 果 可 以 是 一 个 概 率 分 布 的 形 式, 即 每 一 个 元 素 0 v i 1, 并 且 i v i = 1 其 中 v i 表 示 的 第 i 个 元 素 也 可 以 是 从 负 无 穷 大 到 正 无 穷 大 的 实 数, 越 大 代 表 属 于 对 应 类 别 的 可 能 性 越 大 在 卷 积 神 经 网 络 的 内 部, 是 由 很 多 的 层 构 成 每 一 个 层 可 以 认 为 是 一 个 函 数, 输 入 是 信 号, 输 出 是 信 号 = f() 输 出 的 又 可 以 作 为 其 他 层 的 输 入 以 下 从 网 络 的 前 段, 中 端, 末 端 的 角 度 调 研 常 用 的 层 的 定 义 前 端 主 要 考 虑 对 于 图 像 的 处 理 过 程, 中 端 是 各 种 神 经 元, 末 端 主 要 考 虑 与 训 练 网 络 有 关 的 损 失 函 数 网 络 的 前 段 在 这 里, 前 端 主 要 指 的 是 对 图 像 数 据 的 处 理 可 以 称 之 为 数 据 层 数 据 裁 剪 输 入 的 图 像 的 大 小 可 能 各 不 相 同, 有 一 些 图 像 的 分 辨 率 较 大, 有 一 些 比 较 小 而 且 长 宽 比 也 不 一 定 会 一 样 对 于 这 样 的 不 一 致 性, 理 论 上 而 言, 可 以 不 予 处 理, 但 是 这 要 求 网 络 中 其 他 的 层 次 支 持 这 样 的 输 入 目 前 的 一 些 网 络 结 构 中, 采 用 的 这 种 任 意 大 小 输 入 的 方 法 并 不 多 目 前 大 部 分 情 况 下 采 用 的 是 通 过 裁 剪 的 方 法 使 得 输 出 的 图 像 是 固 定 分 辨 率 的 在 中 的 做 法 是, 首 先 将 每 一 张 图 片 调 整 到 短 边 为, 长 边 的 大 小 通 过 保 持 长 宽 比 而 得 然 后 从 中 间 裁 剪 出 一 个 256 256 的 子 图 在 该 子 图 上 再 裁 剪 出 来 大 小 为 224 224 的 子 图 作 为 该 数 据 层 的 输 出 在 网 络 训 练 的 阶 段, 裁 剪 的 位 置 从 256 256 的 图 像 上 随 机 选 择, 只 需 要 满 足 裁 剪 的 子 图 完 全 落 在 图 像 中 即 可 通 过 随 机 的 方 式, 是 因 为 相 当 于 增 加 了 额 外 的 数 据, 能 够 缓 解 过 拟 合
的 问 题 在 进 行 测 试 的 时 候, 每 一 张 256 256 的 图 像 中, 裁 剪 个 子 图 : 首 先 从 中 间 裁 剪 一 个, 四 个 角 落 分 别 裁 剪 一 个, 然 后 对 于 这 五 张 子 图 分 别 做 横 向 的 镜 像, 从 而 得 到 张 子 图 将 每 一 个 子 图 放 入 剩 余 的 网 络 层 进 行 预 测, 然 后 融 合 预 测 的 结 果 在 中, 融 合 的 方 法 是 平 均 所 有 预 测 的 概 率 输 出, 即 网 路 的 输 出 是 概 率 形 式 的 颜 色 干 扰 裁 剪 之 后 的 原 图, 每 一 个 像 素 的 是 到 的 固 定 的 数 值 进 一 步 的 处 理, 包 括 减 去 均 值, 以 及 等 比 例 缩 放 像 素 值 使 得 像 素 值 的 分 部 基 本 在 [ 1, 1] 之 间 除 了 这 些 常 规 的 操 作 之 外, 也 会 对 图 像 进 行 归 一 化, 相 当 于 图 像 增 强, 比 如 中 对 的 数 据 预 处 理 中 在 中, 对 于 每 一 个 像 素, 随 机 选 择 三 个 通 道 中 的 一 个, 然 后 在 原 像 素 值 的 基 础 上, 随 机 添 加 一 个 从 之 间 的 数 值 网 络 的 中 端 以 下 介 绍 在 卷 及 神 经 网 络 中 常 用 的 层 的 定 义, 即 输 入 的 数 据 是 什 么 维 度, 输 出 是 什 么 维 度 以 及 如 何 从 输 入 得 到 输 出 卷 积 层 卷 积 层 的 输 入 表 示 为 R W H C, 是 一 个 三 维 的 数 据 表 示 有 C 个 矩 阵, 每 一 个 矩 阵 这 里 表 示 为 c R W H, 也 称 之 为 特 征 图 输 出 R Wo Ho Co, 也 是 一 个 三 维 的 数 据 特 征 图 的 分 辨 率 从 W H 变 为 W o H o 特 征 图 的 个 数 也 从 C 变 为 C o 从 输 入 到 输 出 的 一 般 公 式 为 : c1 = c c c,c1 矩 阵 c,c1 R w h 称 之 为 卷 积 核 属 于 卷 积 层 的 参 数, 一 般 通 过 随 机 梯 度 下 降 更 新 c 为 输 入 数 据 的 第 c 个 特 征 图, 但 在 一 些 情 况 下, 也 会 在 图 像 的 周 围 补 白 符 号 表 示 二 维 数 据 的 卷 积 运 算 卷 积 定 义 为 ( c c,c1 ) u,v = m,n x c m,nw c,c 1 u m,v n 符 号 () u,v 表 示 对 应 矩 阵 的 u 行 v 列 的 元 素 值 在 有 一 些 的 网 络 结 构 中, 并 不 是 选 择 所 有 的 (u, v), 而 是 每 隔 一 定 数 量 选 择 一 个 直 观 而 言, 卷 积 层 相 当 于 对 图 像 进 行 滤 波, 希 望 能 够 抽 象 出 来 局 部 信 息 局 部 信 息 通 过 较 小 的 卷 积 核 在 图 像 不 同 的 局 部 位 置 上 扫 描 而 得 层 层 的 输 入 是 R W H C, 输 出 是 W H C o 特 征 层 的 分 辨 率 保 持 不 变, 但 是 通 道 数 有 所 改 变 其 定 义 为 : y c o u,v = c x c u,vw c,c o 其 等 效 于 卷 积 核 是 1 1 的 卷 积 层 层 相 当 于 在 多 个 全 连 接 层, 每 一 个 全 连 接 将 信 号 从 C 维 度 映 射 为 C o 维 度
层 及 其 相 关 变 体 该 层 的 输 入 认 识 是 一 个 信 号 并 不 要 求 输 入 信 号 的 维 度 必 须 是 一 维 或 者 几 维 的, 因 为 该 层 的 操 作 是 对 输 出 的 每 一 个 元 素 单 独 操 作 但 依 然 可 以 认 为 输 入 的 R W H C 输 出 是 一 个 和 输 入 维 度 一 样 的 信 号 从 输 入 到 输 出 的 定 义 为 : x i x i 0 y i = 0 x i < 0 显 然 这 是 一 个 非 线 性 操 作, 的 存 在 使 得 网 络 的 表 达 更 加 丰 富 同 时 从 定 义 中 容 易 得 出, 该 操 作 非 常 简 单, 并 且 在 不 同 的 输 入 点 之 间 进 行 并 行 在 一 定 程 度 上 也 是 行 函 数 的 近 似 : 1 y i = 1 + e x i 在 中, 被 改 进 为 x i x i 0 y i = 0.01x i x i < 0 当 元 素 值 为 负 数 的 时 候, 通 过 y i = 0.01x i 的 方 式, 避 免 了 导 数 为, 无 法 传 播 的 情 况 导 数 的 相 关 内 容 将 在 后 面 介 绍 在 中, 使 用 的 修 正 的 为 x i x i 0 y i = 0.33x i x i < 0 斜 率 从 增 加 到 了, 从 而 真 个 网 络 结 构 更 加 平 滑 在 中, 修 正 的 为 x i x i 0 y i = ax i x i < 0 其 中 斜 率 a 不 再 是 一 个 固 定 的 数 值, 而 是 通 过 梯 度 下 降 的 方 式 就 行 优 化 在 中, 讨 论 了 两 种 情 况, 一 种 是 对 于 所 有 的 通 道,a 是 共 享 的 另 一 种 是 针 对 每 一 个 通 道 单 独 设 置 一 个 a 层 的 输 入 为 R W H C 同 样 的, 这 里 并 不 要 求 输 入 是 三 维 的 信 号, 任 意 可 能 的 维 度 都 是 可 以 同 样 是 针 对 每 一 个 数 据 进 行 操 作 输 出 与 输 入 的 大 小 一 致 在 网 路 进 行 训 练 的 时 候, 对 于 输 入 的 每 一 个 数 值 x i, 按 照 概 率 p 设 置 为, 否 则 保 留 数 学 形 式 可 以 写 为 : y i = ϵx i 其 中 ϵ 是 随 机 变 量, 并 且 满 足 ϵ = 0 的 概 率 为 p,ϵ = 1 的 概 率 为 1 p 实 际 中, 概 率 p 往 往 设 置 为
然 而 在 进 行 测 试 的 时 候, 计 算 公 式 更 正 为 y i = (1 p)x i 相 当 于 一 个 期 望 层 的 引 入 主 要 是 为 了 减 少 过 拟 合 的 问 题, 减 少 不 同 参 数 之 间 的 耦 合 性 全 连 接 层 输 入 时 R D 这 里 要 求 将 输 入 认 识 是 一 个 列 向 量 输 出 为 R P 从 输 入 到 输 出 的 关 系 式 为 : = + 其 中 R P D, R P 是 投 影 矩 阵 以 及 阈 值, 是 该 层 的 参 数, 通 过 随 机 梯 度 下 降 的 方 式 更 新 优 化 全 连 接 层 是 一 个 非 常 常 用 的 层, 然 而 该 层 在 一 定 程 度 上 会 损 失 图 像 的 空 间 信 息, 故 而 在 有 一 些 网 络 中, 抛 弃 了 全 连 接 层 层 在 介 绍 之 前, 先 介 绍 将 放 在 全 连 接 层 之 后 的 情 况 输 入 是 R D, 输 出 是 R P 由 全 连 接 层 以 及 的 定 义 有 z i = T i + b i y i = ϵz i 所 以 如 果 ϵ = 0, 等 效 于 i =, b i = 0 如 果 ϵ = 1, 等 效 于 不 对 投 影 矩 阵 做 任 何 修 改 也 就 是 说, 可 以 将 全 连 接 层 和 层 连 接 到 一 起, 相 当 于 一 个 投 影 参 数 和 阈 值 项 按 照 一 定 规 则 随 机 变 成 如 果 忽 略 这 个 规 则, 允 许 全 连 接 层 的 参 数 互 相 独 立 的 为, 这 正 是 的 核 心 思 想 从 数 学 的 角 度, 的 函 数 映 射 可 以 写 为 : y i = j ϵ i,j W i,j x j + γ i b i 其 中 ϵ i,j 和 γ i 是 随 机 变 量, 取 的 概 率 为 p, 为 的 概 率 为 1 p, 并 且 互 相 独 立 在 一 定 程 度 上 泛 化 了, 也 是 一 种 缓 解 过 拟 合 的 技 术 池 化 层 输 入 的 信 号 表 示 为 R W H C, 具 有 C 个 通 道, 每 一 个 通 道 是 一 个 特 征 图 输 出 R W o H o C 具 有 的 通 道 个 数 与 输 入 相 同, 但 是 特 征 图 的 分 辨 率 一 般 是 降 低 池 化 层 是 对 每 一 个 特 征 图 单 独 进 行 操 作 并 且 输 出 一 个 对 应 的 特 征 图 假 设 池 化 范 围 是 w h, 那 么 输 入 的 特 征 图 提 取 出 来 w h 的 小 图, 然 后 寻 找 子 图 的 最 大 值, 或 者 计 算 子 图 的 均 值, 作 为 一 个 输 出 签 证 一 般 称 之 为 最 大 化 池 化, 后 者 是 均 值 池 化 从 图 像 中 提 出 小 图 的 方 式 可 以 是 任 意 一 个 子 图, 也 可 以 是 每 隔 多 个 像 素 值 得 到 一 个 子 图 池 化 层 的 作 用 包 括 降 低 特 征 图 的 分 辨 率, 从 而 减 少 计 算 量, 以 及 增 强 网 络 的 鲁 棒 性 比 如 对 于 最 大 化 池 化 的 方 式, 对 于 图 像 的 平 移 具 有 一 定 的 鲁 棒 性
局 部 响 应 归 一 化 层 输 入 是 一 个 三 维 信 号 R W H C, 输 出 也 是 一 个 三 维 信 号 R W H C 局 部 响 应 归 一 化 层 ( 英 文 : ) 通 过 如 下 公 式 计 算 : β (C 1,i+n/2) yu,v c = x c u,v/ k + α (x c u,v) 2 j=(0,i n/2) 其 中 x c u,v 代 表 第 c 个 通 道 上 位 置 是 (u, v) 的 信 号 值 参 数 在 中 的 设 置 为 k = 2, n = 5, α = 10 4, β = 0.75 批 归 一 化 层 批 归 一 化 层 ( 英 文 : ) 层 的 输 入 依 然 是 三 维 的 信 号 R W H C, 输 出 与 输 入 具 有 相 同 的 大 小 其 归 一 化 的 基 本 思 路 是 对 输 入 的 每 一 个 元 素 按 照 如 下 方 式 归 一 化 y i = ax i + b 使 得 输 出 的 {y i } 均 值 尽 量 的 为, 以 及 方 差 尽 量 为 通 过 这 样 的 方 式, 每 一 层 的 数 据 分 布 基 本 上 一 致 从 的 实 验 结 果 中 看 出 该 方 法 能 够 提 升 优 化 的 速 度 网 络 的 末 端 从 网 络 训 练 的 角 度, 末 端 主 要 是 损 失 函 数 也 就 是 将 数 据 映 射 为 一 个 标 量 通 过 随 机 梯 度 下 降 的 方 式, 使 得 损 失 函 数 逐 渐 的 降 低 目 前 使 用 比 较 广 泛 的 是 回 归 和 损 失 函 数 回 归 输 入 时 R L, 表 示 输 入 图 像 在 各 个 类 别 上 的 可 能 性 ; 同 时 需 要 输 入 图 像 的 标 签 k 输 出 是 损 失 值 首 先 将 输 入 归 一 化 到 [0, 1] 之 间, 通 过 函 数 然 后 通 过 交 叉 熵 定 义 损 失 值, 也 就 是 : z i = {v i} j {v j} y = (z k ) 该 损 失 函 数 也 相 当 于 距 离 该 损 失 函 数 主 要 应 用 与 单 类 别 分 类 问 题 中 铰 链 损 失 函 数 输 入 依 然 是 R L 以 及 对 应 的 标 签 向 量 { 1, 1} L l i = 1 输 入 图 像 具 有 第 i 个 标 签 如 果 是 单 标 签 的 的 分 类, 那 么 中 只 有 一 个 元 素 是, 其 他 都 为 对 应 的 损 失 值 定 义 为 : y = i (0, 1 l i v i ) 该 损 失 函 数 不 仅 可 以 应 用 在 单 标 签 分 类 的 问 题 中, 也 可 以 应 用 在 多 标 签 分 类 中
卷 积 神 经 网 络 的 结 构 在 介 绍 完 了 卷 积 神 经 网 络 内 部 的 部 件 之 后, 本 章 节 讨 论 如 何 将 这 些 层 连 接 起 来, 构 成 一 个 强 大 的 网 络 这 里 主 要 讨 论 和, 以 及 相 关 的 改 进 这 里 介 绍 的 与 中 的 描 述 有 少 许 的 不 同, 主 要 参 考 中 提 供 的 的 网 络 结 构 该 网 络 结 构 是 有 多 个 层 串 行 连 接 而 成 的 每 一 层 的 结 构 如 下 所 示 : 数 据 层, 从 原 图 中 裁 剪 出 227 227 3 的 彩 色 子 图 : 卷 积 层, 每 一 个 卷 积 核 大 小 为 11 11, 空 间 上 每 隔 个 像 素 取 一 个 子 区 域 计 算 加 权 和 输 出 个 通 道 输 出 数 据 维 度 :55 55 96 该 层 后 面 连 接 ( 非 线 性 层 ) 和 ( 局 部 响 应 归 一 化 层 ) 最 大 池 化 层 每 隔 个 像 素 点, 在 3 3 大 小 的 子 图 上 寻 找 最 大 值 输 出 大 小 为 27 27 96 卷 积 层 卷 积 核 大 小 5 5, 分 两 个 组 用 于 在 多 个 上 面 并 行 计 算 输 入 图 像 补 白 个 像 素, 输 出 个 通 道 输 出 维 度 为 27 27 256 该 层 后 面 连 接 ( 非 线 性 层 ) 和 ( 局 部 响 应 归 一 化 层 ) 最 大 池 化 层 每 隔 个 像 素 点, 在 3 3 大 小 的 子 图 上 寻 找 最 大 值 输 出 大 小 为 13 13 256 卷 积 层 卷 积 核 大 小 3 3, 输 入 图 像 补 白 个 像 素, 输 出 个 通 道 输 出 维 度 为 13 13 384 该 层 后 面 连 接 ( 非 线 性 层 ) 卷 积 层 卷 积 核 大 小 3 3, 分 个 组 用 于 在 多 个 上 面 并 行 计 算 输 入 图 像 补 白 个 像 素, 输 出 个 通 道 输 出 维 度 13 13 384 该 层 后 面 连 接 ( 非 线 性 层 ) : 卷 积 层 卷 积 核 大 小 3 3, 分 个 组 用 于 多 个 上 面 并 行 计 算 输 入 图 像 补 白 个 像 素, 输 出 个 通 道 输 出 维 度 13 13 256 该 层 后 面 连 接 ( 非 线 性 层 ) : 最 大 池 化 层 每 隔 个 像 素 点, 在 3 3 大 小 的 子 图 上 寻 找 最 大 值 输 出 大 小 为 6 6 256 全 连 接 层 输 出 维 度 该 层 后 面 连 接 ( 非 线 性 层 ) 层, 概 率 全 连 接 层, 输 出 维 度 该 层 后 面 连 接 ( 非 线 性 层 ) 层 概 率 全 连 接 层 该 网 络 在 数 据 集 上 面 应 用, 有 个 类 别, 故 而 输 出 为 训 练 用 到 的 损 失 函 数
网 络 结 构 或 者 分 别 代 表 卷 积 层 对 应 的 核 的 大 小 是 3 3 或 者 1 1 后 缀 的 数 字 表 示 特 征 图 的 个 数 例 如 表 示 卷 积 核 为 3 3, 输 出 特 征 图 的 个 数 为 256 在 每 一 个 卷 积 层 之 后 都 会 有 一 个 非 线 性 层 网 络 结 构 从 到 逐 渐 变 深 从 中 可 以 发 现, 一 般 是 一 个 卷 积 层 之 后 都 有 非 线 性 层, 池 化 层 一 般 选 择 最 大 池 化 网 络 的 前 面 主 要 是 卷 积 层, 用 于 对 图 像 的 局 部 信 息 进 行 抽 象 ; 后 面 主 要 是 全 连 接 层, 类 似 于 分 类 器 是 对 的 一 个 重 要 的 改 进, 其 主 要 的 特 点 之 一 是 网 络 变 得 更 深 更 宽 在 中, 作 者 实 验 了 多 种 网 络 结 构, 并 对 比 了 相 关 的 准 确 率 这 些 网 络 的 结 构 在 表 格 () 中 所 示 符 号 或 者 分 别 代 表 卷 积 层 对 应 的 核 的 大 小 是 3 3 或 者 1 1 后 缀 的 数 字 表 示 特 征 图 的 个 数 例 如 表 示 卷 积 核 为 3 3, 输 出 特 征 图 的 个 数 为 256 在 每 一 个 卷 积 层 之 后 都 会 有 一 个 非 线 性 层, 在 表 格 中 为 了 简 洁 予 以 省 略 从 特 征 图 的 个 数, 分 别 由 输 入 图 像 的, 变 成, 然 后 是, 呈 指 数 增 加 这 样 的 参 数 设 置 方 式 在 中 也 有 所 体 现 在 每 次 特 征 图 增 加 的 时 候, 其 实 特 征 图 的 大 小 也 因 为 最 大 池 化 层 而 变 小 了 例 如 在 有 个 通 道 增 长 为 个 通 道 的 时 候, 特 征 图 的 分 辨 率 也 从 224 224 缩 小 到 了 112 112 对 于 网 络 靠 后 的 个 全 连 接 层 都 与 基 本 上 一 致 从 的 实 验 结 果 中, 越 深 的 网 络 表 现 的 性 能 越 好, 但 是 在 很 深 的 网 络 中, 性 能 的 提 升 有 限
Filter concatenation 3x3 convolutions 5x5 convolutions 1x1 convolutions 1x1 convolutions 1x1 convolutions 1x1 convolutions 3x3 max pooling Previous layer 层 的 示 意 图 type patch size/ stride output size 网 络 结 构 图 depth #1 1 #3 3 reduce #3 3 #5 5 reduce #5 5 pool proj params ops convolution 7 7/ 2 112 112 64 1 2.7K 34M maxpool 3 3/ 2 56 56 64 0 convolution 3 3/ 1 56 56 192 2 64 192 112K 360M maxpool 3 3/ 2 28 28 192 0 inception(3a) 28 28 256 2 64 96 128 16 32 32 159K 128M inception(3b) 28 28 480 2 128 128 192 32 96 64 380K 304M maxpool 3 3/ 2 14 14 480 0 inception(4a) 14 14 512 2 192 96 208 16 48 64 364K 73M inception(4b) 14 14 512 2 160 112 224 24 64 64 437K 88M inception(4c) 14 14 512 2 128 128 256 24 64 64 463K 100M inception(4d) 14 14 528 2 112 144 288 32 64 64 580K 119M inception(4e) 14 14 832 2 256 160 320 32 128 128 840K 170M maxpool 3 3/ 2 7 7 832 0 inception(5a) 7 7 832 2 256 160 320 32 128 128 1072K 54M inception(5b) 7 7 1024 2 384 192 384 48 128 128 1388K 71M avgpool 7 7/ 1 1 1 1024 0 dropout(40%) 1 1 1024 0 linear 1 1 1000 1 1000K 1M softmax 1 1 1000 0 在 中, 引 用 了 一 个 层, 这 个 层 是 将 多 个 卷 积 层, 层, 池 化 层 结 合 起 来 图 () 所 示 其 输 入 由 图 中 的 表 示, 输 出 为 图 中 的 表 示 输 入 的 是 一 个 三 维 的 矩 阵 信 号 从 左 到 右, 首 先 有 一 个 1 1 的 卷 积 层 ; 不 改 变 特 征 图 的 大 小, 但 是 通 道 数 可 以 被 改 变 ; 然 后 是 一 个 1 1 的 卷 积 层 加 上 一 个 3 3 的 卷 积 层, 前 者 是 为 了 减 少 通 道 个 数, 从 而 减 少 计 算 量, 后 者 通 过 3 3 的 卷 积 核 对 图 像 进 行 抽 象, 通 过 补 白 的 方 式 使 得 输 出 的 特 征 图 的 大 小 不 变, 但 是 通 道 数 量 有 可 能 改 变 ; 在 之 后 是 一 个 类 似 的 1 1 的 卷 积 层 加 上 5 5 的 卷 积 层 ; 最 右 端 首 先 是 一 个 3 3 的 最 大 池 化 层, 这 个 池 化 层 是 每 一 个 像 素 值 都 会 进 行 池 化, 也 通 过 补 白 的 方 式, 使 得 输 出 的 特 征 图 的 大 小 保 持 不 变, 然 后 经 过 一 个 1 1 的 卷 积 层, 依 然 保 持 了 特 征 图 的 大 小 最 后 个 结 果 连 接 到 一 起, 也 就 是 最 后 的 通 道 数 量 是 个 通 道 数 量 之 和, 特 征 图 大 小 一 致 通 过 这 样 的 层, 能 够 对 原 图 从 不 吃 的 尺 度 下 进 行 抽 象, 增 强 了 网 络 的 鲁 棒 性 将 多 个 层 连 接 到 一 起, 构 成 了 一 个 最 终 的 网 络 其 网 络 结 构 参 见 图 () 表 格 中 1 1 表 示 层 中 最 左 端 1 1 卷 积 层 输 出 的 通 道 数 3 3 表 示 的 是 在 3 3 卷 积 层 之 前 添 加 的 1 1 卷 积 层 的 输 出 的 通 道 数, 而 3 则 是 随 后 的 3 3 卷 积 层 的 输 出 通 道 数 5 5 和 5 5 具 有 类 似 的 含 义 表 示 的 是 最 右 端 的 的 池 化 层 之 后 连
接 的 1 1 的 卷 积 层 的 通 道 数 卷 积 神 经 网 络 的 优 化 给 定 了 训 练 样 本 之 后, 神 经 网 络 一 般 通 过 随 机 梯 度 下 降 的 方 式 更 新 参 数 假 设 训 练 样 本 为 {I i, l i }, i {1,, N},I i 表 示 输 入 图 像,l i 表 示 对 应 的 标 签 如 果 是 多 类 别 问 题 或 者 分 割 问 题, 标 签 可 能 是 一 个 向 量 或 者 二 维 的 矩 阵 N 表 示 训 练 样 本 的 个 数 损 失 函 数 表 示 为 f(θ) = 1 f(θ; I i, l i ) N i 其 中 θ 表 示 网 络 中 所 有 的 参 数 基 本 的 梯 度 下 降 的 算 法 通 过 以 下 方 式 更 新 参 数 θ = θ λ 1 N i f(θ; I i, l i ) θ 其 中 λ 是 学 习 率 当 数 据 量 比 较 多 的 时 候, 计 算 梯 度 的 复 杂 度 太 高 随 机 梯 度 下 降 的 做 法 是 每 次 从 所 有 的 样 本 中 随 机 选 择 一 个 样 本, 更 新 公 式 为 θ = θ λ f(θ; I i, l i ) θ i 为 随 机 选 择 的 样 本 的 索 引 为 了 更 好 的 利 用 计 算 资 源, 小 批 量 随 机 梯 度 从 所 有 的 数 据 中 随 机 选 择 少 量 的 样 本 标 记 选 择 的 样 本 的 索 引 值 为 I, 那 么 更 新 公 式 为 θ = θ λ 1 f(θ; I i, l i ) I θ i I I 表 示 集 合 I 的 大 小 在 实 际 中, 一 种 常 见 的 做 法 是, 首 先 随 机 排 序 所 有 的 点, 然 后 依 次 选 择 固 定 个 数 的 点 估 计 梯 度 扫 描 一 遍 所 有 的 数 据 之 后, 在 重 新 按 照 原 来 的 顺 序 进 行 选 择 为 了 减 少 梯 度 在 不 同 的 循 环 时 震 荡 太 大 的 问 题, 采 用 了 的 技 术, 同 时 加 入 l 2 的 正 则 项 抑 制 过 拟 合 问 题 更 新 公 式 为 z k+1 = 0.9z k 0.0005γθ k γ θ k+1 = θ k + z k+1 ( 1 I ) f(θ; I i, l i ) θ 反 向 传 播 接 下 来 介 绍 反 向 传 播 计 算 f(θ; I i, l i )/ θ 用 到 的 反 向 传 播 对 于 每 一 层, 输 入 为, 输 出 为, 假 设 有 = g(; ) 其 中 是 该 层 的 参 数 显 然 的 最 后 的 目 标 函 数 跟 是 直 接 相 关 的 故 而 梯 度 计 算 f = k f y k y k f
Figure 2: R-CNN 的基本框架 对于每一张图像 首先生成候选区域 平均每张图大概有 2k 个候选 区域 然后对于每一个候选区域 提取卷及神经网络的特征 然后放到一个分类器中进行预测 也就是说 只要知道了 f / y 就可以根据层的定义求解对于参数的导数 为了求解其他层的 导数 需要计算 f / x 公式如下 f f yk = x yk x (28) y f x y (29) k, 5 卷积神经网络的应用 以下介绍神经网络的应用 图像分类 图像检测和图像分割 图像分类是给定一张图 预测整 幅图像的类别 图像检测是给定一张图 预测图像中包含了哪一些感兴趣的目标 并且需要提供目 标在图像的区域位置 图像分割需要给定一张图像上每一个位置的标签 5.1 图像分类 图像分类是一个最基本的问题 可以直接用神经网络预测图像属于每一类的概率大小 另一中 常用的方式是将神经网络做特征提取 然后用传统的 SVM 进行训练和预测 例如在 [26] 中 首先 用 VggNet 在 ImageNet 上面进行训练 然后提取出最后的 4096 维度的特征 之后用 SVM 在这个 特征基础上进行训练 对于测试图像 用同样的网络提取特征 然后用 SVM 进行预测 其准确率 可以达到 89.3% 目前为止 是 VOC Leaderboard 上面排名第二的方法 在 [23] 中 作者实验了 利用 CNN 特征然后加上传统分类器 在已有数据集上面的测试结果 相比于传统的认为设计的特 征的方法 都有很大的提高 5.2 图像检测 针对图像检测的问题 目前最好的性能的的方法基本上都是基于 R-CNN[8] 的方法 图 2 示 意了 R-CNN 的基本框架 对于每一张图像 首先生成候选区域 平均每张图大概有 2k 个候选区 域 然后对于每一个候选区域 提取卷及神经网络的特征 然后放到一个分类器中进行预测 那么 在这个过程中 主要分为两步 第一步是生成候选区域 第二步是预测候选区域的类别信息 5.2.1 候选区域生成 在 [8] 中 候选区域通过选择搜索 [29] 的算法生成 选择搜索利用了图像的颜色 纹理等信息 通过穷举搜索的方法将一副图像生成了多个子区域或者候选区域 除了选择搜索之外 还有一些别 11
的 候 选 区 域 生 成 的 算 法 例 如, 首 先 生 成 图 像 的 边 缘 图, 然 后 根 据 边 缘 图 聚 合 成 多 个 候 选 区 域 在 中, 作 者 提 供 了 一 个 快 速 计 算 候 选 区 域 的 方 法, 通 过 少 量 的 比 特 操 作 以 及 穷 举 搜 索 的 方 式 得 到, 是 目 前 计 算 效 率 最 快 的 方 法 之 一 以 上 候 选 区 域 生 成 的 方 法 都 是 通 过 人 为 设 计 的, 在 中, 作 者 提 出 了 一 个 通 过 神 经 网 络 学 习 的 方 式 直 接 输 出 候 选 区 域 的 位 置 具 体 而 言, 网 路 的 输 入 是 一 个 图 像, 输 出 是 K 个 候 选 区 域 每 一 个 区 域 由 两 部 分 描 述 : 一 个 是 个 维 度 的 位 置 信 息, 两 个 描 述 左 上 角 的 位 置, 两 个 描 述 右 下 角 的 位 置 位 置 坐 标 都 根 据 原 图 进 行 了 归 一 化 ; 第 二 个 是 一 个 置 信 度 实 数, 取 值 范 围 是 [0, 1], 用 于 描 述 该 区 域 是 否 包 含 了 物 体 假 设 对 于 一 幅 图 像 而 言, 输 出 的 位 置 表 示 为 l i R 4, 在 训 练 阶 段 会 有 M 个 包 含 物 体 的 区 域, 表 示 为 g i R 4 为 了 计 算 损 失 函 数, 首 先 需 要 计 算 输 出 的 K 个 区 域 中 的 哪 一 个 和 真 实 标 记 的 区 域 对 应, 标 记 对 应 关 系 为 x i,j {0, 1} 如 果 x i,j = 1, 那 么 网 络 输 出 的 第 i 个 候 选 区 域 和 第 j 个 真 实 区 域 对 应, 否 则 不 对 应 那 么 关 于 位 置 信 息 的 损 失 函 数 为 : F (x, l) = 1 x i,j l i g j 2 2 2 也 就 是 说, 希 望 从 K 个 候 选 区 域 中 选 择 M 个 区 域 使 得 这 M 个 区 域 与 真 实 的 区 域 完 全 对 应 上 除 此 之 外, 还 需 要 对 应 的 置 信 度 尽 量 的 为 关 于 置 信 度 的 损 失 函 数 为 : i,j F (x, c) = i,j x i,j (c i ) i (1 j x i,j ) (1 c i ) 那 么 最 终 的 损 失 函 数 为 F (x, l, c) = αf (x, l) + F (x, c) 为 了 计 算 对 应 关 系 x, 可 以 通 过 如 下 方 式 进 行 : x = F (x, l, c).. x i,j {0, 1}, i x i,j = 1. 然 后 根 据 进 行 优 化 网 络 的 其 他 参 数 以 上 概 括 了 该 方 法 的 基 本 思 想, 然 而 在 实 际 中, 作 者 进 行 了 少 量 的 修 正 首 先 对 于 所 有 的 真 实 的 区 域 的 位 置 信 息, 通 过 聚 类 的 方 法 生 成 K 个 类 别 每 一 个 类 别 对 应 网 络 的 一 个 输 出, 认 为 是 该 输 出 的 先 验 知 识 然 后 每 一 个 输 出 的 不 是 位 置 的 绝 对 信 息, 而 是 位 置 相 对 于 该 先 验 的 相 对 位 置 另 外 对 于 位 置 x 的 求 解, 并 不 是 对 于 一 幅 图 像 每 次 都 重 新 求 解 对 应 关 系, 而 是 根 据 先 验 信 息 与 真 实 位 置 之 间 的 误 差, 预 先 求 解 了 x 也 就 是 说 训 练 网 络 的 时 候, 同 样 一 幅 图 像 在 经 过 网 络 之 后 的 x 都 是 固 定 的 通 过 这 样 的 方 式, 可 以 避 免 x 每 次 都 震 荡 的 问 题 在 中 展 示 该 技 巧 在 实 际 中 对 性 能 的 提 高 很 重 要 候 选 区 域 分 类 对 于 候 选 区 域 的 分 类, 与 图 像 分 类 的 区 别 并 不 大 主 要 的 问 题 是 对 于 训 练 样 本 的 选 择 上 一 般 的 做 法 是 根 据 候 选 区 域 与 真 实 区 域 的 重 合 度 来 区 分 一 个 候 选 区 域 是 不 是 作 为 正 例 重 合 度 通 过 进 行 度 量, 标 记 两 个 区 域 分 别 是 R 1,R 2, 那 么 的 定 义 为 = R 1 R 2 R 1 R 2
forward/inference backward/learning pixelwise prediction segmentation g.t. 256 384 384 256 4096 4096 21 96 21 全 连 接 的 神 经 网 络 用 于 图 像 分 割 的 示 意 图 输 入 是 一 张 图 像, 输 出 是 一 个 预 测 图, 包 含 了 每 一 个 像 素 的 标 签 信 息 在 训 练 阶 段 的 时 候, 需 要 和 真 实 的 预 测 图 计 算 响 应 的 预 测 误 差, 从 而 更 新 网 络 的 参 数 分 子 表 示 的 是 两 个 区 域 的 交 集 对 应 的 像 素 点 的 个 数, 分 母 是 两 个 区 域 的 并 集 对 应 的 像 素 点 的 个 数 也 称 之 为 相 似 性 如 果 > α, 则 认 为 该 候 选 区 域 是 正 例, 响 应 的 标 签 由 该 真 实 区 域 的 标 签 决 定 如 果 < β, 则 认 为 是 负 例, 或 者 认 为 是 背 景 区 域 所 以 假 设 总 共 有 L 个 标 签, 那 么 网 络 在 训 练 的 时 候, 需 要 有 L + 1 个 标 签, 以 表 示 背 景 区 域 参 数 α 一 般 取 为, 而 β 的 取 值 差 异 比 较 大, 比 如 在 中, 该 参 数 设 置 为 这 样 每 一 个 候 选 区 域 都 会 有 一 个 标 签, 从 而 可 以 训 练 用 于 分 类 的 网 络 在 进 行 测 试 的 时 候, 每 一 个 候 选 区 域 用 训 练 好 的 网 络 进 行 预 测 类 别, 或 者 通 过 提 取 特 征 加 上 的 形 式 进 行 预 测 然 而 在 实 际 中 会 可 能 两 个 候 选 区 域 靠 近 的 很 近, 从 而 在 一 个 物 体 周 围 有 多 个 预 测 结 果 为 了 解 决 这 样 的 问 题, 采 用 非 最 大 抑 制 的 方 法 进 行 过 滤 对 于 一 副 图 像 的 每 一 个 类 别, 将 所 有 的 候 选 区 域 根 据 预 测 的 概 率 值 进 行 排 序, 由 大 到 小 表 示 最 有 可 能 是 一 个 物 体 的 在 前 面, 最 不 可 能 的 在 后 面 然 后 从 前 往 后 扫 描 每 一 个 区 域, 如 果 当 前 区 域 去 前 面 的 区 域 的 重 合 度 大 于 一 定 的 阈 值, 则 抛 弃 该 区 域, 然 后 扫 描 下 一 个 区 域 如 果 没 有 超 过 一 定 的 阈 值, 认 为 该 区 域 是 一 个 有 效 的, 作 为 检 测 算 法 的 输 出 图 像 分 割 图 像 分 割 需 要 对 于 一 张 图 像 中 的 每 一 个 像 素 进 行 预 测, 所 以 能 任 务 上 而 言, 比 图 像 分 类, 图 像 检 测 更 具 有 挑 战 性 从 的 上 可 以 看 出, 最 好 的 图 像 分 割 的 算 法 往 往 是 基 于 神 经 网 络 从 第 节 中 可 以 看 出, 大 部 分 的 层 都 可 以 保 持 图 像 的 位 置 信 息, 但 是 全 连 接 层 却 会 损 失 掉 位 置 信 息 所 以, 为 了 适 应 图 像 分 割 的 需 要, 一 种 方 案 就 是 去 掉 全 连 接 层, 改 用 完 全 的 卷 积 层 加 上 一 些 其 他 的, 比 如 非 线 性 层 其 基 本 的 框 架 如 图 () 所 示 输 入 是 一 张 图 像, 输 出 是 一 个 预 测 图, 包 含 了 每 一 个 像 素 的 标 签 信 息 在 训 练 阶 段 的 时 候, 需 要 和 真 实 的 预 测 图 计 算 响 应 的 预 测 误 差, 从 而 更 新 网 络 的 参 数 为 了 利 用 在 图 像 分 类 中 训 练 好 的 网 络, 文 章 将 已 有 的 全 连 接 层 也 替 换 成 了 卷 积 层 替 换 的 方 式 如 下 如 果 输 入 的 维 度 是 W H C, 对 于 全 连 接 层, 假 设 输 出 的 维 度 是 D, 那 么 投 影 矩 阵 的 大 小 是 (W HC) C, 并 且 是 一 个 二 维 的 矩 阵 修 改 为 卷 积 层 的 话, 则 需 要 将 其 二 维 矩 阵 重 新 定 位 其 大 小, 但 是 数 值 不 变 相 当 于 对 于 每 一 个 W H 的 特 征 图 做 一 个 大 小 为 W H 的 卷 积 运 算 故
32x upsampled 2x upsampled prediction (FCN-32s) prediction 16x upsampled prediction (FCN-16s) 2x upsampled prediction 8x upsampled prediction (FCN-8s) image pool1 pool2 pool3 pool4 pool5 pool4 prediction P pool3 prediction P 全 连 接 神 经 网 络 应 用 于 图 像 分 割 时 特 征 图 分 辨 率 采 样 示 意 图 全 连 接 层 在 此 省 略, 通 过 网 络 表 示 特 征 图 的 大 小 只 有 池 化 层 会 把 减 少 特 征 图 的 分 辨 率, 通 过 不 同 的 上 采 样 策 略 会 得 到 不 同 的 预 测 模 型 例 如 对 于, 直 接 通 过 也 就 是 最 后 一 个 一 个 像 素 上 采 样 到 被, 这 样 的 结 果 是 最 粗 糙 的 对 于, 首 先 将 的 结 果 上 采 样 倍 然 后 和 的 结 果 结 合 得 到 的 预 测 图 该 预 测 图 进 一 步 和 的 结 果 结 合, 得 到 最 精 细 的 的 结 果 Deep Convolutional Neural Network Dense CRF Image Result 包 含 了 稠 密 模 型 的 图 像 分 割 模 型 而 重 新 定 位 的 所 有 的 卷 积 核 的 维 度 是 W H C D 对 于 一 个 全 部 是 卷 积 层 的 网 络, 输 入 的 图 像 的 大 小 也 不 再 需 要 是 固 定 维 度 的, 可 以 支 持 任 意 的 维 度 在 利 用 图 像 分 类 的 网 络 中 的 时 候, 输 出 的 分 辨 率 很 低, 但 是 图 像 分 割 要 求 输 出 的 分 辨 率 与 原 图 的 大 小 是 一 致 的 所 以 需 要 对 原 网 络 进 行 一 定 的 改 进 从 低 分 辨 率 的 结 果 上 采 样 到 原 图 的 大 小 具 体 的 采 样 过 程 如 图 () 所 示 图 中 给 出 了 三 种 不 同 的 模 型 :, 以 及 的 预 测 结 果 最 粗 糙, 而 的 结 果 最 精 细, 但 是 也 需 要 更 多 的 计 算 量 具 体 而 言, 在 网 络 中, 卷 积 层, 等 层 不 会 改 变 特 征 图 的 分 辨 率 能 够 改 变 分 辨 率 的 主 要 是 池 化 层 图 中 只 显 示 了 池 化 层, 其 它 层 为 了 清 晰 起 见 没 有 展 示 网 路 的 最 后 是 输 出 的 结 果, 分 辨 率 是 最 低 的, 之 后 直 接 上 采 样 得 到 的 与 原 图 一 样 大 小 的 预 测 图 上 采 样 的 方 式 可 以 通 过 双 线 性 差 值 得 到, 或 者 通 过 学 习 的 方 法 得 到 学 习 的 方 法 主 要 是 通 过 一 个 逆 向 的 卷 积 层, 也 就 是 将 卷 积 层 的 逆 向 传 播 的 过 程 认 为 是 上 采 样 的 过 程, 然 后 学 习 其 中 卷 积 核 的 参 数 的 结 果 和 的 结 果 进 行 结 合, 得 到 了 较 为 精 细 的 预 测 之 后 再 与 的 结 果 进 行 结 合, 得 到 中 使 用 最 为 精 细 的 的 预 测 图 以 上 是 目 前 采 用 卷 及 神 经 网 络 做 图 像 分 割 基 本 的 思 路 网 络 的 输 入 是 一 幅 图 像, 或 者 是 图 像 的 一 个 子 区 域 输 出 是 一 个 与 原 图 大 小 一 致 的 多 通 道 的 三 维 信 号 每 一 个 通 道 一 个 类 别, 以 及 每 一 个 像 素 属 于 该 类 别 的 可 能 性 然 而 在 进 行 训 练 的 时 候, 一 个 稠 密 的 有 标 签 图 的 获 取 需 要 较 大 的 人 工 标 注 相 对 而 言, 整 幅 图 像 的 标 签, 或 者 基 于 包 围 盒 的 标 签 更 容 易 获 得 接 下 来 介 绍 一 个 工 作, 如 何 采 用 这 些 若 监 督 信 息 进 行 图 像 分 割 若 监 督 的 图 像 分 割 在 中, 解 决 的 问 题 是 如 何 利 用 图 像 级 别 或 者 包 围 盒 级 别 的 标 签 信 息 做 图 像 分 割 这 里 采 用 的 一 个 基 本 的 模 型 如 图 () 所 示 主 要 的 区 别 在 于 增 加 了 一 个 稠 密 的 模 型 图 中 深 度 神 经 网
Deep Convolutional Neural Network Loss Image Dense CRF argmax Bbox annotations Segmentation Estimation 利 用 包 围 盒 训 练 图 像 分 割 网 络 基 本 思 想 是 从 包 围 盒 信 息 中 估 计 每 一 个 像 素 的 标 签 信 息, 采 用 稠 密 模 型 络 的 输 出 可 以 表 示 为 f i (x i ; θ),i 表 示 的 是 图 像 的 位 置 x i L 表 示 的 是 第 i 个 像 素 点 位 置 上 的 标 签 L 是 一 个 有 限 的 预 先 设 置 的 标 签 集 合 像 素 点 属 于 标 签 x i 的 概 率 与 f i (x i, θ) 正 相 关 在 有 每 一 个 像 素 点 标 注 的 标 签 的 情 况 下, 通 过 最 小 化 f i 和 标 注 的 标 签 之 间 的 距 离, 可 以 优 化 参 数 网 络 中 的 参 数 θ 接 下 来 连 接 的 稠 密 模 型 是 这 样 的 输 入 是 前 面 网 络 的 输 出, 即 f i (x i ), 在 此 省 略 了 网 络 参 数 θ 输 出 是 预 测 结 果, 也 就 是 每 一 个 像 素 点 应 该 属 于 哪 一 个 类 别 模 型 内 部 的 能 量 函 数 是 : E() = i f i (x i ) + i,j g i,j (x i, x j ) 后 一 项 的 定 义 为 K g i,j (x i, x j ) = µ(x i, x j ) ω m k m (, j ) m=1 其 中 当 x i x j 时,µ(x i, x j ) = 1, 否 则 等 于 每 一 个 k m 是 一 个 高 斯 核, i 是 第 i 个 点 对 应 的 特 征 向 量,ω m 是 权 重 在 中, 采 用 的 是 中 也 有 使 用 的 ( ) g i,j (x i, x j ) = ω 1 p i p j 2 2 2σ 2 α I i I j 2 2 2σ 2 β ( + ω 2 p i p j 2 ) 2 2σγ 2 这 里 ω 1, ω 2 分 别 是 对 应 的 权 重 ;p i 是 对 应 的 坐 标 位 置 ;I i 是 像 素 值 ; 参 数 σ α,σ β,σ γ 是 高 斯 核 对 应 的 尺 度 通 过 对 目 标 函 数 的 最 小 化, 可 以 得 出 对 应 的 标 签 向 量 {x i } 在 有 每 一 个 像 素 级 别 标 签 的 情 况 下, 最 小 化 预 测 结 果 f i 与 标 签 之 间 的 距 离 而 稠 密 并 不 参 与 训 练 如 果 有 包 围 盒 信 息, 那 么 基 本 模 型 如 图 () 所 示 基 本 思 想 是 从 包 围 盒 标 签 估 计 每 一 个 像 素 的 标 签 信 息 最 简 单 的 一 种 策 略 是 对 于 认 为 包 围 盒 中 的 每 一 个 像 素 就 是 包 围 盒 的 标 签, 不 在 包 围 盒 中 的 像 素 是 背 景 信 息 如 果 一 个 像 素 点 处 于 多 个 包 围 盒 中, 选 择 面 积 较 小 的 包 围 盒 对 应 的 标 签 这 样 的 策 略 在 中 记 作
Deep Convolutional Neural Network Loss Image Score maps 1. Cat 2. Person 3. Plant 4. Sofa FG/BG Bias argmax Image annotations Weakly-Supervised E-step 利 用 图 像 标 签 训 练 分 割 网 络 另 外, 由 于 包 围 盒 内 部 可 能 存 在 背 景 信 息, 不 完 全 都 是 物 体 故 而 作 者 又 提 出 了 另 一 中 方 法 估 计 每 一 个 像 素 的 标 签 首 先 通 过 传 统 的 方 法 在 包 围 盒 内 部 进 行 前 景 背 景 分 离, 然 后 再 利 用 稠 密 细 化 每 一 个 像 素 的 标 签 这 样 的 策 略 在 中 记 作 对 于 图 像 级 别 的 标 签, 做 法 如 图 () 所 示 首 先 一 幅 图 像 经 过 神 经 网 络, 输 出 是 一 个 预 测 结 果 {f i (x i, θ)} 然 后 根 据 图 像 级 别 的 标 签 进 入 模 块 这 个 模 块 的 输 出 修 正 了 的 { ˆf i (x i, θ)} 然 后 通 过 寻 找 最 大 值 估 计 每 一 个 像 素 的 标 签 模 块 的 操 作 是 这 样 的 对 于 每 一 个 像 素 点 i, 扫 描 在 每 一 个 x i 上 面 的 预 测 值 f i (x i, θ) 如 果 这 个 x i 正 好 与 图 像 的 某 一 个 标 签 一 直, 那 么 ˆf i (x i, θ) = f i (x i, θ) + c f 如 果 x i 对 应 的 是 背 景 标 签, 那 么 ˆf i (x i, θ) = f i (x i, θ) + c b 如 果 是 其 他 情 况, 那 么 ˆfi (x i, θ) = f i (x i, θ) 得 到 了 预 测 图 的 估 计 之 后, 再 送 入 到 损 失 函 数 中, 计 算 对 于 θ 的 导 数, 从 而 更 新 参 数 利 用 图 像 级 别 的 标 签 或 者 包 围 盒 的 标 签 进 行 计 算 分 割 网 络 的 主 要 意 义 是 减 少 了 人 工 标 注 的 工 作 然 而 如 何 利 用 网 络 的 输 出 以 及 少 量 的 标 签 信 息, 目 前 依 然 是 一 个 没 有 彻 底 解 决 的 问 题, 也 有 不 少 科 研 工 作 者 在 这 方 面 做 了 很 多 的 尝 试 总 结 与 展 望 近 年 来, 神 经 网 络 的 发 展 很 迅 速 在 很 多 的 识 别 问 题 中, 表 现 出 了 优 异 的 性 能 从 发 展 的 角 度, 未 来 的 神 经 网 路 的 方 向 可 能 是 如 下 一 些 点 从 网 络 内 部 结 构 来 看, 设 计 计 算 更 快, 收 敛 速 度 更 快 的 层 比 如 批 归 一 化 层 可 以 在 很 大 程 度 上 提 高 优 化 的 速 度 比 如 对 于 的 诸 多 改 进 所 以 可 以 预 见, 未 来 可 能 还 会 有 更 多 新 颖 的 层 加 入 并 丰 富 神 经 网 络
从 网 络 的 结 构 来 看, 目 前 的 发 展 特 点 是 网 络 变 得 更 深, 更 宽, 从 而 提 高 准 确 率 然 而 在 实 际 应 用 中, 及 时 性 也 是 一 个 很 重 要 的 方 面, 所 以 在 考 虑 速 度 的 情 况 下, 对 网 络 的 紧 凑 性 可 能 会 有 更 多 的 要 求 而 快 速 计 算 也 是 部 署 移 动 端 可 能 需 要 考 虑 的 问 题 从 网 络 的 应 用 层 面, 图 像 分 类, 图 像 检 测, 图 像 分 割 目 前 是 被 独 立 进 行 处 理 的 已 经 有 一 些 工 作 将 三 个 问 题 进 行 结 合 互 相 弥 补 对 方 的 缺 陷 所 以, 未 来 的 一 个 发 展 方 向 可 能 是 对 三 个 问 题 的 融 合, 在 一 个 通 用 的 框 架 下 更 贴 近 生 活 的 应 用 由 于 神 经 网 络 很 强 的 表 现 能 力, 在 工 业 级 别 的 应 用 可 能 也 是 未 来 的 发 展 方 向 直 接 面 向 大 众, 出 现 有 意 义 有 创 新 的 应 用