2014 年 4 月 图 学 学 报 April 2014 第 35 卷 第 2 期 JOURNAL OF GRAPHICS Vol.35 No.2 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 王 向 东 1, 张 静 文 2, 毋 立 芳 2, 徐 文 泉 (1. 国 家 体 育 总 局 体 育 科 学 研 究 所, 北 京 100061;2. 北 京 工 业 大 学 电 控 学 院, 北 京 100124; 3. 北 京 航 空 航 天 大 学 体 育 部, 北 京 100191) 摘 要 : 该 文 研 究 并 提 出 了 一 种 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 自 动 提 取 方 法 针 对 举 重 训 练, 首 先 提 取 稳 定 的 杠 铃 轨 迹, 进 一 步 分 析 杠 铃 轨 迹 和 关 键 姿 态 之 间 的 关 系, 将 杠 铃 轨 迹 和 基 于 姿 态 集 的 方 法 相 结 合 进 行 关 键 姿 态 检 测 根 据 运 动 轨 迹 的 曲 线 极 值 点 提 取 关 键 视 频 画 面, 而 对 于 其 他 非 轨 迹 极 值 点 处 的 关 键 画 面 采 用 基 于 姿 态 集 的 姿 态 估 计 和 目 标 检 测 方 法, 对 每 个 关 键 姿 态 分 别 训 练 了 一 个 线 性 的 支 持 向 量 机 分 类 器, 建 立 图 像 的 多 尺 度 扫 描 模 式, 并 提 出 了 统 计 计 算 相 似 度 的 方 法 来 处 理 帧 间 相 似 度 问 题, 实 验 表 明 该 文 方 法 在 姿 态 检 测 的 准 确 性 和 效 率 方 面 都 有 很 大 改 善 关 键 词 : 轨 迹 ; 姿 态 ; 关 键 帧 ; 支 持 向 量 机 中 图 分 类 号 :TP 391 文 献 标 识 码 :A 文 章 编 号 :2095-302X (2014)02-0256-06 3 A ey Pose Frame Extraction Approach Combined with Trajectory from Weightlifting Video Wang Xiangdong 1, Zhang Jingwen 2, Wu Lifang 2, Xu Wenquan 3 (1. Sports Research Center, General Administration of Sport of China, Beijing 100061, China; 2. Department of Electronic Information and Control Engineering, Beijing University of Technology, Beijing 100124, China; 3. Institute of Physical Education, Beihang University, Beijing 100191, China) Abstract: In this paper, a trajectory guided scheme is proposed to extract the key poses frame automatically. First, the barbell trajectory is extracted from the weight lifting sport video. Then the barbell trajectory and poselet are combined for pose extraction. Some key poses are extracted from the extreme point of the barbell trajectory. But the other poses are extracted by using the poselet based algorithm. SVM(Support Vector Machine) classifiers based HOG(Histogram of Gradient) is trained for each pose. Then the pose is detected in the multi-scale images. Statistical similarity is computed in multi-scale to measure the possibility and determine which is the best key frame. It resolves the problem of higher inter-frame similarity. The experimental results show that the proposed scheme can improve both the precision and performance of pose extraction. ey words: trajectory; pose; key frame; support vector machine 收 稿 日 期 :2013-10-28; 定 稿 日 期 :2014-01-14 基 金 项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 (61040052); 北 京 市 优 秀 人 才 资 助 项 目 (2009D005015000010) 作 者 简 介 : 王 向 东 (1973-), 男, 山 西 太 原 人, 研 究 员, 博 士 主 要 研 究 方 向 为 运 动 生 物 力 学 与 运 动 技 术 诊 断 E-mail:wxd219@gmail.com 通 信 作 者 : 徐 文 泉 (1969-), 男, 北 京 人, 副 教 授, 硕 士 主 要 研 究 方 向 为 运 动 训 练 学 与 心 理 学 E-mail:1969110@sina.com
第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多 竞 技 体 育 训 练 中, 需 要 对 运 动 员 动 作 的 准 确 性 进 行 分 析, 这 就 需 要 提 取 关 键 的 动 作 姿 态, 并 进 一 步 根 据 人 体 关 节 位 置, 提 取 相 应 训 练 参 数 关 键 姿 态 提 取 本 质 上 是 姿 态 估 计 或 姿 态 识 别 问 题, 国 内 外 有 许 多 学 者 对 这 一 问 题 进 行 了 研 究, 这 些 方 法 可 以 分 为 基 于 特 征 的 方 法 和 基 于 人 体 模 型 的 方 法 基 于 特 征 的 方 法 直 接 从 图 像 中 提 取 人 体 的 姿 态 特 征, 并 通 过 机 器 学 习 建 立 不 同 类 型 姿 态 的 分 类 器 用 于 姿 态 识 别 和 估 计 常 用 的 人 体 姿 态 特 征 有 轮 廓 统 计 特 征 [1-2] 圆 形 方 向 直 方 图 特 征 [3] [4-5] 姿 态 集 等 等 前 两 种 特 征 需 要 根 据 对 象 的 轮 廓 边 缘 来 提 取, 要 求 精 确 的 人 体 分 割, 而 背 景 环 境 的 影 响 使 得 精 确 度 的 人 体 分 割 面 临 [6] 很 大 的 挑 战 姿 态 集 是 一 个 给 定 视 角 下 的 人 体 姿 态 的 一 部 分, 每 个 姿 态 集 都 是 由 图 像 的 梯 度 直 [7] 方 图 HOG 特 征 训 练 学 习 的 一 个 分 类 器, 图 像 的 HOG [8] 特 征 对 图 像 局 部 出 现 的 方 向 梯 度 次 数 进 行 计 数, 这 种 特 征 计 算 是 基 于 空 间 一 致 性 的 密 度 矩 阵 来 提 高 准 确 率, 因 此 被 广 泛 采 用 基 于 模 型 的 方 法 首 先 建 立 人 体 姿 态 空 间 表 示, 用 图 像 特 征 描 述 人 体 的 各 个 部 分, 通 过 图 像 特 征 推 断 求 解 所 对 应 的 空 间 姿 态, 确 定 人 体 姿 态 在 文 献 [9] 中 采 用 了 人 体 的 棍 状 模 型, 通 过 数 据 库, 多 角 度 多 姿 态 训 练 得 来 的 运 动 先 验 树 模 型, 确 定 姿 态 的 空 间 表 示, 身 体 部 分 模 型 采 用 密 集 采 样 的 形 状 上 下 文 描 述 符 子 并 用 AdaBoost 训 练 得 到 显 著 分 类 器 文 献 [10] 扩 展 了 最 初 图 形 结 构 的 模 型, 加 入 了 人 体 半 肢 颜 色 对 称 的 限 制, 通 过 两 次 迭 代 过 程, 最 终 确 定 了 人 体 姿 态 本 文 针 对 举 重 运 动 员 训 练, 提 取 关 键 姿 态 举 重 运 动 一 般 分 六 个 阶 段 [11] : 预 备 提 铃 伸 膝 提 铃 引 膝 提 铃 发 力 下 蹲 支 撑 和 起 立, 相 邻 两 个 阶 段 的 切 换 帧 为 关 键 帧 如 图 1 所 示, 其 中 有 些 姿 态 对 应 于 杠 铃 运 动 轨 迹 的 极 点 位 置, 有 些 则 不 然, 这 就 说 明 有 些 关 键 姿 态 可 以 通 过 杠 铃 轨 迹 来 确 定, 有 些 就 需 要 用 其 他 的 方 法 来 提 取 关 键 帧 (a) 举 重 过 程 片 段 1 (b) 举 重 过 程 片 段 2 (c) 举 重 过 程 片 段 3 图 1 举 重 运 动 过 程 及 关 键 字 姿 态 帧 针 对 上 述 现 象, 我 们 提 出 了 一 种 轨 迹 引 导 下 的 关 键 姿 态 提 取 方 法 首 先 用 一 种 点 相 关 统 计 特 [7] 性 的 目 标 跟 踪 方 法 跟 踪 杠 铃 的 中 心 点, 得 到 运 动 轨 迹 根 据 运 动 轨 迹 的 曲 线 极 值 点 提 取 关 键 视
258 视 觉 与 图 像 2014 年 频 画 面, 而 对 于 其 他 非 轨 迹 极 值 点 处 的 关 键 画 面 采 用 基 姿 态 集 的 姿 态 估 计 和 目 标 检 测 方 法, 主 要 利 用 图 像 的 HOG 特 征, 训 练 每 个 姿 态 的 支 持 向 量 机 分 类 器, 建 立 图 像 的 多 尺 度 扫 描 模 式, 根 据 统 计 结 果 确 定 最 佳 关 键 帧 1 举 重 训 练 视 频 中 杠 铃 运 动 轨 迹 与 关 键 姿 态 的 关 系 分 析 图 2 为 一 段 举 重 视 频 对 应 的 杠 铃 运 动 轨 迹, 运 动 过 程 中 的 关 键 姿 态 如 图 3 所 示, 为 了 方 便 后 续 分 析, 为 图 2 建 立 图 像 坐 标 系 原 点 位 于 图 像 左 下 角, 水 平 向 右 为 x 轴 正 方 向, 竖 直 向 上 为 y 轴 正 方 向, 可 以 看 出, 在 运 动 员 举 重 过 程 中, 杠 铃 在 x 方 向 运 动 不 明 显, 主 要 表 现 为 y 方 向 的 运 动, 因 此 我 们 描 绘 举 重 过 程 中, 杠 铃 的 y 坐 标 随 时 间 变 化 的 情 况, 如 图 4 所 示, 并 且 在 图 中 顺 序 的 标 注 相 应 的 5 关 键 姿 态 帧, 其 中 图 3 中 的 5 个 关 键 姿 态 帧 分 别 对 应 了 图 4 运 动 轨 迹 的 5 个 点 图 4 举 重 视 频 杠 铃 中 心 点 y 值 变 化 和 5 个 关 键 姿 态 帧 分 析 对 应 的 5 个 关 键 姿 态 与 杠 铃 运 动 轨 迹 的 关 系, 从 图 中 可 以 看 出, 关 键 姿 态 帧 中 的 下 蹲 和 起 立 的 姿 态 正 好 在 曲 线 的 极 值 点 处, 根 据 运 动 轨 迹, 第 4 5 个 关 键 姿 态 可 由 曲 线 的 极 值 点 提 取 出 来, 而 前 3 个 关 键 姿 态 则 不 能 根 据 运 动 轨 迹 提 取 综 上 分 析, 直 接 根 据 杠 铃 运 动 轨 迹 可 以 确 定 两 个 关 键 姿 态, 另 外 3 个 关 键 姿 态 与 轨 迹 极 点 无 关, 需 要 引 入 另 外 的 特 征, 因 此 我 们 设 计 了 一 种 关 键 姿 态 检 测 方 案, 该 方 案 综 合 杠 铃 轨 迹 和 姿 态 集 特 征, 能 够 稳 定 地 提 取 关 键 姿 态 2 轨 迹 和 姿 态 集 相 结 合 的 关 键 姿 态 自 动 提 取 方 案 图 2 杠 铃 中 心 点 的 运 动 轨 迹 和 图 像 坐 标 系 2.1 方 案 框 架 我 们 的 方 案 结 合 了 杠 铃 运 动 轨 迹 和 姿 态 集 训 练 方 法 首 先 跟 踪 杠 铃 运 动, 这 里 采 用 武 文 斌 [7] 等 提 出 的 基 于 点 相 关 统 计 特 性 的 目 标 跟 踪 方 法, 进 一 步 跟 踪 结 果 描 绘 杠 铃 运 动 轨 迹, 然 后, 根 据 杠 铃 运 动 轨 迹 确 定 第 4 和 第 5 关 键 姿 态, 同 时 确 定 前 3 个 关 键 姿 态 的 搜 索 范 围, 采 用 基 于 姿 态 集 的 方 法 依 次 提 取 3 个 关 键 姿 态, 方 案 框 图 如 图 5 所 示 杠 铃 跟 踪 (a) 伸 膝 提 铃 (b) 引 膝 提 铃 (c) 发 力 描 绘 杠 铃 轨 迹 确 定 前 3 个 姿 态 搜 索 范 围 确 定 关 键 姿 态 4 和 5 (d) 下 蹲 支 撑 (e) 起 立 图 3 举 重 视 频 中 的 5 个 关 键 姿 态 依 次 搜 索 关 键 姿 态 1,2,3 图 5 方 案 框 图
第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 259 2.2 基 于 姿 态 集 的 关 键 姿 态 提 取 算 法 基 于 姿 态 集 的 关 键 姿 态 提 取 算 法 属 于 机 器 学 习 方 法, 也 包 括 模 型 训 练 和 姿 态 提 取 两 部 分, 算 法 的 框 架 如 图 6 所 示 图 6 基 于 姿 态 集 的 关 键 姿 态 检 测 算 法 框 架 HOG 特 征 输 入 到 相 应 姿 态 的 分 类 器, 即 可 判 定 该 窗 口 是 否 为 相 应 关 键 姿 态 设 p x, y, l i, F ) 代 表 某 帧 视 频 的 一 尺 度 下 的 ( ( w, h, p, Fk 某 个 位 置, ) 表 示 该 帧 画 面 中 点 在 p 的 位 置 窗 口 为 w h 的 HOG 特 征 向 量,W 为 姿 态 分 类 器 的 支 持 向 量 机 的 权 重, 定 义 : 1 if W ( w, h, p, Fk ) thresh H ( w, h, p, Fk ) (1) 0 otherwise 则 定 义 在 第 帧 上 分 类 器 的 检 测 点 数 为 : l max (,,, ) 1, 2,3, max (2) Score H w h p F i l i 1 对 于 一 种 姿 态, 我 们 收 集 同 类 姿 态 对 应 样 本 作 为 训 练 集, 其 他 姿 态 和 背 景 作 为 负 样 本, 图 7 为 一 组 正 负 样 本 示 例 提 取 所 有 样 本 的 HOG 特 征 [8], 一 种 姿 态 训 练 一 个 分 类 器, 每 一 个 分 类 器 都 是 一 个 线 性 的 SVM, 由 于 我 们 采 用 了 整 个 人 体 的 姿 态 特 征, 因 此 训 练 的 模 型 的 稳 定 性 较 好 (a) 姿 态 正 样 本 (b) 姿 态 负 样 本 图 7 发 力 姿 态 的 训 练 集 样 本 示 例 为 了 进 一 步 提 高 算 法 的 鲁 棒 性, 我 们 设 计 了 二 次 训 练 的 框 架, 即 用 初 次 训 练 的 结 果 对 训 练 样 本 进 行 测 试, 把 姿 态 不 符 合 要 求 的 检 测 窗 口 作 为 hardnegtives 加 入 负 样 本 中 重 新 进 行 SVM 分 类 器 训 练 2.3 基 于 多 尺 度 统 计 相 似 度 的 姿 态 检 测 算 法 为 了 保 证 姿 态 检 测 的 尺 度 不 变 性, 我 们 对 一 帧 图 像 在 不 同 尺 度 上 进 行 姿 态 检 测 图 8 是 多 尺 度 检 测 金 字 塔 示 意 图, 在 同 一 尺 度 下, 将 检 测 窗 口 以 一 定 步 长 在 图 像 平 面 滑 动, 提 取 对 应 窗 口 的 图 8 多 尺 度 扫 描 金 字 塔 在 姿 态 检 测 阶 段, 由 于 空 间 姿 态 的 渐 变 特 性, 可 能 会 在 连 续 多 帧 图 像 中 检 测 到 某 一 姿 态 的 相 似 姿 态, 针 对 这 一 问 题, 文 献 [5-6] 都 是 对 检 测 结 果 进 行 聚 类, 最 后 给 出 物 体 的 所 在 位 置, 而 我 们 的 方 法 则 不 是 对 检 测 结 果 进 行 聚 类 我 们 提 出 了 统 计 相 似 度 的 概 念 将 全 部 尺 度 下, 相 应 姿 态 对 应 分 类 器 输 出 相 加, 即 得 到 该 姿 态 的 统 计 相 似 度 Score, 统 计 相 似 度 最 大 的 视 频 帧 的 姿 态, 即 为 对 应 的 关 键 姿 态 F arg max( Score ) k 1, 2, N (3) best 3 实 验 结 果 分 析 3.1 实 验 数 据 我 们 收 集 了 30 段 举 重 视 频 作 为 实 验 数 据, 这 些 视 频 有 的 是 比 赛 视 频 有 的 是 训 练 视 频, 采 集 环 境 背 景 都 有 很 大 不 同, 图 9 为 实 验 训 练 集 的 几 个 视 频 随 机 选 取 其 中 的 22 段 视 频 作 为 训 练 集,8 个 视 频 序 列 作 为 测 试 集, 每 个 姿 态 提 取 30 个 正 样 本, 然 后 将 每 个 样 本 进 行 水 平 镜 像 操 作, 这 样 每 个 姿 态 包 含 60 个 正 样 本, 随 机 抽 取 视 频 中 的 300~400 个 窗 口 作 为 负 样 本
260 视 觉 与 图 像 2014 年 而 本 文 提 出 的 方 法, 利 用 轨 迹 极 点 提 取 姿 态 4 和 5, 准 确 度 非 常 高 在 本 文 中 基 于 姿 态 集 提 取 姿 态 1, 2, 3 时, 也 采 用 了 基 于 姿 态 集 的 方 法, 因 此 检 测 结 果 没 有 变 化 (a) 实 验 视 频 1 (c) 实 验 视 频 2 图 9 实 验 视 频 示 例 3.2 二 次 训 练 的 作 用 为 了 对 比 一 次 训 练 的 分 类 器 和 二 次 训 练 的 分 类 器 的 性 能, 对 相 同 的 视 频 序 列, 用 某 一 个 关 键 姿 态 对 应 的 两 个 分 类 器 进 行 姿 态 检 测, 其 统 计 相 似 度 值 如 图 10 所 示 从 图 10 可 以 看 出, 虽 然 两 个 分 类 器 得 到 的 统 计 相 似 度 峰 值 相 同, 但 显 然 一 次 训 练 的 分 类 器 有 许 多 较 大 的 干 扰 值, 这 也 大 大 增 加 了 误 检 的 概 率 相 比 之 下, 二 次 训 练 的 分 类 器 干 扰 值 就 少 很 多, 也 小 很 多, 这 也 在 一 定 程 度 上 保 证 了 检 测 结 果 的 稳 定 性 3.3 对 比 实 验 对 比 了 本 文 提 出 的 方 法 和 基 于 姿 态 集 的 方 法, 对 比 实 验 结 果 见 表 1 基 于 姿 态 集 的 方 法 对 姿 态 4 的 检 测 结 果 并 不 好, 这 是 由 于 不 同 运 动 员 下 蹲 姿 态 变 化 较 大, 因 此 很 难 提 取 稳 定 的 结 果 (a) 一 次 训 练 的 分 类 器 在 各 帧 得 到 的 统 计 相 似 度 (b) 二 次 训 练 的 分 类 器 在 各 帧 得 到 的 统 计 相 似 度 图 10 两 次 训 练 的 分 类 器 检 测 结 果 对 比 图 11 给 出 了 一 组 检 测 结 果 示 例 图, 图 中 前 3 个 姿 态 用 矩 形 框 标 出 了 关 键 姿 态 的 准 确 位 置, 这 是 根 据 姿 态 及 训 练 的 样 本 得 到 的, 后 面 两 个 姿 态 直 接 由 轨 迹 极 点 得 到, 因 此 没 有 标 出 关 键 姿 态 的 准 确 位 置, 这 并 不 影 响 后 续 应 用 表 1 实 验 检 测 结 果 [12] 实 验 姿 态 视 频 数 量 本 文 提 出 方 法 正 确 检 测 姿 态 数 量 Poselet 方 法 正 确 检 测 姿 态 数 量 训 练 集 1 22 22 22 2 22 22 22 3 22 22 22 4 22 22 20 5 22 22 22 合 计 110 110 108 测 试 集 1 8 8 8 2 8 6 6 3 8 8 8 4 8 8 6 5 8 8 7 合 计 40 38 35
第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 261 posese [C]//ICCV, Barcelona, 2011: 1302-1309. [2] Wang Yang, Jiang Hao, Drew M S, Li Zenian, Mori G. Unsupervised Discovery of Action Classes [C]//CVPR, 2006: 1654-1661. (a) 关 键 姿 态 1 (b) 关 键 姿 态 2 (c) 关 键 姿 态 3 (d) 关 键 姿 态 4 (e) 关 键 姿 态 5 图 11 一 组 检 测 结 果 示 例 4 总 结 针 对 举 重 训 练 的 应 用, 本 文 提 出 了 一 种 杠 铃 运 动 轨 迹 与 姿 态 集 方 法 相 结 合 的 人 体 关 键 姿 态 提 取 方 法, 分 析 了 关 键 姿 态 和 杠 铃 运 动 轨 迹 的 关 系, 对 于 和 杠 铃 轨 迹 极 点 直 接 相 关 的 姿 态, 直 接 由 运 动 轨 迹 确 定, 对 于 其 他 非 轨 迹 关 键 姿 态, 则 通 过 姿 态 集 学 习 方 法 进 行 姿 态 检 测 试 验 结 果 表 明 :1 本 文 方 法 在 姿 态 检 测 的 准 确 性 和 效 率 方 面 都 有 很 大 改 善 2 本 文 结 果 可 以 应 用 于 举 重 训 练 中 训 练 参 数 的 提 取, 手 工 确 定 关 键 帧 中 关 节 位 置, 则 可 提 取 定 量 训 练 参 数 3 本 文 进 一 步 研 究 工 作 将 集 中 在 人 体 关 节 位 置 的 自 动 提 取 方 面, 以 待 全 面 实 现 训 练 参 数 的 自 动 提 取 参 考 文 献 [1] Cheema S, Eweiwi A, Thurau C, Bauckhage C. Action recognition by learning discriminative key [3] Ikizler N, Cinbis R G, Pehlivan S. Recognizing human actions from still images [C]//CVPR, Haspolat, 2008: 1-4. [4] Bourdev L, Maji S, Brox T, Malik J. Detecting people using mutually consistent poselet activations [C]// ECCV city: Heraklion, Crete, Greece, 2010: 168-181. [5] Yang Weilong, Wang Yang, Mori G. Recognizing human actions from still images with latent poses [C]// CVPR, 2010: 2030-2037. [6] Bourdev L, Malik J. Poselets: body part detectors training using 3D human pose annotations [C]// ICCV, 2009: 1365-1372. [7] 武 文 斌, 毋 立 芳, 王 晓 芳, 王 向 东. 一 种 点 相 关 统 计 特 性 的 目 标 跟 踪 方 法 [J]. 中 国 科 技 论 文, 2012, 7(1): 28-32. [8] Dalal N, Triggs B. Histograms of oriented gradients for human detection [C]//CVPR, 2005: 886-893. [9] Andriluka M, Roth S, Schiele B. Pictorial structures revisited: People detection and articulated pose estimation [C]//CVPR, 2009:1014-1021. [10] Ramanan D. Learning to parse images of articulated bodies [C]//NIPS, 2007: 1129-1136. [11] 王 向 东, 毛 勇, 刘 梦 飞, 尚 健. 优 秀 女 子 举 重 运 动 员 抓 举 技 术 的 运 动 学 研 究 [J]. 成 都 体 育 学 院 学 报, 2009, 35(2): 51-53. [12] Wu Lifang, Zhang Jingwen, Yan Fenghui. A poselet based key frame searching approach in sports training videos [C]//APSIPA ASC, Hollywood, 2012: 1-4.