一 种 适 用 于 D/3D 转 换 的 分 段 化 结 构 重 建 技 术 刘 伟, 吴 毅 红, 郭 复 胜, 胡 占 义 ( 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室 北 京 9) wliu @nlpr.ia.ac.cn 近 些 年 来,3D 电 影 逐 渐 普 及, 成 为 人 们 日 常 娱 乐 生 活 的 重 要 部 分 相 比 传 统 的 D 电 影,3D 技 术 可 以 提 供 更 加 身 临 其 境 的 逼 真 效 果, 并 逐 渐 成 为 了 当 前 发 展 的 一 种 趋 势 然 而 3D 电 影 从 题 材 的 选 择 拍 摄 剪 辑 洗 印 到 发 行 放 映, 都 有 一 些 特 殊 的 技 术 要 求, 制 作 成 本 较 高 周 期 也 相 对 较 长 虽 然 现 在 已 经 有 近 百 部 的 3D 电 影 问 世, 但 是 在 D 和 3D 技 术 共 存 的 局 面 下, 面 对 内 容 丰 富 的 传 统 电 影 的 挑 战,3D 影 片 片 源 依 然 是 杯 水 车 薪 在 这 种 情 况 下, 将 D 电 影 转 为 3D 电 影 是 解 决 此 问 题 的 有 效 途 径, 也 是 近 年 来 产 业 界 和 学 术 界 的 关 注 热 点 在 之 前 的 综 述 中 [], 我 们 把 D/3D 转 换 技 术 根 据 摄 像 机 和 场 景 的 相 对 运 动 关 系 分 为 了 四 大 类, 每 一 类 都 对 应 着 不 同 的 研 究 方 法, 它 们 针 对 不 同 场 景 利 用 不 同 的 深 度 线 索 采 用 了 不 同 的 转 换 方 法 结 构 重 建 技 术 (Structure from Motion, SFM) 是 计 算 机 视 觉 中 一 个 重 要 的 研 究 方 向, 广 泛 应 用 于 古 迹 重 建, 电 影 制 作, 城 市 建 模 等 领 域 由 于 这 种 技 术 可 以 从 静 止 的 场 景 运 动 的 摄 像 机 拍 摄 的 图 片 集 中 获 取 场 景 的 深 度 线 索, 正 好 符 合 D/3D 转 换 方 法 中 的 一 类 情 况, 所 以 我 们 对 这 种 技 术 在 D/3D 转 换 中 的 应 用 做 了 深 入 的 研 究, 提 出 了 一 种 分 段 化 结 构 重 建 框 架, 力 求 解 决 一 部 分 场 景 视 频 的 转 换 问 题 D/3D 转 换 中 的 结 构 重 建 技 术 特 点 SFM 技 术 通 过 图 片 集 中 的 匹 配 点 来 估 计 三 维 静 止 场 景 中 运 动 摄 像 机 的 内 外 参 数 和 该 场 景 相 对 于 一 个 参 考 坐 标 系 的 结 构 关 系 我 们 利 用 这 种 技 术 来 获 取 场 景 离 散 的 深 度 信 息 然 而, [] 基 于 SFM 的 D/3D 视 频 转 换 方 法 与 传 统 的 基 于 SFM 的 视 频 重 建 方 法 相 比 具 有 两 个 明 显 的 特 点 首 先, 传 统 的 基 于 SFM 的 视 频 重 建 方 法 所 用 的 视 频 源 专 注 于 一 个 场 景, 如 图 a 所 示 ; 而 在 D/3D 转 换 技 术 中 所 处 理 的 视 频 源 往 往 包 含 多 个 连 续 的 场 景, 如 图 b 所 示 其 次, 视 频 重 建 的 整 个 过 程 以 一 个 统 一 的 参 考 坐 标 系 为 基 准, 追 求 全 局 结 构 的 优 化 ; 而 对 于 D/3D 转 换 方 法, 在 多 场 景 的 视 频 片 段 中 深 度 图 的 生 成 仅 仅 依 赖 于 对 应 场 景 的 三 维 结 构 信 息, 而 不 需 要 获 得 整 个 视 频 所 描 绘 的 三 维 场 景, 更 加 强 调 局 部 结 构 的 优 化 基 于 上 述 分 析, 我 们 提 出 了 分 段 化 结 构 重 建 框 架 [] (a) 基 于 SFM 的 视 频 重 建
(b) D/3D 转 换 中 视 频 流 的 连 续 场 景 和 关 键 帧 序 列 图 基 于 SFM 的 视 频 重 建 和 D/3D 转 换 常 用 视 频 拍 摄 方 式 对 比 分 段 化 结 构 重 建 分 段 化 结 构 重 建 指 的 是 在 视 频 流 中, 对 每 一 个 子 序 列 分 别 执 行 SFM 来 恢 复 局 部 场 景 的 结 构 和 运 动 信 息 本 节 我 们 将 讨 论 分 段 化 结 构 重 建 框 架, 整 个 框 架 流 程 如 图 所 示 在 本 文 中, 视 频 流 中 所 有 属 于 同 一 个 场 景 的 视 频 帧 被 称 为 一 个 子 序 列, 第 n 个 子 序 列 用 Sequence n 表 示, 子 序 列 中 的 所 有 关 键 帧 用 Group n 表 示 三 维 空 间 中 的 点 用 齐 次 坐 标 X 表 示, 它 在 图 片 中 的 投 影 用 齐 次 坐 标 x 表 示 两 者 之 间 的 关 系 为 :λx=x,λ 为 非 零 尺 度 因 子,=K[R t] 这 里 R, t 是 摄 像 机 的 外 参, 其 中 R 是 3 3 旋 转 矩 阵,t 是 平 移 向 量,K 是 摄 像 机 的 内 参, 并 且 : f cx K rf c () y 其 中 f 表 示 摄 像 机 的 焦 距,r 表 示 像 素 长 宽 比,(c x, c y ) 是 图 像 主 点 在 实 验 中, 我 们 将 r 取 为,(c x, c y ) 取 为 图 像 的 中 心 坐 标 关 键 帧 提 取... subsequence n Video subsequence n subsequenc e n...... Group n Group n Group n... 射 影 重 建..., proj n X proj n proj n, X proj n, proj n X... proj n 结 构 化 重 建 耦 合 自 标 定..., proj n, proj n proj n proj n, proj n, proj n proj n, proj n proj n Tn Tn T n,... 度 量 重 建... metric n, X metric n metric n, X metric n metric n, X... metric n 图 分 段 化 结 构 重 建 框 架. 关 键 帧 的 提 取 第 一 步 是 关 键 帧 的 提 取, 如 图 3 所 示, 在 这 里 我 们 采 用 了 分 层 提 取 的 方 式 对 于 输 入 的 [3] 视 频, 首 先 通 过 一 种 视 频 摘 要 算 法 把 视 频 流 根 据 不 同 的 场 景 划 分 为 连 续 的 子 序 列 ; 然 后 基 [4][5] 于 Gric(Geometric Robust Information Criterion) 准 则 在 每 个 子 序 列 中 分 别 对 关 键 帧 进 行 提
取 GRIC 是 一 种 通 用 的 鲁 棒 模 型 选 择 准 则, 它 对 每 一 个 运 动 模 型 (F,H) 都 分 别 构 造 了 一 个 分 值 函 数, 通 过 比 较 一 对 图 片 不 同 模 型 的 分 值 函 数 大 小 就 可 以 判 断 它 们 是 否 处 于 退 化 状 态 它 的 形 式 如 下 所 示 : GRIC e dn k i ( i ) i () ei ( ei ) min(, 3( r d)) 其 中,e i 表 示 留 数,d 为 选 择 模 型 的 尺 度 ( 模 型 为 F 时 d=3, 模 型 为 H 时 d=),n 为 两 幅 图 片 匹 配 点 的 个 数,k 为 选 择 模 型 的 自 由 度 ( 模 型 为 F 时 k=7, 模 型 为 H 时 k=8), 对 于 二 维 匹 配 点 r=4,σ 为 误 差 的 方 差, λ =log(r), λ =log(rn), λ 3 限 制 留 数 的 值 图 3 关 键 帧 的 提 取 SFM 过 程 中 有 两 类 退 化 现 象, 一 类 是 运 动 退 化, 例 如 只 做 旋 转 运 动 的 摄 像 机, 一 类 是 结 构 退 化, 即 拍 摄 的 场 景 在 三 维 空 间 中 处 于 同 一 平 面 中 选 择 关 键 帧 时 应 尽 量 避 免 这 两 种 情 况 的 出 现 在 应 用 GRIC 准 则 时, 如 果 GRIC F >GRIC H, 那 么 就 认 为 这 对 图 片 处 于 一 种 退 化 的 关 系 除 此 之 外, 还 考 虑 到 视 频 流 中 连 续 帧 之 间 的 基 线 较 短, 拉 长 基 线 可 以 增 强 SFM 的 准 确 性, 但 同 时 会 造 成 匹 配 点 的 减 少, 所 以 关 键 帧 的 选 择 应 该 考 虑 在 保 持 一 定 匹 配 点 数 目 的 基 础 上 尽 可 能 的 拉 长 两 帧 之 间 的 基 线 综 合 这 两 个 方 面, 首 先 我 们 设 计 了 下 面 的 算 法 流 程 来 选 定 关 键 帧 候 选 区 域 : -------------------------------------------------------------------------------------------------- Algorithm. To find the jth Key Frame Candidate zone Φ(k j ) around Frame m -------------------------------------------------------------------------------------------------- : Input: Video stream in a scene zone : Output: the jth Key Frame Candidate zone Φ(k j ) 3: for i=m-n seachzone ; i<m+ N seachzone ; i=i+ 4: Match keypoints between frames k i and k j- 5: Compute H and F using RANSAC 6: Discard outlier matches 7: Calculate correspondence radio R c 8: if R c <T min or R c >T max then 9: continue : end if : if GRIC H (k i, k j- ) GRIC F (k i, k j- ) then : continue
3: end if 4: Φ (k j ) i 5: end for 然 后, 我 们 又 采 用 了 函 数 优 化 的 方 式 从 关 键 帧 候 选 区 域 中 进 一 步 选 定 合 适 的 关 键 帧 假 定 一 个 视 频 序 列 为 f(), f(),, f(n),φ (k j ) 表 示 第 j 个 关 键 帧 候 选 区 域, 则 关 键 帧 优 化 函 数 为 : k arg min ( f ( j)) i j ( k i ) f ( j) max( GRIC ( k, j) GRIC ( k, j), GRIC ( j, n) GRIC ( j, n)) F i H i F H () 其 中 k i 表 示 第 i 个 关 键 帧,GRIC F (i,j) 表 示 视 频 帧 i 和 视 频 帧 j 当 模 型 为 F 时 的 GRIC 分 值 大 小,GRIC H (i,j) 表 示 视 频 帧 i 和 视 频 帧 j 当 模 型 为 H 时 的 GRIC 分 值 大 小 这 样 在 满 足 角 点 匹 配 率 并 排 除 了 退 化 情 况 的 前 提 下 就 能 保 证 提 取 出 的 关 键 帧 之 间 的 基 线 尽 可 能 的 长 在 如 图 4 所 示 的 实 验 中, 摄 像 机 沿 着 红 色 轨 迹 在 平 移 运 动 中 拍 摄 了 工 作 台 的 一 角, 整 段 视 频 共 有 89 帧, 首 先 基 于 场 景 内 容 的 变 化 把 视 频 流 分 为 了 多 个 子 序 列, 而 后 在 每 个 区 域 中 提 取 出 相 应 的 关 键 帧, 图 5 展 示 了 其 中 一 部 分 关 键 帧 图 4 实 验 场 景 及 摄 像 机 运 动 轨 迹 示 意 图 (a) 子 序 列 部 分 关 键 帧 (b) 子 序 列 部 分 关 键 帧 (c) 子 序 列 3 部 分 关 键 帧 图 5 子 序 列 中 的 部 分 关 键 帧
. 结 构 化 重 建 将 视 频 分 为 子 序 列 并 提 取 出 每 个 子 序 列 的 关 键 帧 后, 就 可 以 在 每 个 子 序 列 中 进 行 结 构 化 重 建 过 程 整 个 过 程 又 分 为 射 影 重 建 自 标 定 和 度 量 重 建 三 个 部 分, 下 面 分 别 予 以 介 绍 首 先, 对 于 每 一 组 子 序 列 利 用 上 一 步 提 取 出 的 关 键 帧 分 别 进 行 传 统 的 射 影 重 建 [6] 然 后 是 摄 像 机 的 自 标 定 普 通 视 频 并 不 存 储 拍 摄 时 摄 像 机 的 参 数, 况 且 在 视 频 拍 摄 中 摄 像 机 参 数 会 随 着 时 间 变 化, 所 以 摄 像 机 自 标 定 是 分 段 化 结 构 重 建 中 的 重 要 一 步 我 们 改 进 了 一 种 鲁 棒 自 标 定 方 法 因 为 一 个 子 序 列 中 的 关 键 帧 的 数 量 是 有 限 的, 而 参 与 自 标 定 的 视 频 序 列 越 长 标 定 的 结 果 越 可 靠 所 以 在 标 定 一 组 子 序 列 的 参 数 时, 我 们 同 时 利 用 了 相 邻 子 序 列 的 信 息 来 增 强 标 定 的 平 滑 性 和 稳 定 性 在 计 算 机 视 觉 中, 三 维 空 间 中 绝 对 二 次 曲 面 在 视 平 面 中 的 投 影 对 应 着 绝 对 二 次 曲 线 它 们 的 关 系 如 下 式 所 示 : T KK (3) 其 中 表 示 射 影 空 间 下 的 绝 对 二 次 曲 面, 它 是 一 个 4 4 秩 为 3 的 对 称 矩 阵, 是 一 个 投 影 矩 阵 根 据 文 献 [] 提 出 的 线 性 自 标 定 方 法, 通 过 加 入 权 重 因 子 考 虑 了 不 确 定 因 素 后 子 序 列 中 的 每 个 关 键 帧 对 应 着 下 面 的 方 程 组 : 9v 9v.v.v.v.v 3 3 3 3 3 其 中 i 表 示 投 影 矩 阵 的 第 i 个 行 向 量,v 是 尺 度 因 子, 初 始 化 时 设 为, 在 随 后 的 方 程 组 每 次 迭 代 求 解 过 程 中 设 为 3 对 于 每 个 子 序 列, 如 果 把 其 中 一 个 关 键 帧 的 投 影 矩 3 阵 设 为 = [I ], 那 么 (4) 中 的 就 可 以 变 换 为 下 面 的 形 式 : KK 把 一 个 子 序 列 中 所 有 关 键 帧 对 应 的 方 程 组 ( 公 式 4) 联 立 成 一 个 更 大 的 方 程 组, 通 过 线 性 最 小 二 乘 法 就 能 够 求 解 这 样 对 于 子 序 列 n, 可 以 推 导 出 以 下 方 程 组 : a T T 3 a b kn [ Cn Dn ] an b n 其 中 n 是 子 序 列 的 序 号,k n 是 矩 阵 K n K n T 的 向 量 化 形 式,a n 是 一 个 3 维 向 量,b n 是 一 个 标 量,C n, D n 包 含 了 子 序 列 n 中 所 有 关 键 帧 对 应 的 方 程 组 所 包 含 的 系 数 在 通 常 包 含 多 场 景 的 镜 头 中, 摄 像 机 的 焦 距 是 连 续 变 化 的, 摄 像 机 的 参 数 也 不 会 发 生 突 然 的 变 化 所 以 我 们 可 以 假 设 子 序 列 Group n 和 它 相 邻 的 两 个 子 序 列 (Group n- 和 Group n+) 具 有 相 同 的 摄 像 机 内 参 这 样 Group n 的 内 参 k n 就 能 够 从 下 面 的 耦 合 方 程 组 中 解 出 : (4) (5) (6)
kn an b Cn Dn n Cn Dn a n Cn Dn b n an b n (7) 通 过 (k n, a n, b n ) 我 们 可 以 得 到 射 影 空 间 中 的 因 为 在 计 算 机 视 觉 中, 存 在 变 换 矩 阵 T n n 可 以 使 射 影 空 间 下 的 绝 对 二 次 曲 面 上 升 到 度 量 空 间 下 的 标 准 形 式 : n diag(,,, ), 它 同 样 也 可 以 将 子 序 列 Group n 从 射 影 空 间 上 升 到 度 量 空 间 这 样 通 过 约 束 Tn ntn diag (,,, ) 求 解 出 T n, 就 可 以 得 到 度 量 重 建 结 果, 完 成 最 后 一 步 : T and X T X (8) metric n proj n n metric n n proj n 我 们 的 结 构 重 建 方 法 具 有 以 下 两 个 特 点 :) 通 过 耦 合, 自 标 定 结 果 比 从 单 个 子 序 列 中 得 到 的 结 果 更 加 鲁 棒 同 时 由 于 射 影 重 建 是 在 每 一 个 子 序 列 中 独 立 进 行 的, 这 样 有 效 的 避 免 [] 了 射 影 漂 移 现 象 的 产 生 ) 我 们 的 方 法 可 以 处 理 变 焦 的 长 镜 头 在 估 计 子 序 列 Group n 的 摄 像 机 内 参 时, 我 们 利 用 了 Group n- 和 Group n+ 的 数 据 信 息, 同 时 假 设 (Group n-, Group n, Group n+) 具 有 相 同 的 摄 像 机 内 参 这 仅 仅 是 为 了 增 强 自 标 定 结 果 的 鲁 棒 性, 并 不 意 味 着 在 这 三 个 连 续 的 子 序 列 中 摄 像 机 内 参 不 变 事 实 上, 当 估 计 子 序 列 Group n+ 的 摄 像 机 内 参 时, 我 们 又 利 用 了 Group n 和 Group n+ 的 数 据 信 息, 同 时 假 设 (Group n, Group n+, Group n+) 具 有 相 同 的 摄 像 机 内 参 在 另 一 组 实 验 中, 通 过 平 移 摄 像 机 沿 着 工 作 台 桌 面 从 左 到 右 进 行 了 拍 摄 定 焦 摄 像 机 用 标 定 板 测 得 的 焦 距 值 为 75 像 素, 并 把 它 作 为 焦 距 真 值 在 分 段 化 结 构 重 建 过 程 中, 自 标 定 算 法 一 共 执 行 了 6 次 图 6 是 每 个 子 序 列 自 标 定 得 到 的 焦 距 估 值, 可 以 看 到 分 段 化 结 构 重 建 框 架 保 持 了 焦 距 估 值 的 平 稳 性, 能 够 提 供 可 靠 的 深 度 线 索 3 结 论 图 6 耦 合 自 标 定 焦 距 估 计 我 们 结 合 了 D/3D 转 换 技 术 的 特 点 提 出 了 一 种 分 段 化 结 构 重 建 框 架, 该 框 架 能 够 有 效 的 从 视 频 中 获 得 连 续 场 景 的 结 构 信 息, 为 D/3D 转 换 提 供 必 要 的 深 度 线 索 在 下 一 步 的 工
作 中, 我 们 将 在 此 基 础 上 利 用 分 段 化 结 构 重 建 框 架 提 供 的 深 度 线 索 进 一 步 研 究 高 效 的 转 换 方 法, 使 SFM 技 术 能 够 真 正 解 决 这 一 类 视 频 的 转 换 问 题 参 考 文 献 : [] Liu Wei, Wu Yihong, Hu Zhanyi. A Survey of D to 3D Conversion Technology for Film. Journal of Computer-Aided Design & Computer Graphics,,4():-5 (in Chinese) ( 刘 伟, 吴 毅 红, 胡 占 义. 电 影 D/ 3D 转 换 技 术 概 述 [J]. 计 算 机 辅 助 设 计 与 图 形 学 学 报,,4():-5) [] J. Repko, M. ollefeys. 3D Models from Extended Uncalibrated Video Sequences: Addressing Key-frame Selection and rojective Drift, in roc. 3DIM, pp.5-57, 5 [3] T. Liu and J.R. Kender, Computational approaches to temporal sampling of video sequences, ACM Trans. Multi. Comput. Commun. Appl., vol.,no., pp. 7-9, 7 [4] M.T. Ahmed and M.N. Dailey, Robust key frame extraction for 3D reconstruction from video streams, in roc. VISA, vol., pp. 3-36,. [5].H.S. Torr. An assessment of information criteria for motion model selection, in CVR97, pp.47-53, 997. [6] R. Hartley and A. Zisserman, Multiple view geometry. Cambridge: Cambridge University ress, UK, 3, pp. 6-76