Microsoft Word - scribe_1_.doc



Similar documents
Microsoft Word - KSAE06-S0262.doc

Move Component Object selection Component selection UV Maya Hotkeys editor Maya USING MAYA POLYGONAL MODELING 55

(baking powder) 1 ( ) ( ) 1 10g g (two level design, D-optimal) 32 1/2 fraction Two Level Fractional Factorial Design D-Optimal D

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

(Pattern Recognition) 1 1. CCD

Microsoft PowerPoint - Sens-Tech WCNDT [兼容模式]

untitled

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

入 指 令 如 : 鍵 盤 鼠 標 多 點 觸 控 重 力 感 應 陀 螺 儀 等 4. 圖 形 用 戶 接 口 掌 握 引 擎 API 中 GUI 與 GUILayout 類 中 方 法 和 變 量 的 使 用, 能 夠 通 過 GUI Skin 為 應 用 的 界 面 定 制 不 同 風 格 主

CMOS线性响应测试

untitled


Subspace Gradient Domain Mesh Deformation

coverage2.ppt

Improved Preimage Attacks on AES-like Hash Functions: Applications to Whirlpool and Grøstl

<4D F736F F D20B3C2B9FAD5D7C2DBCEC4C5C5B0E62E646F63>

Microsoft Word - p11.doc

热设计网

标题


2/80 2

甄試報告1125.PDF

SDS 1.3

Microsoft Word - 物理專文_fengli_revise_2

untitled

Microsoft Word - A doc

<4D F736F F D20C1B9CAB3D2A9BCE0A1B A1B33536BAC520D3A1B7A C4EACFC2B0EBC4EAD2A9C6B7B3E9D1E9BFECBCECB9A4D7F7CAB5CAA9B7BDB0B8B5C4CDA8D6AA2E646F63>

國立中山大學學位論文典藏.PDF

untitled


Vol. 22 No. 2 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Apr ,,,,, Apriori,,,,,,,,

Microsoft Word - 00-巻頭言.doc

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

Chapter 24 DC Battery Sizing

Microsoft Word - Probability.doc

GH1220 Hall Switch

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

精要

Microsoft Word - 3D手册2.doc

Microsoft PowerPoint - hybrid_video_coding_01.ppt

Non-intrusive velocimetry techniques using image processing techniques

PowerPoint 簡報

資料HDR作1-03 HDR技術動向

第一章

衛星影像分類

摘 要 本 校 多 媒 體 設 計 系 與 上 海 戲 劇 學 院 創 意 學 院 在 多 次 聯 繫 交 流 之 下, 已 簽 署 合 作 備 忘 錄, 積 極 尋 求 兩 校 合 作 教 學 與 共 同 創 作 之 機 會 藉 由 本 系 學 生 作 品 腦 殘 公 寓 入 圍 第 五 屆 中

108 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract To satisfy the audiences' pursuing of image realism and content imagination, the combination of live footage

LK110_ck

COCO18-DensePose-BUPT-PRIV

Microsoft PowerPoint - ATF2015.ppt [相容模式]

Microsoft PowerPoint - Aqua-Sim.pptx

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

VX2753mh-LED-1_UG_KRN.book

% % 34

untitled

Microsoft PowerPoint - NCBA_Cattlemens_College_Darrh_B

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

11第十一章階層線性模式.DOC

投影片 1

Value Chain ~ (E-Business RD / Pre-Sales / Consultant) APS, Advanc

untitled

34 www. cjig. cn wavelet transform 1 2 JPEG LIVE E s o = 1 T Σ log 2 C s o + 1 E T C s o Lu Wen contourlet C 0 7 N

BC04 Module_antenna__ doc

PowerPoint Presentation

國家圖書館典藏電子全文


iml88-0v C / 8W T Tube EVM - pplication Notes. IC Description The iml88 is a Three Terminal Current Controller (TTCC) for regulating the current flowi

网络“超常”形式单位认知研究与规范

(156) / Spurious Regression Unit Root Test Cointergration TestVector Error Correction Model Granger / /

彩色地图中道路的识别和提取

08陈会广

Process Data flow Data store External entity 6-10 Context diagram Level 0 diagram Level 1 diagram Level 2 diagram

a b c d e f g C2 C1 2

PowerPoint Presentation

Microsoft PowerPoint - STU_EC_Ch08.ppt

2782_OME_KM_Cover.qxd

朝 陽 科 技 大 學 2015 年 工 業 設 計 系 專 題 設 計 報 告 書 麵 對 麵 - 中 西 麵 食 料 理 器 具 設 計 指 導 教 授 : 劉 哲 揚 設 計 者 : 翁 苡 恬 中 華 民 國 一 0 四 年 六 月 二 日 麵 對 麵 - 中 西 麵 食 料 理 器 具 設

K-means

V6800/V6600 3D

Stochastic Processes (XI) Hanjun Zhang School of Mathematics and Computational Science, Xiangtan University 508 YiFu Lou talk 06/

Pin Configurations Figure2. Pin Configuration of FS2012 (Top View) Table 1 Pin Description Pin Number Pin Name Description 1 GND 2 FB 3 SW Ground Pin.

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Monetary Policy Regime Shifts under the Zero Lower Bound: An Application of a Stochastic Rational Expectations Equilibrium to a Markov Switching DSGE


Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi

( ) t ( ) ( ) ( ) ( ) ( ) t-

PowerPoint Presentation

)

前言

Text 文字输入功能 , 使用者可自行定义文字 高度, 旋转角度 , 行距 , 字间距离 和 倾斜角度。

untitled

Concept of Hyper Kamiokande (20 times Super K) 48m x 50m x 250m x 2 Total mass ~ 1 Mton Photocathode coverage ~40% of surface ~200,000 PMTs => prohibi

國立中山大學學位論文典藏.PDF

Microsoft Word - LD5515_5V1.5A-DB-01 Demo Board Manual

iml v C / 0W EVM - pplication Notes. IC Description The iml8683 is a Three Terminal Current Controller (TTCC) for regulating the current flowin

, : III

iml v C / 4W Down-Light EVM - pplication Notes. IC Description The iml8683 is a Three Terminal Current Controller (TTCC) for regulating the cur

Microsoft PowerPoint - CH 04 Techniques of Circuit Analysis

Transcription:

Making Faces 2005/06/08 R93922063 陳 坤 毅 R93922087 莊 曜 誠 R93922105 王 博 民 3D acquisition for faces: 如 何 取 得 臉 的 3D model? 方 法 1: ( 經 費 足 夠 時 ) 使 用 Cyberware scanner. ( 可 對 臉 部 scan 亦 可 對 全 身 scan) 方 法 如 下 圖 所 示 : 缺 點 : 人 必 須 保 持 靜 止 無 法 取 得 動 態 的 3D model, 且 成 本 較 高 優 點 : 比 較 能 得 到 精 確 的 Mode 方 法 2: ( 由 照 片 取 得 3D model.) 方 法 概 念 與 mosaic 類 似, 先 給 一 個 人 臉 形 狀 的 model ( 積 木 ), 用 warping morphing 或 是 調 整 一 些 參 數, 使 得 由 各 個 角 度 去 看 時, feature points 能 夠 match 變 型 後 的 人 臉 好 處 : 人 可 以 動, 不 須 需 靜 止

Step1: 用 五 台 camera 拍 攝 人 臉 Step2: User 必 須 給 定 幾 十 個 feature point, 指 出 各 個 部 位 的 位 置 Step3: 估 計 feature point 3D 中 座 標 以 及 Camera 的 參 數 ( 亦 即 Structure from motion) Step4: 用 更 複 雜 的 feature points 把 model 再 更 進 一 步 deform, 使 能 更 match 臉 上 的 一 些 feature Step5: 最 後 將 texture 貼 上 Mesh deformation 1. 計 算 feature point 該 移 動 到 哪 裡 去 2. 決 定 那 些 並 非 對 應 到 feature point 的 vertex 必 須 對 應 到 哪 邊 去 Scattered data interpolation 黃 色 點 為 feature point, 灰 色 點 為 整 個 model 重 心 中 間 圖 白 色 位 置 為 feature point 原 來 位 置, 黃 色 為 白 點 將 被 移 動 到 的 地 方 欲 決 定 黑 邊 上 的 點 要 移 動 到 哪 去, 先 去 看 週 圍 的 點 移 動 到 哪 去, 再 用 一 個 smooth 的 kernel 來 做 一 個 weighted average. Texture extraction

分 為 view independent and view-dependent, 但 view dependent 通 常 提 供 較 好 的 texture 做 weighting 前 必 須 要 考 慮 到 以 下 幾 點 : 1. Occlusion: ( 某 些 部 位 只 有 在 特 定 幾 張 image 出 現 ) 2. Smoothess: 轉 動 時 不 要 跳 動 3. Positional certainty: normal 越 朝 像 中 間 越 準 確, 越 朝 邊 邊 越 不 準 確 4. View similarity: 越 靠 近 此 view 的 weighting 會 越 高 View-independent VS. View-dependent View-independent: 快, 但 會 有 blur 的 現 象 View-dependent: 慢, 但 feature 會 比 較 像 Model reconstruction: Input: 給 不 同 時 間 點 五 張 照 片, 一 個 以 及 generic 3D model Output: 該 時 間 點 的 3D model 以 及 view-dependent texture Creating new expression: Global blending: ( 每 個 點 都 apply 相 同 的 weighting) 下 面 是 一 個 簡 單 的 例 子

左 圖 跟 中 間 的 圖 都 各 用 一 半 的 weighting, 最 後 再 做 blending, 可 得 到 右 圖 這 張 新 的 Expression Region-based blend: 下 面 是 一 個 簡 單 的 例 子 我 們 取 左 邊 的 上 半 部 份 臉 部, 和 中 間 的 下 半 部 份 臉 部, 可 得 到 右 圖 新 的 expression Painterly interface:

取 各 張 image 我 們 所 要 的 部 份, 合 成 出 一 張 新 的 expression Animating between expressions 以 下 面 的 例 子 說 明 : Input: 一 張 自 然 的 表 情, 以 及 一 張 開 心 的 表 情 我 們 可 以 利 用 morphing 的 方 式 將 中 間 的 表 情 建 構 出 來 Spacetime faces: 建 立 3Dmodel 的 另 一 種 方 法 ( 發 表 於 2003 年 ), 能 表 現 出 更 detail 的 部 份 ( 如 皺 紋 ) ( 有 別 於 前 述 發 表 於 1997 年 的 方 法 ) 會 用 到 下 圖 設 備, 使 用 Stereo 的 方 式 建 立 3D model

其 中 : Black & white camera 用 來 補 捉 range image Color Camera 用 來 補 捉 texture Video projectors 會 投 影 出 一 些 patter 到 人 的 臉 上 這 些 Cameras 均 為 60 frames/sec 3CCD 640*480 的 Resolution 下 圖 為 各 個 camera 在 不 同 時 間 點 所 得 到 的 不 同 影 像 每 三 個 frames 為 一 個 單 位, 兩 個 有 投 影 pattern 到 臉 上, 一 個 沒 有 投 影 pattern 到 臉 上

而 我 們 的 目 的 是 決 定 出 與 沒 有 投 影 的 那 個 frame match 的 3D model Stereo: 單 純 地 直 接 對 該 frame 做 Stereo analysis:

找 出 該 frame 中 每 個 點 會 形 成 一 個 block, 利 用 block match 的 方 式 找 到 另 一 台 像 機 該 frame 的 對 應 點 如 此 一 來 便 可 由 2D image 利 用 stereo 的 方 式 找 出 3D mode 如 下 圖 所 示 由 於 在 做 block matching 時 會 有 一 些 ambiguous 的 情 況 發 生, 所 以 結 果 不 會 太

好, 我 們 發 現 臉 部 會 有 許 多 noise 的 現 象, 因 此 我 們 需 要 用 投 影 pattern 的 方 式 來 改 善 如 下 圖 所 示 Active Stereo: 我 們 會 利 用 投 影 的 pattern 來 找 block 的 match, 以 減 輕 誤 差 我 們 發 現 結 果 會 好 很 多 但 結 果 仍 不 太 滿 意, 因 此 我 們 用 spacetime stereo, 方 法 如 下 : Spacetime stereo:

一 次 考 慮 5 個 frame, 使 效 果 更 好 Temporally 來 看, 五 個 frame 中 的 block 都 要 match Ex. 8*8 的 block, 則 是 8*8*5 的 volume 在 5 個 frame 都 要 match 但 我 們 必 須 要 克 服 掉 motion 的 問 題 我 們 會 假 定 這 一 個 volume 只 是 一 個 "orthogonal volume 做 一 個 affine transformation" ( 亦 即 臉 的 motion 為 linear 移 動 ) 第 一 個 frame 的 對 應 :

第 二 個 frame 的 對 應 : 第 三 個 frame 的 對 應 :

第 四 個 frame 的 對 應 :

第 五 個 frame 的 對 應 : 找 出 對 於 整 個 volume 最 match 的 點

示 意 圖 : Spacetime Stereo 的 缺 點 : 在 這 樣 的 device 下, 人 通 常 不 太 願 意 把 眼 睛 張 開, 因 為 兩 個 projector 直 射 在 臉 上 Fitting: 將 左 邊 與 右 邊 的 range image 合 起 來 3D face applications : 以 下 為 三 部 電 影 用 到 3D face 的 例 子 : 1. The One ( 救 世 主 )

劇 情 為 兩 個 相 同 的 人 對 打, 左 圖 為 替 身, 袋 上 綠 色 面 具, 我 們 將 3D model 覆 上 即 可 2. Gladiator ( 拍 攝 此 電 影 時, 該 角 色 人 物 死 亡, 後 來 的 部 份 均 以 3D face 解 決 )

3. Spiderman 2 這 整 個 場 景 均 為 CG 所 產 生, 缺 點 在 於 此 人 的 臉 部 完 全 無 表 情 變 化 (CYY 按 : 因 為 他 快 死 了 ) Statistical methods 是 用 來 解 決 ill-posed 的 問 題 Ill-posed:

y 給 定 一 些 parameter z, 帶 入 function, 再 加 上 noise, 得 到 observed signal 要 解 決 的 問 題 是 : 如 何 從 所 得 到 的 y,recover 回 到 z (f 為 未 知 ) 例 子 : (1)super-resolution: input image (parameter) 為 一 個 high resolution image, 例 如 為 128*128 的 image, 經 過 down-sampling( 使 用 一 個 4*4 的 box, 將 box 內 的 值 取 平 均 作 sample 的 值 ), 則 我 們 所 觀 察 到 的 image 為 64*64 的 image 所 以 這 裡 的 ill-pose 是 如 何 從 64*64 的 observed signal 來 recover 回 128*128 的 parameter 雖 然 我 們 知 道 forward process, 但 是 我 們 所 要 的 parameter 個 數 比 我 們 所 觀 察 到 的 個 數 還 要 多 (2)de-nosing: input 為 原 來 的 image,f 為 jpeg compression operation (DCT quantization), 得 到 一 張 compressed image, 我 們 所 觀 察 到 的 就 是 一 張 compressed image, 雖 然 這 邊 二 邊 的 image 的 dimension 一 樣, 但 是 經 過 compressed 後 很 多 detail 也 都 不 見 了, 所 以 這 邊 也 算 是 ill-pose 的 問 題 ; 我 們 如 何 從 一 張 high compressed image 來 recover 回 原 來 的 image 所 以 statistical method 是 用 來 解 決, 如 何 從 observed signal 來 recover 回 原 來 的 parameter 找 一 個 optimal parameter z, 使 得 P( z y) 最 高 以 super-resolution 為 例, 給 定 一 張 64*64 的 image y, 要 找 出 一 張 128 個 128 的 image z, 使 得 P( y z) P( z) P( z y) 為 最 高 根 據 貝 式 定 理 知 道 P ( z y) =, 因 為 對 z 做 P( y)

quantization, 所 以 P(y) 跟 optimalize 無 關, 可 以 把 它 當 作 constant 忽 略 掉, 再 取 log 變 成 likelihood, 則 乘 法 變 加 法, 因 此 得 到 minimize * L ( y z) + L( z) 所 以 整 個 方 程 式 可 以 寫 成 z = min L( y z) + L( z) z Data evidence and prior knowledge: 我 們 要 猜 一 組 z, 代 入 f, 使 得 f(z) 和 y 最 接 近 以 super solution 為 例, 如 果 觀 察 到 的 y 是 64*64 的 灰 色 的 圖 (intensity level 都 是 128), 則 我 們 會 猜 z 可 能 是 128*128 的 灰 色 image, 也 可 能 會 猜 z 是 128*128 的 chess board pattern( 黑 白 相 間 ) 的 image 所 以 我 們 必 須 使 用 prior knowledge 讓 我 們 的 ill-posed problem 變 成 well condition problem 所 以 如 果 我 們 知 道 原 來 的 image 是 smooth image, 則 我 們 就 可 以 知 道 z 是 128*128 的 灰 色 image 而 不 是 chess board pattern 的 image 8 如 果 給 一 個 10*10 的 灰 階 的 block image, 每 個 pixel 有 2 種 顏 色, 則 這 樣 240 11 的 10*10 的 block 有 10 種 變 化, 如 果 每 一 個 人 一 天 大 約 看 8* 10 blocks, 22 全 球 有 60 億 人, 則 全 球 每 天 看 的 image block 約 10, 所 以 要 多 少 人 多 少 年 才 能 把 所 有 的 image block 看 完 意 思 是 說,image 出 現 的 頻 率 並 不 是 equal 的, 有 些 image 可 能 ㄧ 輩 子 都 看 不 到, 有 些 image 出 現 頻 率 會 比 其 他 高 很 多, 所 以 我 們 傾 向 於 相 信 有 些 image 是 好 的 image( 就 是 我 們 想 要 的 image), 有 些 是 壞 的 image( 大 致 都 不 會 出 現 的 image), 所 以 我 們 才 用 statistical method

Generic priors: 所 以 我 們 知 道 現 在 有 好 的 image 和 壞 的 image, 則 我 們 如 何 來 encode 好 的 image, 最 常 用 的 就 是 generic priors 因 為 什 麼 都 不 知 道, 所 以 先 假 設 smooth 的 image 就 是 好 的 image, 想 辦 法 去 encode z,v(x) 去 考 慮 和 鄰 居 間 的 frequency, 通 常 我 們 會 用 Gaussian MRF 和 Huber MRF( 比 較 robust) 但 是 generic prior 得 到 的 結 果 不 是 很 好, 比 較 模 糊 Example-based priors:

假 設 有 出 現 過 的 image 就 是 好 的 image, 則 怎 樣 encode 一 張 曾 經 出 現 過 的 image 就 是 好 的 image, 在 super-resolution 的 應 用 : 去 收 集 6 張 200*200images, 當 中 只 要 出 現 過 的 image block 就 是 好 的 image block, 所 以 去 生 成 image 的 時 候, 那 些 block 最 好 是 出 現 過 的 以 super-resolution 為 例 子, 先 給 low resolution 的 blocks, 利 用 六 張 的 200*200 的 images 我 都 可 以 down-sampling 得 到 low-resolution, 所 以 我 們 得 到 high-resolution 對 low-resolution 的 care, 我 們 就 去 找 跟 我 們 low resolution 的 block 比 較 像 的, 然 後 將 所 對 應 的 high-resolution 當 做 這 塊 的 high-resolution, 如 果 是 一 塊 一 塊 去 生 成, 必 須 要 考 慮 overlap 的 問 題, 其 overlap 也 要 越 相 近 越 好

Model-based priors: 如 果 現 在 要 處 理 人 臉 的 image, 那 人 臉 的 image 就 是 好 的 image, 狗 的 貓 的 樹 的 image 就 不 是 好 的 images Model-based prior 基 本 上 說 你 有 一 個 club, 將 所 有 屬 於 這 個 club 的 image 產 生 一 個 model, 來 summarize 這 些 image, 最 常 用 的 就 是 Gaussian model Gaussian model 基 本 上 是 對 這 些 images 做 PCA 如 果 我 們 知 道 這 張 是 人 臉 的 照 片,L(z) 是 encode 怎 樣 的 image 才 算 是 人 臉 的 image, 基 本 上 會 從 一 堆 人 臉 的 training data 求 出 parametric model, 然 後 利 用 parametric model 來 evaluate 任 何 的 input image 是 否 為 人 臉 的 image 我 們 用 PCA 來 做 這 件 事 情, 我 們 可 以 想 像 所 有 的 image 都 是 high dimensional vector, 然 後 PCA 會 把 它 project 到 low dimensional 的 space 上 去, 可 是 這 low dimensional space 還 是 可 以 很 真 實 的 表 現 出 我 原 來 的 data, 所 以 可 以 像 是 我 用 比 較 compact 的 技 術 來 表 現 比 較 複 雜 的 image, 所 以 每 個 人 臉 的 image 都 可 以 用 比 較 少 量 的 技 術 S 去 生 成,Z 是 人 臉 的 image, S 就 是 這 些 技 術 (low dimensional), 例 如 我 們 將 1000 張 的 128*128 的 image (Z) 作 PCA, 可 以 reduce 到 20 dimensional 的 space, 則 S 就 是 20 dimensional 的 vector, 每 個 20 dimensional 的 image 就 可 以 生 成 類 似 人 臉 的 image, 所

以 只 要 有 S 就 可 以 生 出 Z, 在 作 PCA 的 過 程, 同 時 也 把 這 些 20 個 dimension 的 每 一 個 component 可 能 出 現 的 機 率 都 有 prior model, 所 以 現 在 換 成 我 的 prior model 是 對 技 術 S 的 prior model, 一 但 有 S 就 可 以 生 出 Z, 所 以 我 們 基 本 上 把 Z 換 成 S, 所 以 整 個 是 對 S 來 做 Z 可 以 寫 成 S 的 一 些 combination PCA: Principal Components Analysis (PCA) 以 2d 為 例 子, 給 ㄧ 堆 綠 色 的 data points, 如 果 我 們 用 原 來 的 座 標 軸 來 描 述 他, 會 發 現 不 是 exactly 的 描 述 方 式, 我 們 想 用 更 compact 的 方 式 來 描 述 他 這 2d 的 data, 我 們 希 望 用 1d 的 技 術 來 描 述, 把 這 些 點 投 射 到 1d 上, 取 任 何 一 軸 都 無 法 很 真 實 的 呈 現 這 些 data 那 我 們 應 該 怎 麼 找 座 標 軸, 經 過 projection 後 還 能 很 真 實 的 呈 現 原 來 的 data 最 簡 單 的 方 式 是 先 找 一 個 軸, 使 得 其 他 點 投 影 到 這 軸 的 variance 最 大, 接 下 來 找 variance 第 二 大 的 且 跟 原 來 的 軸 垂 直, 然 後 我 們 就 將 綠 色 的 點 轉 到 first principal component 和 second principal component 所 描 述 的 座 標 系 裡 面, 我 們 可 以 發 現 這 座 標 系 能 更 真 實 的 呈 現 這 些 datas 所 以 如 果 在 n-dimension 系 統, 做 過 PCA 之 後, 我 們 只 要 把 variance 小 的 軸 都 拿 掉, 就 可 以 將 data 做 到 dimension reduction 的 動 作 可 以 把 它 想 成 是 一 個 Gaussian function, 把 這 些 點 算 出 一 個 Gaussian function 來 描 述 這 些 2d 的 點, 所 以 作 PCA 跟 做 Gaussian function 基 本 上 是 一 樣 的 下 面 是 作 PCA 的 步 驟 :

現 在 要 做 人 臉 的 image, 那 怎 樣 的 image 是 好 的 image, 先 給 training data, 我 們 求 出 這 些 image 的 mean vector, 就 是 上 圖 的 Average face, 我 們 用 PCA 算 出 principal component, 我 們 取 15 個 principal component, 所 以 對 所 有 128*128 的 image 我 們 都 可 以 用 這 15 個 技 術 來 表 示, 所 以 一 張 圖 如 果 是 A1~A15 的 技 術 所 組 成, 則 此 張 圖 的 表 示 方 式 是 mean + A1*( 第 1 個 component) + A2*( 第 2 個 component) + + A15*( 第 15 個 component), 這 這 張 image 就 可 以 很 接 近 原 來 輸 入 的 image 為 什 麼 取 15, 是 因 為 我 們 觀 察 energy decade, 發 現 到 某 個 值 之 後 variance 都 很 小, 意 思 是 說 這 幾 個 feature component 沒 有 什 麼 太 大 的 影 響, 也 就 是 說 本 來 128*128 的 image, 本 身 dimension 就 沒 那 麼 高, 因 為 之 間 有 強 烈 的 coherence, 所 以 用 15 張 就 可 以 cover 所 有 的 variance, 所 以 PCA 的 意 思 就 是 這 樣 上 圖 是 對 人 臉 做 super resolution, 然 後 使 用 三 種 priors 的 結 果 比 較,(a) 為 input low resolution image,(f) 為 真 正 的 high resolution image, 基 本 上 是 每 個 方 法 將 low resolution 求 出 自 己 認 為 的 high resolution image (c) 是 用 generic prior 做 的 結 果, 所 以 得 到 的 結 果 比 較 模 糊,(d)(e) 是 example-based prior 得 到 的 結 果, 但 是 其 結 果, 有 的 時 候 人 臉 的 地 方 不

像 人 臉, 例 如 鼻 子 的 地 方 有 很 奇 怪 的 鼻 線 之 類 的, 因 為 它 只 考 慮 local 的 face 沒 有 考 慮 global 的 部 份,(b) 是 model-based prior, 基 本 上 它 是 model-based 加 上 example-based 在 global 部 分, 他 用 PCA 算 出 人 臉 大 概 應 該 長 什 麼 樣 子, 所 以 產 生 出 來 的 image ㄧ 定 要 長 的 像 人 臉, 不 能 脫 離 人 臉 太 遠, 可 是 在 local 的 face 他 用 example-face, 所 以 結 果 比 其 他 三 張 的 結 果 更 像 人 臉 Face models from single images 用 ranging scanner 去 scan 200 個 ranging image,100 個 男 生 100 個 女 生, 同 時 取 得 其 texture map, 以 此 200 個 ranging images 建 立 一 個 prior model, 每 一 張 ranging image 都 是 一 堆 features 的 集 合, 例 如 眼 角, 嘴 角 這 些 明 顯 的 地 方, 此 model 即 為 morphable 的 face model 接 著 input 一 個 2D 的 image, 我 們 就 利 用 這 個 morphable face model, 用 上 面 那 兩 百 個 model 以 2D features 可 以 找 得 到 對 應 點, 以 及 可 以 產 生 出 一 個 完 整 的 mesh 的 情 況 下, 即 可 產 生 一 個 face model, 其 可 以 match 我 們 的 input image, 且 是 一 個 完 整 的 mesh 然 後 我 們 可 以 對 此 face mesh 做 一 些 morphing 的 變 化, 使 用 此 model 的 一 些 gain, ranging image, image texture, 用 PCA 去 求 出 一 個 該 face shape 的 prior model, 我 們 即 可 用 此 方 法 來 調 整 一 些 參 數, 使 得 我 們 的 face model 可 以 做 出 一 些 表 情, 甚 至 可 以 讓 這 個 人 變 胖 變 瘦 等 像 是 整 型 的 改 變

接 下 來 講 到 有 關 數 學 理 論 的 部 分 使 用 我 們 的 200 張 ranging images, 將 每 張 image 都 align 好, 每 一 個 相 對 應 的 feature 都 互 相 對 應 好, 每 一 個 ranging image 就 變 成 了 vertex 所 形 成 的 集 合, 有 n 個 vertex 就 是 n dimensional or 3n dimensional( 彩 色 的 話 ) 的 vector, 所 以 總 共 就 有 200 個 images, 每 個 image 的 dimension 是 3n, 所 以 我 們 可 以 將 他 看 成 是 有 200 個 3n dimensional 的 points, 我 們 即 可 用 PCA 的 方 式 去 算 出 這 200 個 points 的 mean 以 及 principal component, 假 設 我 們 取 其 中 的 m 個 components, 我 們 有 了 mean face shape 和 m 個 face shape 的 principal component, 所 以 每 一 個 face mesh 都 可 以 投 影 到 這 個 m dimension 的 vector 上 面 去, 所 以 只 要 給 你 一 個 m dimensional 的 vector, 我 們 都 可 以 求 出 其 對 應 的 ranging image 每 一 個 face image 都 是 一 個 md 的 vector, 係 數 即 為 α1 到 αm,si 就 是 第 i 個 shape 的 principal component,αi 就 是 對 應 到 該 component 的 coefficient, 而 βi 代 表 其 相 對 應 principal component 的 texture 的 coefficient, 而 且 α 有 他 自 己 的 probability function, 之 前 我 們 有 用 SVD 算 出 其 singular value, 而 singular value 所 對 應 的 就 是 他 的 covariance, 所 以 對 每 個 component 我 們 知 道 他 的 係 數 α

i 的 分 佈 可 已 有 多 廣, 對 於 每 一 個 α, 我 們 都 可 以 得 到 其 prior model, 這 就 是 我 們 要 的 morphable model, 以 此 便 能 對 於 我 們 所 input 的 face model 加 以 變 化 如 果 我 們 先 以 四 個 features 為 例 的 話,Divide face into 4 regions (eyes, nose, mouth, head),for each new prototype, find amount of deviation from the reference shape and texture 我 們 可 以 在 這 四 個 features 上 標 上 一 些 特 性, 再 以 PCA 的 方 法 來 產 生 face model 下 面 這 個 奧 黛 麗 赫 本 是 另 外 一 個 例 子,input 一 張 她 的 2D image, 就 可 以 重 建 她 的 3D model, 然 後 我 們 就 可 以 任 意 的 對 這 個 3D model 做 一 些 變 化, 像 是 加 上 帽 子, 或 是 笑 得 更 開 一 些

下 面 這 個 例 子 是 將 兩 個 真 實 世 界 裡 的 人 臉, 套 用 在 電 影 海 報 上 面 或 是 畫 像 上 面, 讓 人 們 真 的 可 已 變 成 畫 裡 面 的 男 女 主 角 再 來 這 個 應 用 是 用 在 髮 型 上 的 變 化, 如 果 你 不 知 道 自 己 在 什 麼 樣 的 髮 型 下 面 會 變

成 什 麼 樣 子, 或 是 想 要 預 覽 一 下 自 己 剪 完 頭 髮 之 後 的 樣 子, 就 可 以 使 用 下 面 這 個 技 巧 最 後 一 個 應 用 是 在 人 的 體 型 上 面 的 應 用, 我 們 可 以 用 相 同 的 方 法, 對 於 人 的 體 型 也 建 立 出 一 個 morphable 的 body model, 來 模 擬 我 們 所 要 呈 現 的 body model, 如 此 一 來, 我 們 便 能 用 一 些 簡 單 的 參 數 來 控 制 高 矮 胖 瘦 以 及 一 些 身 體 的 特 徵, 或 是 做 出 一 些 特 別 的 動 作

Image-based faces (lip sync.) 有 了 之 前 我 們 討 論 的 3D mesh 之 後, 我 們 想 要 讓 一 個 人 講 出 他 沒 有 說 過 的 話 首 先 input 一 個 training video, 將 此 video 分 成 影 像 跟 聲 音 兩 部 分, 對 語 音 做 segmentation 將 語 音 分 成 很 多 個 音 節, 並 且 將 其 音 節 跟 其 對 應 的 video 記 錄 下 來, 接 著 input 一 段 新 的 語 音, 也 將 此 新 的 語 音 分 成 多 個 音 節, 對 於 每 個 新 的 音 節, 我 們 到 之 前 建 立 的 database 裡 去 找 出 最 像 的 音 節, 然 後 將 此 音 節 所 對 應 到 的 那 一 小 段 video sequence 找 出 來, 將 這 些 小 的 video 連 接 起 來, 就 可 以 得 到 我 們 的 output sequence

Analysis stage Video Model Background Video Synthesis stage Select Lip Video Stitch Together 因 為 人 是 會 動 的, 所 以 還 要 加 上 一 些 global motion estimation, 像 是 頭 整 個 會 動 嘴 巴 也 要 跟 著 動, 整 個 看 起 來 會 更 自 然 一 些 而 且 人 們 對 於 語 音 跟 嘴 巴 的 對 應 其 實 容 忍 度 還 蠻 高 的, 像 是 有 些 韓 劇 用 中 文 配 音 我 們 也 覺 得 還 蠻 搭 的, 所 以 這 個 research 有 些 時 候 input video sequence 不 是 很 長,sample 沒 有 很 多, 不 過 整 體 看 起 來 會 覺 得 也 都 還 蠻 順 的 Relighting faces face relighting 的 原 理 很 簡 單, 因 為 光 是 可 以 相 加 的, 像 是 下 圖, 如 果 你 將 左 邊 的 燈 亮 起 來 會 得 到 第 一 張 照 片, 如 果 將 有 邊 的 燈 亮 起 來 會 得 到 第 二 張 照 片, 於 是 如 果 要 同 時 將 兩 盞 燈 都 亮 起 來, 其 實 很 簡 單, 就 是 直 接 將 這 兩 張 照 片 相 加 即 可, 如 果 光 源 是 有 顏 色 的 光, 其 加 成 的 方 法 也 是 一 樣 的

接 下 來 這 個 方 法 就 是 建 立 在 上 述 的 性 質 上 面, 我 們 可 以 將 人 臉 或 是 人, 放 到 一 個 我 們 所 想 要 的 場 景 裡 面 操 作 的 過 程 中, 我 們 會 用 到 一 個 device 叫 做 light stage, 在 light stage 上 面 有 三 個 cameras, 人 要 坐 在 裡 面 一 段 時 間 靜 止 不 動, 然 後 camera 會 依 照 不 同 的 光 源 做 各 個 方 向 的 旋 轉, 拍 下 兩 千 多 張 照 片 當 作 database 利 用 這 兩 千 多 張 的 照 片, 我 們 就 可 以 對 任 何 的 場 景 做 relighting, 下 圖 為 這 兩 千 多 張 照 片 的 其 中 幾 張, 照 片 下 方 的 白 點 代 表 的 是 光 源 的 方 向 所 以 我 們 記 錄 了 當 燈 在 某 個 方 向 的 時 候, 整 個 model 的 每 個 位 置 的 顏 色 是 什 麼,

下 面 這 張 圖 我 們 可 以 看 到 會 有 一 些 黑 影 (occlusion), 這 是 light stage 本 身 的 鐵 欄 杆 的 影 子, 以 及 白 影 (flare), 這 是 當 光 源 正 射 到 camera 是 所 造 成 的 現 象, 所 以 我 們 要 將 上 述 兩 個 現 象 給 除 去 於 是 我 們 就 可 以 模 擬 我 們 的 model 在 任 何 一 種 光 源 的 場 景 下 面 所 呈 現 的 樣 子, 即 使 是 多 個 不 同 且 複 雜 的 光 源 下 也 沒 問 題

最 後 我 們 要 談 的 是 有 關 如 何 測 量 出 現 在 我 們 的 場 景 中 有 哪 些 光 源, 該 如 何 模 擬 這 些 資 料, 我 們 所 會 用 到 的 是 一 個 鏡 面 球 形 的 東 西, 它 可 以 幫 我 們 收 集 環 境 光 源, 好 讓 我 們 方 便 模 擬 這 整 個 場 景