智 慧 型 家 用 機 器 人 使 用 之 語 者 辨 識 系 統 Speaker Recognition System for Intelligent Home Robot 研 究 生 : 吳 宜 樵 指 導 教 授 : 王 逸 如 博 士 Student:Yi-Chiao Wu Advisor:



Similar documents
6-1-1極限的概念

所 3 學 分 課 程, 及 兩 門 跨 領 域 課 程 共 6 學 分 以 上 課 程 學 生 在 修 課 前, 必 須 填 寫 課 程 修 課 認 定 表, 經 班 主 任 或 指 導 教 授 簽 名 後 始 認 定 此 課 程 學 分 ) 10. 本 規 章 未 盡 事 宜, 悉 依 學 位

Microsoft Word doc

第 6. 節 不 定 積 分 的 基 本 公 式 我 們 可 以 把 已 經 知 道 反 導 函 數 之 所 有 函 數 都 視 為 不 定 積 分 的 基 本 公 式 基 本 公 式 涵 蓋 的 範 圍 愈 大, 我 們 求 解 積 分 就 愈 容 易, 但 有 記 憶 不 易 的 情 事 研 讀

Microsoft Word - 第四章.doc

章節

Microsoft Word - ch07

二 兒 歌 選 用 情 形 ( ) 2 ( ) ( )

研究一:n人以『剪刀、石頭、布』猜拳法猜拳一次,決定一人勝

內 政 統 計 通 報

證 券 簡 易 下 單 :2121 證 券 簡 易 下 單 1. 主 工 具 列 的 視 窗 搜 尋 器 直 接 輸 入 點 擊 主 選 單 證 券 專 區 下 單 特 殊 下 單 2121 證 券 簡 易 下 單 畫 面 說 明 1. 下 單 區 2. 個 股 行 情 資 訊 與

Microsoft PowerPoint - 資料庫正規化(ccchen).ppt

授 課 老 師 章 節 第 一 章 教 學 教 具 間 3 分 鐘 粉 筆 CNC 銑 床 教 學 內 容 CNC 銑 床 之 基 本 操 作 教 材 來 源 數 值 控 制 機 械 實 習 Ⅰ 1. 了 解 CNC 銑 床 的 發 展 2. 了 解 CNC 銑 床 刀 具 的 選 用 3. 了 解

長跨距暨挑高建築特殊結構系統之調查分析

目 錄 項 目 內 容 頁 數 1 手 機 要 求 3 2 登 記 程 序 3 3 登 入 程 序 4 4 輸 入 買 賣 指 示 6 5 更 改 指 示 14 6 取 消 指 示 18 7 查 詢 股 票 結 存 21 8 查 詢 買 賣 指 示 23 9 更 改 密 碼 查 詢 股

寫 作 背 景 導 讀 [98] L Lyman Frank Baum

目 錄 壹 題 目 1: 新 增 商 品 ( 商 品 名 稱 為 玉 井 芒 果 乾 禮 盒 )... 3 貳 題 目 2: 新 增 商 品 ( 商 品 名 稱 為 紅 磚 布 丁 精 選 禮 盒 )... 5 參 題 目 3: 新 增 商 品 ( 商 品 名 稱 為 晶 鑽 XO 醬 禮 盒 ).

第一章 緒論

16

Microsoft Word - Draft circular on Sub Leg Apr (chi)_Traditional

xls

簽 呈

四 修 正 幼 兒 園 師 資 類 科 應 修 學 分 數 為 四 十 八 學 分, 並 明 定 學 分 數 抵 免 之 相 關 規 定 及 規 範 修 習 幼 兒 園 教 育 專 業 課 程 之 最 低 年 限 ( 修 正 條 文 第 五 條 ) 五 發 給 修 畢 師 資 職 前 教 育 證 明

<4D F736F F D20B3E6A4B830312D2D2DBCC6BD75BB50BEE3BCC6AABAA55BB4EEB942BAE22E646F6378>

Microsoft Word - 立法會十四題附件.doc

前 項 第 三 款 所 定 有 機 農 產 品 及 有 機 農 產 加 工 品 驗 證 基 準, 如 附 件 一 第 七 條 驗 證 機 構 受 理 有 機 農 產 品 及 有 機 農 產 加 工 品 之 驗 證, 應 辦 理 書 面 審 查 實 地 查 驗 產 品 檢 驗 及 驗 證 決 定 之

(Microsoft Word - MOODLE990201\266i\266\245\244\342\245U )

NCKU elearning Manual

實德證券網上交易系統示範

<30332EAAFEA5F3A440A142A447A142A454A142A57CA147BEC7A5CDB14DB77EC3D2B7D3BEC7B2DFA661B9CF2E786C73>


CONTENTS 訓 練 內 容 設 計 法 056 淡 季 期 的 訓 練 058 旺 季 期 的 訓 練 060 針 對 爬 坡 賽 的 訓 練 內 容 062 賽 後 的 資 料 分 析 PART4/ 鏑 木 毅 先 生 的 建 言 活 用 於 越 野 路 跑 的 心 跳 訓

桃園市104年國民中學新進教師甄選各校複試方式及需求表

128 提 示 樞 紐 分 析 表 的 用 途 樞 紐 分 析 表 是 指 可 以 用 來 快 速 合 併 和 比 較 大 量 資 料 的 互 動 式 表 格, 透 過 它 可 以 詳 細 分 析 數 值 資 料, 特 別 適 用 於 下 列 情 況 : 需 要 從 含 有 大 量 資 料 的 清

PowerPoint 簡報

格 成 績 證 明 第 六 條 第 七 條 本 系 大 四 課 程 中 規 劃 日 本 韓 國 越 南 專 題 研 究, 學 生 需 於 大 四 時 修 習 該 課 程, 並 於 規 定 期 間 內 提 出 專 題 報 告, 取 得 合 格 成 績 證 明 本 系 規 定 學 生 畢 業 時 需 取

???T????????

ART_RAE16_ticket_cn_p.1

PROSPECT EXPLORATION 壹 前 言 第 9 卷 第 2 期 中 華 民 國 100 年 2 月

校 長 遴 選 者 就 相 關 遴 選 事 項, 有 程 序 外 之 接 觸 遴 選 會 委 員 在 任 期 間 因 故 無 法 執 行 任 務 或 有 不 適 當 之 行 為 者, 由 各 該 主 管 機 關 解 聘 之 ; 其 缺 額, 依 第 一 項 至 第 五 項 規 定 聘 ( 派 ) 委

(Microsoft Word - \246\250\301Z\272\336\262z.doc)

C CH4.tpf

支 持 機 構 : 社 會 文 化 司 主 辦 機 構 : 澳 門 學 聯 澳 門 青 年 研 究 協 會 電 話 : 傳 真 : 網 址 : 報 告 主 筆 : 李 略 博 士 數 據 錄

肆 研 究 方 法 進 行 本 研 究 前, 我 們 首 先 對 研 究 中 所 用 到 名 詞 作 定 義 定 義 : 牌 數 : 玩 牌 時 所 使 用 到 撲 克 牌 數 次 數 : 進 行 猜 心 術 遊 戲 時, 重 複 分 牌 次 數 數 : 進 行 猜 心 術 遊 戲 時, 每 次 分

奇 妙 的 24 摘 要 從 撲 克 牌 中 隨 機 抽 取 4 張 牌 可 以 有 1820 種 牌 組, 在 這 1820 種 牌 組 中, 有 1362 組 可 經 由 四 則 運 算 的 方 式, 算 出 24 點, 有 458 組 無 解 快 速 求 解 的 方 法 有 相 加 法 因 數

人 們 在 為 生 活 空 間 中 的 物 品 選 擇 色 彩 時, 不 自 覺 地 會 反 應 出 大 腦 對 色 彩 的 解 釋, 設 計 師 若 能 掌 握 色 彩 所 隱 藏 的 訊 息, 便 可 以 充 分 利 用 並 創 造 出 極 具 魅 力 的 產 品 視 覺 對 知 覺 的 影 響

e-Submission System Quick Reference Guide for Publication Related Matters (Chinese version)

骨 折 別 日 數 表 1. 鼻 骨 眶 骨 ( 含 顴 骨 ) 14 天 11. 骨 盤 ( 包 括 腸 骨 恥 骨 坐 骨 薦 骨 ) 40 天 2. 掌 骨 指 骨 14 天 12. 臂 骨 40 天 3. 蹠 骨 趾 骨 14 天 13. 橈 骨 與 尺 骨 40 天 4. 下 顎 ( 齒

<4D F736F F D20B2C433B3B92020B971B8F4A4C0AA52A7DEA5A9>

修 課 特 殊 規 定 : 一 法 律 系 學 生 最 低 畢 業 學 分 128;101 學 年 度 修 讀 法 律 系 雙 主 修 學 生 應 修 畢 法 律 專 業 目 64 學 分 ( 限 修 習 本 校 法 律 系 開 設 課 程, 不 得 以 原 學 系 或 外 校 課 程 抵 免 -

BSP 烤箱 - 封面-2

課 程 簡 介 第 一 章 基 本 電 路 理 論 第 二 章 半 導 體 物 理 與 pn 接 面 二 極 體 元 件 分 析 第 三 章 二 極 體 電 路 分 析

55202-er-ch03.doc

教 師 相 關 ( 升 等, 依 業 務 需 002 交 通 管 科 評 鑑, 評 量, 徵,C031, 聘, 各 項 考 試 委 C051,C054, 員, 通 訊 錄 等 ),C057, C058,C063 各 項 會 議 紀 錄 依 業 務 需 C001,, 002,130 交 通 管 科 (

2016年中國語文科試卷三聆聽及綜合能力考核樣本試卷示例及說明

二零零六至零七年施政報告

2 飲 料 調 製 丙 級 技 術 士 技 能 檢 定 必 勝 寶 典 Beverage Modulation Preparation 應 考 綜 合 注 意 事 項 A1 A2 A3 A4 A5 A6 B7 B8 B9 B10 B11 B12 C13

五 四 五 說 ( 代 序 ) 李 澤 厚 劉 再 復 I I II IV V VII 第 一 篇 五 四 新 文 化 運 動 批 評 提 綱 附 論 一 中 國 貴 族 精 神 的 命 運 ( 提 綱 )


包 裝 維 生 素 礦 物 質 類 之 錠 狀 膠 囊 狀 食 品 營 養 標 示 應 遵 行 事 項 一 本 規 定 依 食 品 安 全 衛 生 管 理 法 第 二 十 二 條 第 三 項 規 定 訂 定 之 二 本 規 定 所 稱 維 生 素 礦 物 質 類 之 錠 狀 膠 囊 狀 食 品, 指


業 是 國 家 的 根 本, 隨 著 科 技 的 進 步 與 社 會 的 富 裕, 增 加 肥 料 的 施 用 量 與 農 病 蟲 害 防 治 方 法 的 提 升, 使 得 糧 食 產 量 有 大 幅 的 增 長, 但 不 當 的 農 業 操 作, 如 過 量 的 肥 料 農 藥 施 用 等, 對

一、報考資格: 碩士班:公立或已立案之私立大學或獨立學院或經教育部認可之國外大學畢業生或應屆畢業生,或具報考大學碩士班之同等學力資格,並符合本校各所訂定之條件者

關 於 教 育 部 學 習 拍 立 得 教 育 部 於 (103) 年 度 整 合 各 縣 市 政 府 部 屬 機 構 大 學 及 民 間 的 數 位 資 源 與 服 務, 依 不 同 類 型, 分 別 匯 集 於 教 育 大 市 集 教 育 百 科 教 育 媒 體 影 音 教 育 部 學 習 拍

75 叁 積 木 遊 戲 的 教 學 功 能 一 促 進 體 能 發 展 二 發 展 社 會 技 巧 Ramsey 1991 Beaty 1995 ( ) ( ) ( ) 三 學 習 情 緒 處 理 國 教 之 友 第 59 卷 第 3 期 19

Layout 1

目 錄 頁 1. 歡 迎 使 用 網 上 預 約 面 談 訪 問 系 統 新 用 戶 新 用 戶 登 入 帳 戶 程 序 啟 動 網 上 預 約 面 談 訪 問 帳 戶 核 對 帳 戶 的 地 址 資 料

一、 資格條件:

101年度社會福利方案 網路線上操作手冊

預測練習題.doc

目 錄 一 系 統 登 入... 2 ( 一 ) 系 統 登 入 畫 面... 2 ( 二 ) 首 次 登 入 請 先 註 冊... 3 ( 三 ) 忘 記 單 位 帳 號... 8 ( 四 ) 忘 記 密 碼 ( 五 ) 健 保 卡 更 換 ( 六 ) 重 寄 確 認 信.

連江縣政府所屬學校兼任代課及代理教師聘任實施要點(草案)

期交所規則、規例及程序

2 2.1 A H ir@abchina.com 2

「家加關愛在長青」計劃完成表現及評估報告

Microsoft Word - 小論文-變性狗問卷調查.doc

投影片 1

瑞興銀行

268 別 行 政 區 所 以, 全 國 人 民 代 表 大 會 根 據 憲 法 第 31 條 規 定 設 立 了 特 別 行 政 區 沒 有 憲 法 第 31 條 的 規 定, 就 沒 有 特 別 行 政 區 制 度 存 在 的 合 法 性 基 礎 62 正 如 上 述, 憲 法 為 特 別 行

Microsoft Word - 雲林區_免試平台_國中模擬選填_操作手冊.doc

untitled

附 件 103 年 國 中 教 育 會 考 反 試 場 則 處 理 方 式 覽 表 別 反 試 場 則 事 項 國 英 數 社 自 處 理 方 式 寫 作 測 驗 由 他 人 頂 替 代 考 或 偽 ( 變 ) 造 證 件 應 試 二 脅 迫 其 他 考 生 或 試 務 人 員 協 助 於 考 試

<4D F736F F D20B0EAA5C1A470BEC7BB50B0EAA5C1A4A4BEC7AF5AAFC5BD73A8EEA4CEB1D0C2BEADFBADFBC342BD73A8EEB1F8A4E5B9EFB7D3AAED A14B>


sle cover 1

(DP_MFP_Training

PowerPoint 簡報

iPhone版操作手冊

2010年澳门市民体质监测公报

斷, 讓 每 個 孩 子 在 學 習 過 程 是 跟 自 己 比 較 跟 自 己 競 爭, 以 提 升 個 人 學 習 的 意 願, 讓 學 生 明 確 知 道 自 己 的 學 習 成 果, 而 非 僅 得 知 測 驗 分 數 若 能 完 善 運 用 如 此 有 效 的 資 訊, 相 信 在 十 二

第二組掃描器規範書

玄奘大學 應用心理學系

前 言 民 主 黨 施 政 報 告 建 議 書 民 主 黨 立 法 會 議 員 二 零 零 九 年 九 月

認可人士、註冊結構工程師及註冊岩土工程師作業備考 ADM-6

Microsoft Word - 附件_table

銜 接 與 配 套 其 他 的 應 用, 以 便 銜 接 研 究 的 課 程 Q:107 學 年 度 實 施, 課 程 銜 接 有 無 困 難? 若 有 困 難 如 何 補 救? A:107 學 年 度 十 二 年 國 教 新 課 程 之 實 施, 從 高 中 一 年 級 開 始, 對 學 校 課

Microsoft Word - 附表二

2 工 礦 衛 生 技 師 證 明 文 件 者 火 災 學 消 防 法 規 警 報 系 統 消 防 安 全 設 備 專 技 人 員 專 門 職 業 及 技 術 人 員 高 等 考 試 技 師 考 試 高 考 ( 專 技 ) 專 科 三 高 等 檢 定 相 當 類 科 及 格 者 四 消 防 設 備

(Microsoft Word \245\277\244\361\273P\244\317\244\361.doc)

教育實習問與答:

Transcription:

國 立 交 通 大 學 電 信 工 程 研 究 所 碩 士 論 文 智 慧 型 家 用 機 器 人 使 用 之 語 者 辨 識 系 統 Speaker Recognition System for Intelligent Home Robot 研 究 生 : 吳 宜 樵 指 導 教 授 : 王 逸 如 博 士 中 華 民 國 一 百 年 八 月

智 慧 型 家 用 機 器 人 使 用 之 語 者 辨 識 系 統 Speaker Recognition System for Intelligent Home Robot 研 究 生 : 吳 宜 樵 指 導 教 授 : 王 逸 如 博 士 Student:Yi-Chiao Wu Advisor:Dr. Yih-Ru Wang 國 立 交 通 大 學 電 信 工 程 學 系 碩 士 論 文 A Thesis Submitted to Departmant of Communication Engineering College of Electrical and Computer Engineering National Chiao Tung University in Partial Fulfillment of the Requirements for the Degree of Master of Science in Communication Engineering August 2011 Hsinchu, Taiwan, Republic of China 中 華 民 國 一 百 年 八 月

智 慧 型 家 用 機 器 人 使 用 之 語 者 辨 識 系 統 研 究 生 : 吳 宜 樵 指 導 教 授 : 王 逸 如 博 士 國 立 交 通 大 學 電 信 工 程 研 究 所 碩 士 班 中 文 摘 要 本 研 究 探 討 語 者 辨 識 系 統 於 智 慧 型 家 用 機 器 人 上 以 及 家 用 環 境 內, 所 會 面 臨 的 各 式 使 用 情 境, 並 針 對 情 境 開 發 設 計 我 們 的 語 者 辨 識 系 統 及 註 冊 流 程, 以 期 使 用 者 能 更 方 便 直 覺 地 使 用 本 系 統 此 外, 因 為 家 用 環 境 中 通 常 富 含 各 式 雜 訊, 且 使 用 者 在 使 用 機 器 人 時 必 定 與 機 器 人 有 一 段 距 離, 所 以 將 文 本 獨 立 語 者 辨 識 前 端 整 合 麥 克 風 陣 列 波 束 形 成 和 空 間 濾 波 器 的 技 術, 以 提 高 在 雜 訊 環 境 下 的 強 健 性 另 一 方 面 也 考 慮 到 在 家 用 機 器 人 中, 與 其 他 系 統 整 合 的 可 能 性, 在 系 統 輸 出 端 則 提 供 辨 識 結 果 有 效 與 否 的 判 定 及 信 心 指 數, 以 利 與 其 他 使 用 者 辨 識 系 統 整 合 最 後 為 了 更 貼 近 家 庭 使 用 者 的 使 用 習 慣 與 喜 好, 並 降 低 所 需 註 冊 及 測 試 語 料 的 秒 數, 而 發 展 出 可 用 任 何 語 言 輸 入 註 冊 文 本 資 訊 及 註 冊 語 料 的 文 本 相 關 語 者 辨 識 系 統 I

Speaker Recognition System for Intelligent Home Robot Student:Yi-Chaio Wu Advisor:Dr. Yih-Ru Wang Department of Communication Engineering National Chiao Tung University Abstract In this paper we present a speaker recognition system, which is specifically designed for intelligent home robot. The enrollment procedure of the system is designed to fit home scenarios and make it easier to be used. Besides, the performance of speaker recognition system degrades significantly in home environment because of reverberation, noise and the distant between speakers and microphone array. The spatial information from the microphone array, which couples with beam forming and spatial voice activity detection, makes the system more robust in the noisy environment. On the other hand, our system provides the confidence scores so as to be fused with other recognition results and achieve the integration of user recognition systems. Finally, in order to increase the convenience of using systems and reduce requirements of enrollment and test data, we develop a text-dependent speaker recognition system, which can be used in any language. II

致 謝 僅 以 此 致 謝 記 住 所 有 曾 在 這 趟 旅 途 中, 對 我 而 言 非 常 重 要 的 人 陳 信 宏 老 師 王 逸 如 老 師, 江 振 宇 楊 智 合 黃 信 德 學 長, 吳 文 良 賴 智 誠 許 昱 超 劉 銘 傑 林 彥 邦 劉 冠 驛 鍾 進 竹 等 同 學, 電 信 系 98 級 的 各 位 同 學 好 友, 電 信 所 電 機 系 的 學 長 姐 學 弟 妹, 我 的 家 人 及 所 有 幫 助 過 我 的 人, 沒 有 你 們 我 不 可 能 完 成 這 本 論 文 大 恩 不 言 謝, 大 家 後 會 有 期 III

目 錄 中 文 摘 要... I Abstract... II 致 謝...III 目 錄... IV 表 目 錄... VII 圖 目 錄... VIII 第 一 章 緒 論...1 1.1 研 究 動 機...1 1.2 文 獻 探 討...2 1.2.1 文 本 獨 立 語 者 辨 識...2 1.2.2 文 本 相 關 語 者 辨 識...3 1.2.3 語 者 識 別 與 驗 證...4 1.3 研 究 方 向...7 1.4 章 結 概 要 說 明...7 第 二 章 文 本 獨 立 語 者 辨 認 系 統 簡 介...9 2.1 語 者 辨 認 基 本 系 統...9 2.1.1 參 數 抽 取...9 2.1.2 通 用 背 景 模 型 訓 練...10 2.1.3 語 者 註 冊... 11 2.1.4 語 者 辨 識...13 2.2 整 合 麥 克 風 陣 列...13 2.2.1 波 束 形 成...14 2.2.2 語 音 端 點 偵 測...14 2.3 實 驗 結 果...16 IV

2.3.1 語 者 識 別 實 驗 語 料 及 結 果...16 2.3.2 整 合 麥 克 風 陣 列 實 驗 語 料 與 結 果...18 3.1 語 者 身 分 驗 證 與 信 心 指 數...23 3.1.1 通 用 模 型 正 規 化...24 3.1.2 最 大 值 正 規 化...26 3.1.3 幾 何 平 均 數 正 規 化...27 3.1.4 信 心 指 數 曲 線 及 門 檻 值...29 3.2 實 驗 結 果...30 3.2.1 語 者 驗 證 實 驗 語 料 與 結 果...30 3.2.2 語 者 驗 證 信 心 指 數...44 第 四 章 文 本 相 關 語 者 註 冊 設 計...48 4.1 文 本 相 關 語 者 辨 識 系 統...48 4.1.1 語 者 無 關 聲 學 模 型 之 建 立...48 4.1.2 語 者 註 冊...49 4.1.3 語 者 辨 識...50 4.2 註 冊 流 程 設 計...51 4.2.1 語 音 輸 入 註 冊 資 訊...51 4.2.2 混 合 語 言 註 冊 系 統...53 4.3 實 驗 結 果...53 4.3.1 訓 練 註 冊 與 測 試 語 料...53 4.3.2 基 礎 文 本 相 關 語 者 辨 識 系 統 實 驗...54 4.3.3 語 音 輸 入 註 冊 資 訊 的 語 者 辨 識 系 統 實 驗...56 4.3.4 混 合 語 言 語 者 辨 識 系 統 實 驗...59 第 五 章 結 論 與 未 來 展 望...61 5.1 結 論...61 5.2 未 來 展 望...61 V

參 考 文 獻...62 附 錄 一 : 中 文 通 關 密 碼 文 本...64 附 錄 二 : 英 文 及 台 語 通 關 密 碼 文 本...66 VI

表 目 錄 表 2.1:TCC300 語 料 資 料 統 計 表...16 表 2.2: 語 者 辨 識 基 礎 系 統 辨 識 率...17 表 2.3: 乾 淨 且 經 過 波 束 形 成 註 冊 語 料 辨 識 率...20 表 2.4: 乾 淨 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 之 註 冊 語 料 辨 識 率...21 表 2.5: 環 境 雜 訊 匹 配 辨 識 率...21 表 3.1: 通 用 模 型 正 規 化 法 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 分 數 分 布 統 計...36 表 3.2: 通 用 模 型 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計...38 表 3.3: 最 大 值 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計...40 表 3.4: 幾 何 平 均 數 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計...42 表 3.5:1 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值...44 表 3.6:2 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值...45 表 3.7:3 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值...45 表 3.8: 正 規 化 方 法 誤 判 集 合 匹 配 程 度...46 表 4.1: 基 礎 系 統 文 本 相 關 語 者 辨 識 率...54 表 4.2: 基 礎 文 本 相 關 語 者 驗 證 封 閉 集 合 等 錯 率...55 表 4.3: 基 礎 文 本 相 關 語 者 驗 證 開 放 集 合 等 錯 率...56 表 4.4: 有 文 法 限 制 音 素 序 列 辨 識 器 辨 識 結 果 統 計...57 表 4.5: 語 音 輸 入 註 冊 文 本 資 訊 語 者 辨 識 系 統 辨 識 率...57 表 4.6: 語 音 輸 入 註 冊 文 本 資 訊 語 者 驗 證 封 閉 集 合 等 錯 率...58 表 4.7: 語 音 輸 入 註 冊 文 本 資 訊 語 者 驗 證 開 放 集 合 等 錯 率...58 表 4.8: 新 文 法 限 制 音 素 序 列 辨 識 器 辨 識 結 果 統 計...59 VII

圖 目 錄 圖 2.1: 通 用 背 景 模 型 訓 練 方 塊 圖...10 圖 2.2: 語 者 註 冊 方 塊 圖... 11 圖 2.3: 語 者 辨 識 方 塊 圖...13 圖 2.4: 廣 義 旁 瓣 消 除 器...14 圖 2.5: 語 者 辨 識 基 礎 系 統 辨 識 率...18 圖 2.6: 麥 克 風 陣 列 位 置 圖...19 圖 3.1: 語 者 確 認 系 統...23 圖 3.2: 信 心 指 數 算 法...29 圖 3.3: 通 用 模 型 正 規 化 法 目 標 語 者 與 冒 名 頂 替 者 分 數 分 布...30 圖 3.4: 通 用 模 型 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖...31 圖 3.5: 辨 識 正 確 及 辨 識 錯 誤 分 數 分 布...33 圖 3.6: 通 用 模 型 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖...33 圖 3.7: 最 大 值 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖...34 圖 3.8: 幾 合 平 均 數 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖...34 圖 3.9: 通 用 模 型 正 規 化 法 1 2 3 秒 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 分 數 分 布...36 圖 3.10: 通 用 模 型 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖...37 圖 3.11: 通 用 模 型 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布...38 圖 3.12: 通 用 模 型 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖...39 圖 3.13: 最 大 值 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布...40 圖 3.14: 最 大 值 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖...41 圖 3.15: 幾 何 平 均 數 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布...42 圖 3.16: 幾 何 平 均 數 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖...43 圖 4.1: 聲 學 模 型 之 建 立 流 程...48 VIII

圖 4.2: 文 本 相 關 語 者 註 冊 流 程...49 圖 4.3: 文 本 相 關 語 者 辨 識 流 程...50 圖 4.4: 註 冊 語 料 音 節 辨 識...51 圖 4.5: 註 冊 語 料 調 適...52 圖 4.6: 決 定 最 佳 音 節 辨 識 結 果...52 圖 4.7: 基 礎 文 本 相 關 語 者 驗 證 封 閉 集 合 操 作 者 接 收 曲 線 圖...55 圖 4.8: 基 礎 文 本 相 關 語 者 驗 證 開 放 集 合 操 作 者 接 收 曲 線 圖...56 圖 4.9: 語 音 輸 入 註 冊 文 本 資 訊 語 者 驗 證 封 閉 集 合 操 作 者 接 收 曲 線 圖...57 圖 4.10: 語 音 輸 入 註 冊 文 本 資 訊 語 者 驗 證 開 放 集 合 操 作 者 接 收 曲 線 圖...58 圖 4.11: 混 合 語 言 開 放 集 合 操 作 者 接 收 曲 線 圖 及 等 錯 率...60 IX

第 一 章 緒 論 1.1 研 究 動 機 本 論 文 的 目 的 在 於 能 夠 以 人 為 出 發 點, 發 展 出 人 性 化 的 產 品 而 家 用 環 境 幾 乎 為 每 個 人 共 通 擁 有 的 使 用 情 境, 因 此 如 何 就 目 前 各 項 日 新 月 異 的 科 技 技 術, 確 切 地 發 展 出 符 合 人 們 日 常 家 庭 生 活 需 求 的 產 品, 是 目 前 科 技 發 展 的 重 點 我 們 為 了 能 提 供 不 同 使 用 者 利 用 最 直 覺 的 方 式, 使 用 智 慧 型 家 用 產 品 裡 各 項 客 製 化 的 服 務, 所 以 發 展 語 者 辨 識 系 統, 讓 使 用 者 只 需 透 過 聲 音, 即 可 讓 系 統 得 知 其 身 分, 並 針 對 使 用 者 而 做 出 各 式 各 樣 適 當 的 服 務 最 基 本 的 語 者 辨 識 系 統, 可 以 同 時 做 到 語 者 識 別 (speaker identification) 找 出 可 能 的 語 者 排 名, 以 及 語 者 身 分 驗 證 (speaker verification) 確 認 語 者 是 否 為 其 所 宣 稱 之 人, 並 提 供 信 心 指 數 而 對 於 家 用 環 境 而 言, 使 用 者 辨 識 使 用 的 情 境 環 境 皆 相 當 複 雜 多 變, 因 此 整 合 各 項 技 術 以 提 供 更 貼 近 人 們 生 活 的 服 務 是 必 然 的 趨 勢 例 如 將 語 者 辨 識 與 語 音 辨 識 系 統 整 合, 對 語 音 辨 識 系 統 提 供 語 者 資 訊, 以 增 加 其 對 於 已 知 使 用 者 情 況 下 的 辨 識 率 ; 亦 或 是 藉 由 語 者 辨 識 結 合 人 臉 辨 識 系 統, 以 發 展 更 具 強 健 性 的 使 用 者 辨 識 系 統 ; 更 進 一 步 還 可 與 各 種 個 人 工 具 軟 體 結 合, 提 供 使 用 者 客 製 化 服 務 此 外 將 使 用 範 圍 擴 大 到 真 實 生 活 中, 許 多 為 了 安 全 或 是 便 利 等 因 素 的 情 境, 例 如 : 車 內 環 境, 多 人 的 會 議 室, 麥 克 風 通 常 擺 放 在 固 定 位 置, 離 每 個 使 用 者 皆 有 一 段 距 離, 因 此 本 論 文 將 前 端 將 整 合 麥 克 風 陣 列 及 波 束 形 成 (beam forming) 系 統, 並 藉 由 探 討 如 何 處 理 經 過 麥 克 風 陣 列 及 波 束 形 成 系 統 的 語 料, 以 期 能 讓 系 統 在 一 般 環 境 下 能 有 不 錯 的 辨 識 率, 而 未 來 還 能 更 進 一 步 地 應 用 在 例 如 : 會 議 時 不 同 語 者 的 語 音 歸 檔 ; 車 內 空 間 時, 駕 駛 與 其 他 成 員 的 聲 控 系 統 ; 家 內 環 境, 每 個 家 庭 成 員 所 需 客 製 化 的 服 務 提 供 等 實 際 情 況 中 1

1.2 文 獻 探 討 1.2.1 文 本 獨 立 語 者 辨 識 文 本 獨 立 (text independent) 語 者 辨 識 的 技 術 有 三 個 主 要 的 分 類 1, 第 一 類 也 是 最 早 的 技 術 為 使 用 長 期 統 計 (long term statistic) 的 語 音 參 數, 例 如 頻 譜 或 是 音 調 等 做 為 辨 識 依 據 其 概 念 在 於 將 除 了 語 者 相 關 的 聲 學 因 子, 其 他 像 是 不 同 音 節 等 所 造 成 的 聲 學 差 異 藉 由 平 均 的 方 式 消 除 掉, 只 留 下 代 表 語 者 平 均 聲 道 (vocal tract) 形 狀 的 長 期 頻 譜 平 均 值 等 語 者 相 關 的 聲 學 參 數 然 而 其 壞 處 在 於 需 要 相 當 長 的 註 冊 語 料 去 產 生 穩 定 的 長 期 統 計 模 型, 且 丟 棄 了 許 多 聲 學 上 有 用 的 語 者 資 訊 第 二 類 技 術 為 將 註 冊 語 料 分 為 幾 個 語 音 單 元, 並 由 這 些 單 元 的 語 音 參 數 來 為 每 位 語 者 訓 練 各 自 的 語 者 模 型, 而 在 辨 識 時 藉 由 比 較 測 試 語 料 中 每 群 語 音 單 元 的 與 每 個 語 者 模 型 中 相 對 應 語 音 單 元 的 相 似 度, 來 分 辨 測 試 語 料 屬 於 哪 一 個 語 者 此 技 術 又 可 以 再 細 分 為 兩 種 不 同 的 切 割 語 音 單 元 的 方 式, 分 別 為 顯 式 分 段 (explicit segmentation) 與 隱 式 分 段 (implicit segmentation) 顯 式 分 段 為 在 註 冊 或 辨 識 前, 就 先 做 語 音 辨 識 並 以 辨 識 結 果 切 割 出 每 個 語 音 單 元, 但 在 1 裡 提 到 先 做 語 音 辨 識 不 僅 增 加 計 算 量, 且 對 於 語 者 辨 識 的 幫 助 不 大, 因 此 在 文 本 獨 立 的 語 者 辨 識 範 圍 裡, 比 較 常 用 的 是 隱 式 分 段 的 方 法 隱 式 分 段 是 在 訓 練 或 辨 識 前 用 非 監 督 式 分 類 法 (unsupervised clustering) 做 語 音 單 元 切 割, 而 每 個 分 類 是 沒 有 標 籤 的, 所 以 並 不 需 要 依 標 籤 個 別 訓 練 模 型 而 隱 式 分 段 下 又 有 幾 種 形 式, 像 是 分 類 樣 板 形 式 的 向 量 量 化 編 碼 (vector quantization, VQ), 就 是 將 每 個 語 音 單 元 所 得 的 語 音 參 數 做 分 群, 並 用 記 錄 每 群 頻 譜 樣 版 的 碼 本 (codebook) 來 代 表 語 者, 也 就 是 每 位 語 者 的 語 音 參 數 用 其 碼 本 去 量 化 會 有 最 小 的 量 化 誤 差, 並 以 此 條 件 來 做 語 者 辨 識 向 量 量 化 雖 然 在 有 限 詞 彙 裡 的 語 者 辨 識 效 果 不 錯, 但 因 其 本 質 較 難 以 去 代 表 每 群 內 在 真 實 情 況 裡 的 變 異, 所 以 在 較 大 詞 彙 噪 音 環 境 或 是 有 通 道 效 應 的 文 本 獨 立 語 者 辨 識 裡, 我 們 通 常 使 用 機 率 模 型 去 提 供 一 較 佳 聲 學 模 型, 2

例 如 高 斯 混 和 模 型 (Gaussian mixture model, GMM) 或 是 隱 藏 式 馬 可 夫 模 型 (hidden Markov model, HMM) 就 常 應 用 於 文 本 獨 立 或 文 本 相 關 的 語 者 辨 識 第 三 類 技 術 為 使 用 鑑 別 式 類 神 經 網 路 (discriminative neural network), 其 特 點 在 於 並 非 為 每 位 註 冊 語 者 訓 練 各 自 的 語 者 模 型, 而 是 找 出 分 辨 出 所 有 註 冊 語 者 最 佳 決 策 方 程 式 而 其 好 處 在 於 相 對 於 為 每 位 語 者 各 自 訓 練 模 型, 可 以 使 用 較 少 的 參 數, 但 卻 達 到 差 不 多 辨 識 率 但 其 缺 點 在 於, 每 當 加 入 新 的 註 冊 語 者, 則 整 個 辨 識 模 型 都 要 重 新 訓 練 產 生 而 在 本 篇 論 文 裡 我 們 選 用 屬 於 第 二 類 中 隱 式 分 段 的 高 斯 混 和 模 型 來 當 作 我 們 的 語 者 模 型, 因 為 在 1 裡 面 有 提 到, 高 斯 混 和 模 型 是 大 家 非 常 熟 悉 的 且 簡 單 的 模 型, 所 以 在 計 算 上 相 當 的 方 便 另 一 方 面 高 斯 混 和 模 型 可 以 簡 單 的 用 來 模 擬 任 何 機 率 分 布, 且 即 使 原 本 的 機 率 分 布 因 資 料 量 較 小 而 不 平 滑, 也 可 以 透 過 用 高 斯 混 和 模 型 模 擬 的 方 式 使 其 平 滑 此 外, 許 多 語 者 相 關 的 聲 學 特 性, 以 及 真 實 地 反 映 人 類 口 腔 等 不 同 的 特 性, 可 以 用 高 斯 混 和 模 型 簡 單 的 去 代 表 因 為 是 即 時 系 統, 所 以 不 可 能 有 大 量 的 訓 練 語 料, 但 很 多 語 音 基 礎 的 特 性 因 為 訓 練 語 料 的 稀 少, 而 無 法 全 部 涵 蓋, 使 得 我 們 的 語 者 模 型 無 法 正 確 的 代 表 出 語 者 相 關 與 語 者 共 通 不 同 的 特 性, 且 少 量 語 料 可 能 對 模 型 造 成 過 適 (over fitting) 的 現 象, 這 些 缺 點 都 會 對 辨 識 率 造 成 很 大 的 影 響 為 了 解 決 此 一 問 題, 在 2 裡 面 提 到 了, 在 系 統 建 立 前, 用 相 對 大 量 的 訓 練 語 料 先 行 訓 練 一 個 通 用 背 景 模 型 (universal background model, UBM), 此 模 型 涵 蓋 了 大 部 分 語 者 共 同 的 聲 學 特 性, 而 在 系 統 要 註 冊 語 者 時, 再 用 最 大 事 後 機 率 法 則 (maximum a posteriori probability, MAP) 調 適 通 用 背 景 模 型 成 為 每 位 語 者 各 自 的 高 斯 混 和 模 型, 如 此 語 者 模 型 不 但 包 含 語 者 本 身 的 聲 學 特 性 也 包 含 語 者 間 共 通 的 聲 學 特 性 1.2.2 文 本 相 關 語 者 辨 識 文 本 相 關 (text dependent) 語 者 辨 識 因 為 其 準 確 性 與 針 對 性, 是 目 前 在 商 業 化 應 用 上 最 被 廣 泛 使 用 的 語 者 辨 識 技 術 在 3 裡 面 提 到, 傳 統 的 文 本 相 關 語 3

者 辨 識 技 術 可 以 分 為 兩 類 第 一 類 為 動 態 時 軸 校 準 (dynamic time warping, DTW), 最 典 型 的 方 法 是 由 Furui 在 1981 年 提 出 的 頻 譜 樣 版 比 對 (spectral template matching approach), 用 一 序 列 的 特 徵 參 數 向 量 去 做 為 每 位 語 者 的 樣 板, 並 在 測 試 時 藉 由 比 對 測 試 語 料 的 特 徵 參 數 向 量 序 列 與 每 位 註 冊 語 者 特 徵 參 數 向 量 序 列 樣 版 的 距 離, 決 定 辨 識 的 結 果 ; 第 二 類 為 隱 藏 式 馬 可 夫 模 型, 在 3 4 裡 都 提 到 本 質 上 隱 藏 式 馬 可 夫 模 型 不 是 直 接 使 用 特 徵 參 數 向 量 序 列 做 為 樣 板, 而 是 對 語 言 中 基 本 的 音 節 或 音 素 訓 練 成 包 含 多 個 由 高 斯 混 和 模 型 組 成 的 狀 態, 且 狀 態 之 間 有 方 向 性 及 轉 移 機 率 的 一 序 列 語 音 模 型, 所 以 較 不 易 受 到 說 話 快 慢 等 因 素 的 影 響, 比 起 動 態 時 軸 校 準 更 能 有 效 率 的 去 代 表 文 字 相 關 的 聲 學 模 型 1.2.3 語 者 識 別 與 驗 證 語 者 辨 識 系 統 主 要 可 分 為 兩 個 基 礎 功 能, 分 別 為 語 者 識 別 及 語 者 驗 證 3 語 者 識 別 就 是 在 一 個 已 知 的 註 冊 語 者 模 型 集 合 內, 找 出 測 試 語 料 最 有 可 能 來 自 的 那 位 語 者, 所 以 又 稱 為 封 閉 集 合 (closed set) 辨 識 而 語 者 驗 證 則 為 確 認 使 用 者 是 否 為 其 所 宣 稱 之 語 者, 而 冒 名 頂 替 的 使 用 者 (impostor) 有 可 能 是 我 們 已 知 集 合 的 其 它 語 者, 或 是 來 自 於 已 知 集 合 之 外, 所 以 又 稱 為 開 放 集 合 (open set) 辨 識 而 其 實 兩 個 功 能 也 可 以 看 成 同 一 個 問 題, 也 就 是 每 當 有 使 用 者 辨 識 時, 系 統 除 了 已 知 註 冊 語 者 之 外 還 多 了 一 個 非 已 知 註 冊 語 者 的 選 項 而 在 5 7 裡 都 提 到 任 何 的 驗 證 問 題, 皆 可 視 為 統 計 假 設 檢 定 (statistical hypothesis testing) 統 計 假 設 一 般 有 兩 種 形 式, 其 一 為 虛 無 假 設 (null hypothesis) 是 我 們 欲 證 明 其 為 錯 的 假 設, 以 H 0 表 示 ; 另 一 為 對 立 假 設 (alternative hypothesis) 是 虛 無 假 設 的 反 面, 以 H 1表 示 而 我 們 必 須 找 出 足 夠 的 證 據 否 定 H 0, 否 則 就 接 受 H 0 為 真 而 在 7 裡 也 提 到 不 管 是 在 語 者 辨 識 或 是 語 音 辨 識, 我 們 都 必 須 要 做 離 群 值 偵 測 (outlier rejection), 對 語 者 辨 識 而 言 就 是 驗 證 是 否 為 冒 名 頂 替 的 使 用 者 一 般 辨 識 系 統 通 常 分 成 兩 個 階 段, 第 一 階 段 先 將 測 試 資 料 做 模 式 分 類 (pattern classification), 第 二 階 段 再 做 離 群 值 檢 測 所 以 套 用 到 語 者 辨 識 系 統 4

裡, 則 首 先 找 出 與 測 試 語 料 最 相 似 的 已 註 冊 語 者 模 型, 接 著 驗 證 其 是 否 真 的 為 這 個 語 者 ( 屬 於 這 個 分 群, H 0 ), 亦 或 是 冒 名 頂 替 的 使 用 者 ( 離 群 值, H 1 ) 此 外 7 裡 提 到 在 我 們 得 知 H 0 H 1 的 機 率 分 布 的 前 提 下, 根 據 奈 曼 - 皮 爾 生 引 理 (Neyman - Pearson lemma), 最 佳 解 為 使 用 概 似 比 檢 測 (likelihood ratio test, LRT) 概 似 比 檢 測 的 意 義 在 於, 比 較 兩 種 模 型 何 者 較 適 合 詮 釋 我 們 的 統 計 資 料, 應 用 在 語 者 辨 識 上, 則 是 比 較 此 語 者 的 模 型 與 非 此 語 者 的 模 型 何 者 與 我 們 的 測 試 語 料 較 相 近 因 此 其 決 策 原 則 (decision rule) 就 是 px ( λhyp ) > η, X H px ( λ ) η, X H hyp 0 1 (1-1) 而 寫 成 對 數 型 式 則 為 ( X) log p( X λhyp ) log p( X λhyp ) Λ = (1-2) 而 一 般 情 況 中 H 0 模 型 容 易 得 到, 也 就 是 我 們 的 語 者 模 型, 但 要 估 計 H 1模 型 卻 很 困 難, 我 們 無 法 取 得 足 夠 的 資 料 去 完 全 估 計 H 1模 型, 而 在 2 6 7 裡 提 到, 有 兩 種 主 要 的 方 法 去 估 計 H 1 模 型, 第 一 種 以 通 用 背 景 模 型 來 代 表, 因 此 我 們 將 語 者 辨 識 結 果 所 得 到 的 對 數 概 似 值 減 去 語 料 對 於 通 用 背 景 模 型 的 對 數 概 似 值, 才 是 我 們 概 似 比 檢 測 的 分 數 而 η 一 般 經 由 大 量 的 實 驗 結 果, 畫 出 接 收 者 操 作 特 徵 (receiver operating characteristic, ROC) 曲 線, 並 依 此 訂 定 信 心 指 數 在 9 裡 面 稱 此 方 法 為 通 用 模 型 正 規 化 (World model normalization, WMN), 其 主 要 的 精 神 在 於 冒 名 頂 替 的 使 用 者 語 料 對 於 目 標 語 者 模 型 (target speaker model) 與 通 用 背 景 模 型 的 分 數 差 距, 應 該 是 小 於 目 標 語 者 的 語 料 對 於 目 標 語 者 模 型 與 通 用 背 景 模 型 的 分 數 差 距 而 使 用 通 用 背 景 模 型 的 好 處, 在 於 只 需 訓 練 一 個 通 用 背 景 模 型, 即 可 代 表 所 有 或 某 一 特 定 集 合 目 標 語 者 的 對 比 假 設 模 型, 且 另 一 方 面 此 通 用 模 型 還 可 以 用 於 調 適 語 者 模 型 的 辨 識 系 統 裡 第 二 種 方 法 則 是 使 用 一 非 目 標 語 者 的 語 者 模 型 集 合 去 代 表 H 1, 而 這 集 合 一 般 可 稱 為 同 儕 集 合 (cohort set) 概 似 比 集 合 (likelihood ratio sets) 或 背 景 語 者 5

(background speakers) 2 同 儕 集 合 又 可 分 為 兩 類, 第 一 類 為 封 閉 同 儕 集 合 (closed cohort set), 假 設 我 們 現 在 有 20 位 已 註 冊 語 者, 則 每 一 個 語 者 模 型 其 封 閉 同 儕 集 合 則 為 其 他 19 個 語 者 模 型, 也 就 是 對 於 目 標 語 者 而 言, 其 他 19 位 已 註 冊 語 者 為 冒 名 頂 替 的 使 用 者 ; 第 二 類 為 開 放 同 儕 集 合 (open cohort set), 如 果 我 們 現 在 有 20 位 已 註 冊 位 語 者, 則 每 個 語 者 模 型 其 開 放 同 儕 集 合 皆 不 與 這 20 個 已 註 冊 語 者 模 型 重 疊, 也 就 是 對 於 目 標 語 者 而 言, 所 有 非 註 冊 語 者 為 冒 名 頂 替 的 使 用 者 應 用 到 語 者 辨 識 系 統 上, 則 為 系 統 所 面 對 的 兩 類 問 題, 第 一 類 為 已 註 冊 語 者 使 用 時, 其 辨 識 結 果 的 正 確 性 ; 第 二 類 為 非 註 冊 語 者 使 用 時, 系 統 是 否 可 偵 測 出 其 為 冒 名 頂 替 的 使 用 者 兩 種 方 法 的 比 較 上, 因 為 目 標 語 者 與 冒 名 頂 替 的 使 用 者 對 於 一 包 含 完 整 語 音 特 性 的 通 用 背 景 模 型 所 得 之 分 數 差 異 較 小, 因 此 用 同 儕 集 合 來 估 計 H 1 模 型, 或 許 能 估 計 得 較 細 微, 而 有 較 好 的 分 辨 效 果 而 在 10 裡 面 也 提 到, 較 有 參 考 價 值 的 同 儕 集 合 是 那 些 與 我 們 的 目 標 語 者 模 型 較 靠 近 的 模 型, 因 其 帶 有 較 大 的 資 訊 量, 較 能 做 為 我 們 檢 測 的 依 據 在 11 裡 面 則 提 到, 同 儕 集 合 人 數 數 量 在 10 個 人 以 下, 等 錯 率 (equal error rate,eer) 是 小 於 通 用 背 景 模 型, 而 在 15 個 人 以 後 則 高 於 通 用 背 景 模 型 因 人 數 太 多 反 而 造 成 混 淆, 語 者 模 型 之 間 的 關 係 變 得 複 雜, 所 以 反 而 不 如 用 通 用 背 景 模 型 來 得 好 在 6 裡 面 也 提 到, 同 儕 集 合 大 小 的 選 法, 是 根 據 最 大 概 似 法 則 來 選 擇, 假 設 我 們 希 望 用 一 大 小 為 M 的 同 儕 集 合 來 估 計 H 1 模 型, 則 找 出 在 同 儕 集 合 中 最 接 近 目 標 語 者 的 M 個 模 型 做 為 同 儕 集 合 而 同 儕 集 合 的 大 小 對 於 開 放 同 儕 集 合 的 影 響 較 封 閉 同 儕 集 合 顯 著, 封 閉 同 儕 集 合 的 等 錯 率 隨 著 同 儕 集 合 內 語 者 模 型 的 數 量 上 升, 很 快 即 達 到 一 收 斂 值, 且 等 錯 率 與 模 型 數 量 少 時 差 別 不 大 此 外 8 9 裡 都 提 到 了 測 試 分 數 正 規 化 (testing normalization, T-norm) 與 平 均 值 正 規 化 (zero mean normalization, Z-norm) 平 均 值 正 規 化 是 在 系 統 運 作 前 利 用 同 儕 集 合 的 語 料 當 作 冒 名 頂 替 使 用 者 的 語 料, 訓 練 出 用 來 正 規 化 的 平 均 值 6

及 標 準 差, 目 的 是 希 望 能 獲 得 較 好 的 整 體 臨 界 值 (global threshold)η 而 測 試 分 數 正 規 化 則 是 在 系 統 運 作 時, 利 用 同 儕 集 合 裡 的 語 者 模 型 當 作 冒 名 頂 替 使 用 者 的 模 型, 並 使 測 試 語 料 經 過 冒 名 頂 替 使 用 者 的 模 型, 訓 練 出 用 來 正 規 化 的 平 均 值 及 標 準 差, 目 的 是 希 望 藉 此 找 出 目 標 語 者 模 型 與 冒 名 頂 替 使 用 者 的 模 型 之 間 的 距 離 是 否 夠 遠, 又 或 是 多 少 的 距 離 才 算 是 夠 遠 而 在 8 裡 面 也 提 到, 測 試 分 數 正 規 化 與 平 均 值 正 規 化 相 比 的 好 處 就 是 不 會 有 訓 練 語 料 及 測 試 語 料 間, 可 能 因 麥 克 風 環 境 等 因 素 而 造 成 不 匹 配 的 問 題 1.3 研 究 方 向 本 論 文 目 標 為 將 系 統 建 構 在 一 般 家 用 個 人 電 腦 上, 包 含 完 整 的 語 者 註 冊 及 語 者 辨 識 功 能, 且 搭 配 設 計 過 的 註 冊 流 程 及 文 本, 使 其 能 輕 易 的 與 其 他 需 要 得 知 使 用 者 身 分 的 軟 體 整 合 基 礎 系 統 為 文 本 獨 立 語 者 辨 識 系 統, 每 位 註 冊 語 者 在 註 冊 時, 將 系 統 內 的 通 用 背 景 模 型 調 適 成 語 者 各 自 的 高 斯 混 和 模 型 辨 識 時, 則 用 最 大 概 似 機 率 (maximum likelihood) 法 則, 找 出 最 有 可 能 辨 識 結 果, 並 提 供 本 次 測 試 是 否 達 有 效 測 試 門 檻 及 其 信 心 指 數 語 者 辨 識 系 統 前 端 與 麥 克 風 陣 列 及 波 束 形 成 (beam forming) 系 統 整 合, 並 測 驗 其 在 各 種 情 況 下 的 辨 識 率, 以 期 能 增 加 語 者 辨 識 系 統 的 強 鍵 性 接 著 本 論 文 為 更 進 一 步 增 強 使 用 者 與 系 統 的 互 動 關 係, 且 引 入 同 樣 常 用 於 使 用 者 身 分 辨 識 的 通 關 密 碼, 將 使 用 隱 藏 式 馬 可 夫 模 型 發 展 文 本 相 關 語 者 辨 識 系 統, 使 用 者 可 以 用 任 意 姓 名 註 冊 或 是 替 系 統 取 名 字, 並 藉 由 此 特 殊 通 關 密 碼 來 做 語 者 辨 識 1.4 章 結 概 要 說 明 本 論 文 的 內 容 共 分 為 五 章 : 第 一 章 緒 論 : 介 紹 本 論 文 之 研 究 動 機 研 究 方 向 語 者 辨 認 的 基 礎 方 法 第 二 章 文 本 獨 立 語 者 識 別 系 統 簡 介 : 介 紹 本 論 文 的 文 本 獨 立 語 者 識 別 系 統 7

及 其 實 驗 數 據 第 三 章 文 本 獨 立 語 者 確 認 系 統 簡 介 : 介 紹 本 論 文 的 文 本 獨 立 語 者 確 認 系 統 使 用 之 方 法 及 其 實 驗 數 據 第 四 章 文 本 相 關 語 者 註 冊 設 計 : 介 紹 基 於 文 本 相 關 語 者 辨 識 系 統, 所 設 計 之 註 冊 流 程 第 五 章 結 論 與 未 來 展 望 8

第 二 章 文 本 獨 立 語 者 辨 認 系 統 簡 介 文 本 獨 立 語 者 辨 認 為 最 基 礎 的 語 者 辨 認 系 統, 可 以 廣 泛 地 應 用 於 各 種 情 況 本 章 將 描 述 本 論 文 所 使 用 之 文 本 獨 立 語 者 辨 認 系 統, 以 及 為 了 適 應 家 用 環 境 場 而 將 麥 克 風 陣 列 整 合 入 系 統 2.1 節 介 紹 本 研 究 所 採 用 的 使 用 最 大 事 後 機 率 法 則 調 適 語 者 通 用 模 型 的 語 者 辨 認 系 統 ;2.2 節 介 紹 基 礎 系 統 前 端 整 合 線 性 麥 克 風 陣 ; 2.3 節 介 紹 語 者 識 別 及 整 合 麥 克 風 陣 列 實 驗 結 果 2.1 語 者 辨 認 基 本 系 統 整 個 語 者 辨 識 系 統 主 要 可 分 為 註 冊 及 辨 識 兩 個 階 段, 而 註 冊 又 包 含 了 背 景 通 用 模 型 的 訓 練 及 註 冊 語 者 模 型, 本 節 將 依 序 介 紹 參 數 抽 取 註 冊 及 辨 識 2.1.1 參 數 抽 取 梅 爾 倒 頻 係 數 (Mel-frequency cepstrum coefficients, MFCCs), 因 為 其 接 近 人 耳 對 語 音 區 別 性 的 特 性, 所 以 在 語 音 或 語 者 辨 識 系 統 裡 被 普 遍 地 使 用 而 本 論 文 為 了 在 即 時 系 統 裡 可 以 有 基 本 的 抗 噪 效 果, 因 此 將 所 求 出 的 梅 爾 倒 頻 係 數 再 經 過 RASTA 濾 波 器 處 理, 詳 細 過 程 如 下 : 我 們 由 麥 克 風 收 錄 取 樣 頻 率 8000 赫 茲 (Hertz) 取 樣 位 元 數 為 16 位 元 的 語 料, 音 框 大 小 (frame size) 取 240 點 音 框 位 移 (frame shift) 取 80 點, 首 先 將 語 音 訊 號 做 預 強 處 理 (pre-emphasis), 如 下 式 所 示 : p 1 ( ) 1 α H z = z (2-1) 其 中 為 了 降 低 運 算 量, 令 α=0.9375=1-2 -4 接 著 做 256 點 的 快 速 傅 立 葉 (FFT) 轉 換 將 訊 號 轉 至 頻 域, 然 後 通 過 一 組 20 個 三 角 帶 通 濾 波 器 (triangular band pass filter), 再 經 餘 弦 轉 換 (discrete cosine transform) 後 得 到 12 維 的 梅 爾 倒 頻 係 數 之 後 將 倒 頻 係 數 通 過 RASTA 濾 波 器 : ( ) H z = 0.1z r 4 2+ z z 2z 1 1 0.98z 9 1 3 4 (2-2)

因 為 特 徵 參 數 軌 跡 (time sequence of spectral parameter) 低 頻 部 份 通 常 受 到 通 道 效 應 汙 染 較 為 嚴 重, 而 RASTA 為 一 帶 通 濾 波 器 可 用 來 壓 抑 特 徵 參 數 軌 跡 的 低 頻 部 份, 使 其 能 達 成 去 除 部 分 通 道 效 應 的 目 的 最 後 求 得 26 維 的 語 音 特 徵 參 數, 包 含 了 12 維 的 RASTA-based MFCC,12 維 一 階 差 量 RASTA-based MFCC 1 維 一 階 差 量 log energy 以 及 1 維 二 階 差 量 log energy 2.1.2 通 用 背 景 模 型 訓 練 Speaker 1 training data... Feature extraction VQ LBG EM UBM Speaker N training data 圖 2.1: 通 用 背 景 模 型 訓 練 方 塊 圖 一 般 的 文 本 獨 立 語 者 辨 識 系 統 是 利 用 高 斯 混 合 模 型 來 做 為 每 一 個 語 者 之 語 音 參 數 分 布 統 計 模 型, 但 是 通 常 無 法 對 每 位 語 者 都 取 得 大 量 的 註 冊 語 料, 所 以 先 訓 練 一 個 通 用 背 景 模 型, 並 使 通 用 背 景 模 型 盡 可 能 涵 蓋 語 音 信 號 中 所 有 音 素, 以 求 其 能 真 正 表 現 出 語 音 訊 號 的 語 者 無 關 的 特 性, 再 將 通 用 背 景 模 型 調 適 為 每 位 語 者 的 語 音 參 數 分 布 模 型, 如 此 可 避 免 單 一 語 者 訓 練 及 測 試 語 料 涵 蓋 音 素 不 同 時, 效 能 下 降 的 問 題 如 2 裡 所 示, 一 般 論 文 通 常 用 512 維 或 是 1024 維 的 通 用 背 景 模 型, 而 每 位 語 者 再 由 其 中 挑 選 64 維 對 於 註 冊 語 料 概 似 值 較 高 的 高 斯 分 布 代 表, 但 在 本 文 系 統 中 為 了 降 低 運 算 量, 通 用 背 景 模 型 直 接 訓 練 為 64 維 具 體 訓 練 過 程 如 圖 2.1 所 示, 先 將 TC300 語 料 庫 中 300 位 語 者, 每 位 取 24 秒 訓 練 語 料 抽 成 語 音 參 數 後, 做 向 量 量 化 編 碼 做 為 64 維 通 用 背 景 模 型 的 初 始 值, 再 依 據 LBG (Linde-Buzo-Gray) 演 算 法 反 覆 更 新 碼 本 直 到 收 斂 為 止 最 後 再 使 用 最 大 期 望 (Expectation-Maximization, EM) 演 算 法 對 模 型 各 項 參 數 做 調 適 10

2.1.3 語 者 註 冊 UBM Speaker adaptation data Feature extraction MAP adaptation Speaker model 圖 2.2: 語 者 註 冊 方 塊 圖 如 圖 2.2 所 示, 每 位 使 用 者 註 冊 時, 用 系 統 麥 克 風 錄 下 24 秒 註 冊 語 料, 語 料 經 過 特 徵 參 數 抽 取 為 26 維 RASTA 參 數 後, 對 預 先 訓 練 好 存 在 系 統 中 的 64 維 通 用 背 景 模 型, 進 行 最 大 事 後 機 率 調 適 為 使 用 者 的 64 維 語 者 高 斯 混 和 模 型 儲 存 於 系 統 中, 並 更 新 註 冊 名 單 以 完 成 註 冊 假 設 我 們 要 依 觀 察 到 的 資 料 x 去 評 估 一 未 知 的 母 體 參 數 (unobserved population parameter)θ, 而 資 料 x 的 抽 樣 分 布 (sampling distribution) 為 f () 且 存 在 一 θ 的 事 前 分 布 (prior distribution) g(), 則 θ 的 事 後 分 布 可 表 示 為 : f( θ x) = θ Θ f( x θ) g( θ) f( x θ ) g( θ ) dθ (2-3) Θ 為 g() 的 定 義 域 而 最 大 事 後 機 率 法 則 可 表 示 為 : ˆ f( x θ) g( θ) θmap ( x) = argmax = argmax f( x θ) g( θ) θ f( x θ ) g( θ ) dθ θ θ Θ (2-4) 而 在 本 論 文 中 最 大 事 後 機 率 調 適 法 則 的 做 法 是 首 先 計 算 註 冊 語 料 對 於 通 用 背 景 模 型 中 每 一 個 高 斯 分 布 的 充 份 統 計 量 (sufficient statistics), 接 著 用 新 的 充 份 統 計 量 及 新 的 高 斯 混 和 模 型 參 數 去 更 新 通 用 背 景 模 型 裡 包 含 舊 的 充 份 統 計 量 資 訊 的 各 項 參 數, 更 新 的 方 法 為 以 一 定 的 比 例 混 合 新 的 參 數 及 舊 的 參 數, 比 例 則 是 由 一 資 料 相 關 的 係 數 α 決 定 α 與 新 的 充 分 統 計 量 成 正 比, 代 表 每 一 個 高 斯 分 布 新 的 充 份 統 計 量 的 可 信 度, 如 果 充 分 統 計 量 越 高, 則 越 多 的 註 冊 語 料 落 在 這 一 個 高 斯 11

分 布, 可 信 度 越 高, 新 參 數 占 得 比 例 也 越 重 具 體 的 調 適 過 程 如 下 : D dimensional feature vector X, D 1 feature vector µ i, D D covariance matrix Σ i, 因 此 高 斯 分 布 機 率 為 1 1 p ( X) = exp X Σ X Σ 2 ( 2π ) 1 ( µ ) ( ) ( µ ) i D/2 1/2 i i i i (2-5) 而 高 斯 混 和 模 型 和 通 用 背 景 模 型 皆 為 mixtures M, feature vector X { x x } = 1,..., T, 我 們 得 到 Pr ( i x ) t = M j= 1 wp ( x) i i t wp j j ( x) t (2-6) 接 著 利 用 Pr ( i x ) t 及 方 差 (variance): 和 x t 得 到 每 一 個 高 斯 分 布 的 充 分 計 算 量 跟 新 的 平 均 值 (mean) i T t= 1 T ( i x ) n = Pr (2-7) i t t n i t = 1 T 2 1 2 i( ) = Pr ( t) t n i t = 1 t 1 E ( x) = Pr ( i x ) x (2-7) E x i x x (2-9) 為 了 控 制 新 參 數 語 就 參 數 的 平 衡, 我 們 利 用 充 份 統 計 量 及 比 例 因 子 γ 來 計 算 調 適 系 數 α ( 用 於 權 重 ) α ( 用 於 平 均 值 ) α ( 用 於 方 差 ) 因 為 在 2 中 提 到 w i m i 三 個 調 適 系 數 找 出 各 自 的 最 佳 值 與 共 用 一 個 值 對 結 果 影 響 的 程 度 微 乎 其 微, 所 以 本 系 統 將 三 個 調 適 系 數 設 為 一 致, 且 比 例 因 子 γ 設 為 經 驗 法 則 所 得 到 的 常 數 16 α = α = α = α = v i n w m v i i i i i ni + γ (2-10) 得 到 調 適 系 數 後, 根 據 下 列 算 式, 我 們 就 可 以 得 到 新 的 高 斯 混 和 模 型 參 數 : w α n = + T ( 1 α ) w new i i i i i ( x) ( 1 ) new i i i i i (2-11) µ = α E + α µ (2-12) 12

new 2 2 2 new ( σi ) αiei( x ) ( 1 αi)( σ i µ i ) ( µ i ) 2 2 = + + (2-13) 然 後 因 為 我 們 假 設 高 斯 混 和 模 型 的 每 一 個 高 斯 分 布 之 間 是 獨 立 的, 所 以 他 們 的 協 方 差 矩 陣 (covariance matrix) 是 一 對 角 矩 陣, 所 以 展 開 後 是 一 連 串 相 乘, 而 取 對 數 之 後 是 連 加 : 26 1 2 det = log ( σ d ) (2-14) 2 13 d = 1 而 這 些 新 的 參 數 則 組 成 新 註 冊 語 者 的 高 斯 混 和 模 型 2.1.4 語 者 辨 識 Testing data Feature extraction Speaker 1 model... Speaker N model 圖 2.3: 語 者 辨 識 方 塊 圖 M A X Result Score Confident measure 如 圖 2.3 所 示, 辨 識 時 使 用 者 用 系 統 麥 克 風 錄 下 任 意 秒 數 的 測 試 語 料 語 料 經 過 特 徵 參 數 抽 取 為 26 維 RASTA 參 數 後, 對 存 在 系 統 中 的 每 個 語 者 模 型 計 算 概 似 值 (likelihood), 並 找 出 最 大 概 似 值 (maximum likelihood) 的 語 者 模 型 當 作 辨 識 結 果 系 統 輸 出 辨 識 結 果 排 名, 最 大 概 似 值 分 數 以 及 信 心 指 數, 而 信 心 指 數 的 算 法 將 在 第 三 章 詳 細 介 紹 2.2 整 合 麥 克 風 陣 列 考 慮 系 統 實 際 應 用 的 環 境 中, 必 然 會 受 到 環 境 雜 訊 的 干 擾, 因 此 我 們 嘗 試 將 系 統 前 端 輸 入 由 原 本 的 單 一 麥 克 風 改 為 由 四 支 麥 克 風 組 成 的 線 性 麥 克 風 陣 列, 並 藉 由 麥 克 風 陣 列 所 提 供 的 空 間 資 訊 加 入 波 束 形 成 技 術, 使 得 系 統 接 收 到 經 過 純 化 處 理 的 聲 音 訊 號, 以 期 能 降 低 環 境 雜 訊 所 造 成 之 影 響 本 節 將 介 紹 系 統 所 結 合 的 波 束 形 成 和 語 音 端 點 偵 測 (voice activity detection, VAD) 技 術 及 其 應 用 於 受 雜 訊 干 擾 的 語 者 識 別 的 實 驗 結 果

2.2.1 波 束 形 成 麥 克 風 陣 列 常 使 用 波 束 形 成 的 方 法 為 廣 義 旁 瓣 消 除 器 (generalized sidelobe canceller), 如 圖 2.4 所 示 此 方 法 為 在 獲 得 抵 達 方 向 偵 測 (direction of arrival, DOA) 提 供 的 所 需 訊 號 的 方 向 資 訊 後, 藉 由 將 麥 克 風 接 收 訊 號 中 的 干 擾 部 分 分 離 出 來, 並 應 用 可 適 性 權 重 向 量 將 分 離 出 來 的 干 擾 訊 號 與 原 始 麥 克 風 訊 號 相 消, 以 達 到 聲 音 純 化 的 目 的 而 在 12 裡 則 提 出, 傳 統 廣 義 旁 瓣 消 除 器 是 在 假 設 線 性 陣 列 模 型 為 裡 想 均 勻 的 前 提, 即 陣 列 訊 號 環 境 滿 足 窄 頻 訊 號 及 遠 場 平 面 波 的 假 設 下, 所 推 導 出 來 的 最 佳 解, 但 在 實 際 的 語 音 訊 號 環 境 中, 使 用 者 大 多 離 麥 克 風 很 近 且 訊 號 多 為 球 面 波, 並 非 如 假 設 般 單 純, 因 此 必 須 藉 由 估 計 聲 源 於 空 間 中 所 經 過 的 轉 移 函 數 來 調 適 廣 義 旁 瓣 消 除 器, 以 適 應 實 際 的 語 音 訊 號 環 境 但 在 實 際 應 用 中, 空 間 轉 移 函 數 很 難 得 到, 因 此 本 系 統 採 用 在 12 中 藉 由 估 計 較 容 易 得 到 的 空 間 轉 移 函 數 比 值 來 調 適 空 間 濾 波 器 的 方 法 Z(ω) Microphone signal fixed Quiescent weight W q S(ω)+N(ω) + Σ - N(ω) ^ Y(ω) Beamforming output Blocking matrix B S(ω) : desired signal N(ω) : noise and competing speech Active weight W a adaptive 圖 2.4: 廣 義 旁 瓣 消 除 器 2.2.2 語 音 端 點 偵 測 傳 統 的 語 音 端 點 偵 測 作 法 為 利 用 訊 號 短 時 間 能 量 最 大 值 與 最 小 值 之 間 差 距 來 訂 定 動 態 的 偵 測 門 檻 值, 並 根 據 此 值 判 定 語 音 端 點, 但 傳 統 方 法 在 低 訊 雜 比 (signal-to-noise ratio, SNR) 或 是 常 有 突 發 性 雜 訊 的 環 境, 性 能 會 大 受 影 響, 比 14

方 說 在 家 用 環 境 中, 除 了 目 標 使 用 者 之 外 還 有 其 他 家 庭 成 員 不 時 說 話 聲 的 干 擾, 則 傳 統 方 式 易 將 家 庭 成 員 的 聲 音 也 當 作 我 們 想 要 的 語 音 訊 號 此 外 一 般 的 語 音 端 點 偵 測 的 方 法, 並 非 使 用 麥 克 風 陣 列 做 為 前 端 輸 入, 所 以 無 法 擁 有 空 間 上 的 資 訊, 而 空 間 資 訊 的 好 處 在 於 可 以 更 有 效 的 消 除 雜 訊 的 影 響, 以 及 在 頻 譜 與 時 域 之 外 再 加 入 空 間 亂 度 的 資 訊 以 幫 助 語 音 端 點 偵 測 因 此 在 13 裡 提 出 了 基 於 廣 義 旁 瓣 消 除 器 的 麥 克 風 陣 列 處 理 結 構, 而 發 展 出 的 空 間 語 音 端 點 偵 測 方 法 (spatial voice activity detection, SVAD), 藉 由 估 算 目 標 對 干 擾 比 (target-to-jammer ratio, TJR) 做 為 語 音 端 點 偵 測 的 門 檻 值 由 圖 2.4 可 看 出 廣 義 旁 瓣 消 除 器 的 結 構 分 為 上 下 兩 個 分 支, 而 上 分 支 包 含 想 要 訊 號 的 能 量 及 干 擾 的 人 聲 或 雜 訊 的 能 量, 下 分 支 為 分 離 出 來 的 干 擾 人 聲 及 雜 訊 的 能 量 及 非 常 少 量 或 是 幾 乎 沒 有 的 想 要 訊 號 能 量, 因 此 我 們 可 以 將 想 要 目 標 訊 號 的 短 時 間 能 量 近 似 為 ({} 表 示 為 短 時 間 平 均 ): 而 干 擾 訊 號 的 短 時 間 能 量 近 似 為 : Pt { Y( ω) } 2 (2-15) Pj N( ) 2 ω (2-16) 因 此 可 得 到 目 標 對 干 擾 比 : TJR = 10 log P 10 log P (2-17) 10 t 10 j 並 以 此 值 做 為 語 音 端 點 偵 測 門 檻 值 利 用 此 方 法 的 好 處 在 於, 其 所 切 割 出 的 語 音 訊 號 區 段, 是 目 標 訊 號 能 量 大 於 干 擾 訊 號 能 量 的 區 段, 而 這 些 語 音 訊 號 區 段 對 於 辨 識 而 言 是 較 可 靠 的 區 段 根 據 13 裡 的 實 驗 結 果 可 發 現, 此 方 法 即 使 在 訊 雜 比 -10dB 的 情 況 下 依 然 可 以 有 相 當 準 確 的 語 音 端 點 偵 測, 因 此 可 適 用 於 嘈 雜 且 含 有 非 穩 態 干 擾 (non-stationary) 雜 訊 的 環 境 15

2.3 實 驗 結 果 2.3.1 語 者 識 別 實 驗 語 料 及 結 果 本 論 文 中 使 用 TCC-300 麥 克 風 語 音 資 料 庫 是 由 國 立 交 通 大 學 國 立 成 功 大 學 國 立 台 灣 大 學 所 共 同 錄 製, 中 華 民 國 計 算 語 言 學 學 會 所 發 行, 此 語 料 庫 屬 於 麥 克 風 朗 讀 語 音, 主 要 目 的 是 為 提 供 語 音 辨 認 研 究, 檔 案 統 計 資 料 如 表 2.1 所 示 台 灣 大 學 語 料 庫 主 要 包 含 詞 以 及 短 句, 文 字 經 過 設 計, 考 慮 音 節 與 其 相 連 出 現 之 機 率, 共 100 人, 每 人 錄 製 一 句 而 成 ; 成 功 大 學 及 交 通 大 學 為 長 文 語 料, 其 語 句 內 容 由 中 研 院 提 供 之 500 萬 詞 詞 類 標 示 語 料 庫 中 選 取, 每 篇 文 章 包 含 數 百 個 字, 再 切 割 成 3 至 4 段, 每 段 至 多 231 字, 分 別 各 100 人, 每 人 錄 製 一 句 朗 讀 來 錄 製, 且 每 人 所 朗 讀 之 文 章 皆 不 相 同 每 個 學 校 之 語 句 取 樣 頻 率 皆 為 16000 赫 茲, 取 樣 位 元 數 為 16 位 元 音 檔 檔 頭 為 4096 位 元 組 (byte), 副 檔 名 為 *.vat 表 2.1:TCC300 語 料 資 料 統 計 表 學 校 名 稱 文 章 屬 性 語 者 總 數 總 音 節 數 檔 案 總 數 男 50 男 27541 男 3425 台 灣 大 學 交 通 大 學 成 功 大 學 短 文 長 文 長 文 女 50 女 24677 女 3084 總 數 100 總 數 52218 總 數 6590 男 50 男 75059 男 622 女 50 女 73555 女 616 總 數 100 總 數 148614 總 數 1238 男 50 男 63127 男 588 女 50 女 68749 女 582 總 數 100 總 數 131876 總 數 1170 本 實 驗 從 語 料 庫 中 的 交 通 大 學 及 成 功 大 學 的 部 分 隨 機 挑 選 90 位 語 者 男 女 各 半, 並 依 其 切 割 位 置 檔 案 去 除 音 檔 裡 大 於 0.5 秒 的 短 停 頓 (short pulse) 及 靜 音 (silence), 接 著 將 處 理 過 的 音 檔 轉 為 取 樣 頻 率 為 8000 赫 茲, 取 樣 位 元 數 為 16 16

位 元 的 無 檔 頭 PCM 音 檔 供 實 驗 之 用 接 著 將 90 位 語 者 分 為 9 組,10 男 10 女 各 4 組 及 5 男 5 女 1 組 每 位 語 者 各 有 50 筆 1~6 秒 測 試 語 料, 和 一 組 5~40 秒 的 註 冊 語 料 實 驗 時 以 各 組 為 單 位, 做 10 人 的 語 者 識 別, 實 驗 結 果 如 下 表 2.2 及 下 圖 2.5 所 示 圖 2.5 的 橫 軸 為 測 試 秒 數, 縱 軸 為 辨 識 率, 每 條 曲 線 代 表 不 同 的 註 冊 秒 數 表 2.2: 語 者 辨 識 基 礎 系 統 辨 識 率 註 冊 秒 數 5 秒 10 秒 20 秒 30 秒 40 秒 測 試 秒 數 1 秒 55.96% 67.51% 75.38% 79.07% 80.08% 1.5 秒 65.76% 76.78% 83.62% 86.71% 89.00% 2 秒 72.13% 82.98% 88.51% 90.87% 93.07% 3 秒 79.07% 89.47% 93.22% 94.82% 95.69% 4 秒 84.56% 91.80% 95.24% 96.36% 97.40% 5 秒 87.18% 93.64% 96.40% 97.22% 98.04% 6 秒 88.84% 95.02% 97.07% 97.76% 98.67% 17

圖 2.5: 語 者 辨 識 基 礎 系 統 辨 識 率 由 表 2.2 及 圖 2.5 可 以 發 現 註 冊 秒 數 在 超 過 20 秒 之 後 對 辨 識 率 所 造 成 的 影 響 趨 緩, 而 測 試 秒 數 在 註 冊 秒 數 較 長 時 大 約 在 3 秒 之 後 對 辨 識 率 影 響 趨 緩, 但 在 註 冊 秒 數 較 短 時 辨 識 率 隨 著 大 於 3 秒 的 測 試 秒 數 上 升 較 為 明 顯 由 實 驗 結 果 可 以 發 現 本 論 文 基 礎 系 統 最 有 效 率 的 操 作 點 大 約 是 註 冊 秒 數 20 多 秒 測 試 秒 數 3 秒 左 右 另 一 方 面 即 使 註 冊 秒 數 不 長, 只 要 測 試 秒 數 夠 長 依 然 可 以 有 八 成 以 上 的 辨 識 率, 對 於 在 即 時 系 統 上 的 應 用 而 言, 使 用 者 一 開 始 並 不 需 要 太 多 時 間 註 冊, 而 在 使 用 時 多 說 幾 次 即 可 有 不 錯 的 辨 識 率 但 若 是 在 對 反 應 時 間 有 較 高 要 求 的 應 用 裡, 增 加 註 冊 秒 數 可 以 達 到 一 定 效 果, 但 還 是 無 法 大 幅 提 升 辨 識 率, 因 此 對 於 這 些 應 用 可 能 必 須 使 用 文 本 相 關 或 其 他 方 式 來 增 加 其 強 健 性 2.3.2 整 合 麥 克 風 陣 列 實 驗 語 料 與 結 果 麥 克 風 陣 列 的 擺 放 方 式 如 圖 2.6 所 示, 四 顆 數 位 麥 克 風 彼 此 相 距 7 公 分 排 成 一 線 性 陣 列, 而 聲 源 方 向 為 陣 列 正 前 方 30 公 分 處 麥 克 風 收 錄 的 訊 號 為 取 樣 頻 率 8000 赫 茲, 取 樣 位 元 數 為 16 位 元 的 訊 號 18

mic1 mic2 mic3 mic4 7 cm 30cm S 圖 2.6: 麥 克 風 陣 列 位 置 圖 原 始 語 料 由 9 位 男 性 語 者 各 念 阿 凡 達 ( 機 器 人 的 初 始 名 字 )5 次 因 為 語 料 稀 少, 所 以 採 用 交 叉 測 試 的 方 式, 每 位 語 者 依 序 由 五 個 音 檔 中 挑 選 四 個 音 檔 串 聯 在 一 起 做 為 註 冊 語 料, 剩 下 的 那 一 個 音 檔 則 做 為 那 組 註 冊 語 料 的 測 試 語 料 而 我 們 將 註 冊 語 料 經 過 處 理 後 分 為 4 大 類, 因 此 每 個 分 類 的 語 料 會 有 5 組 註 冊 語 料,4 類 分 別 為 :1. 乾 淨 且 經 過 波 束 形 成 處 理 但 未 經 過 語 音 端 點 偵 測 處 理 的 語 料 ; 2. 乾 淨 且 經 過 波 束 形 成 及 語 音 端 點 偵 測 除 去 靜 音 的 語 料 ;3. 混 人 聲 (babble) 雜 訊 訊 雜 比 為 15dB 經 過 波 束 形 成 及 語 音 端 點 偵 測 除 去 靜 音 的 語 料 ;4. 混 飛 機 聲 (F16) 雜 訊 訊 雜 比 為 15dB 經 過 波 束 形 成 及 語 音 端 點 偵 測 除 去 靜 音 的 語 料 因 為 經 過 語 音 端 點 偵 測 除 去 靜 音 的 語 料 長 度 幾 乎 變 為 原 本 的 一 半, 而 最 大 事 後 機 率 調 適 法 則 會 依 據 調 適 語 料 的 長 短 調 整 新 舊 資 料 的 權 重, 所 以 我 們 將 有 除 去 靜 音 的 註 冊 語 料 複 製 為 原 本 兩 倍 長 度 以 示 公 平 測 試 語 料 則 分 為 6 大 類, 每 類 再 分 為 0dB 5dB 10dB 15dB 等 4 種 訊 雜 比 語 料, 每 種 語 料 有 5 組 共 45 筆 測 試 語 料 6 類 分 別 為 :1. 混 人 聲 雜 訊 但 未 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 的 第 二 支 麥 克 風 語 料, 代 號 Babble;2. 混 人 聲 雜 訊 經 過 波 束 形 成 但 未 經 過 語 音 端 點 偵 測 處 理 的 語 料, 代 號 Babble+BF;3. 混 人 聲 雜 訊 經 過 波 束 形 成 且 經 過 語 音 端 點 偵 測 除 去 靜 音 的 語 料, 代 號 Babble+BF+VAD; 4. 混 飛 機 聲 雜 訊 但 未 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 的 第 二 支 麥 克 風 語 料, 代 號 F16;5. 混 飛 機 聲 雜 訊 經 過 波 束 形 成 但 未 經 過 語 音 端 點 偵 測 處 理 的 語 料, 代 號 19

F16+BF;6. 混 飛 機 聲 雜 訊 經 過 波 束 形 成 且 經 過 語 音 端 點 偵 測 除 去 靜 音 的 語 料, 代 號 F16+BF+VAD 而 實 驗 共 分 為 四 個 階 段, 第 一 階 段 為 利 用 乾 淨 註 冊 語 料 及 乾 淨 測 試 語 料 做 語 者 辨 識, 因 為 註 冊 與 測 試 的 音 檔 內 容 皆 為 阿 凡 達, 所 以 實 驗 結 果 的 辨 識 率 為 100%; 第 二 階 段 為 利 用 乾 淨 且 經 過 波 束 形 成 處 理 但 未 經 過 語 音 端 點 偵 測 處 理 的 註 冊 語 料, 及 六 類 測 試 語 料 做 語 者 辨 識, 下 表 為 實 驗 的 結 果 表 2.3: 乾 淨 且 經 過 波 束 形 成 註 冊 語 料 辨 識 率 NOISE Babble Babble Babble F16 F16+BF F16+BF SNR +BF +BF +VAD +VAD 0dB 22.2% 31.1% 35.6% 20.0% 33.3% 33.3% 5dB 20.0% 33.3% 75.6% 24.4% 35.6% 68.9% 10dB 31.1% 35.6% 91.1% 26.7% 44.4% 88.9% 15dB 35.6% 42.2% 97.8% 40.0% 55.6% 100.0% 由 表 2.3 的 結 果 可 以 看 出 波 束 形 成 是 有 些 微 的 效 果, 由 其 是 在 訊 雜 比 在 低 時 較 為 明 顯, 而 語 音 端 點 偵 測 除 去 靜 音 的 效 果 則 較 為 顯 著, 在 0dB 時 雖 然 提 升 辨 識 率 的 幅 度 較 小, 但 在 5dB 之 後 幾 乎 都 提 升 了 一 倍 的 辨 識 率, 這 結 果 可 以 看 出 波 束 形 成 對 於 語 者 辨 識 系 統 的 幫 助 有 限, 但 使 用 麥 克 風 陣 列 所 提 供 之 空 間 資 訊 去 做 語 音 端 點 偵 測 在 訊 雜 比 不 高 的 情 況 下 依 然 能 對 辨 識 率 有 顯 著 的 幫 助 接 著 第 三 階 段 我 們 探 討 利 用 乾 淨 且 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 除 去 靜 音 的 註 冊 語 料, 及 六 類 測 試 語 料 做 語 者 辨 識 的 結 果, 以 期 能 更 深 入 了 解 空 間 語 音 端 點 偵 測 對 於 語 者 辨 識 的 影 響 20

表 2.4: 乾 淨 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 之 註 冊 語 料 辨 識 率 NOISE Babble Babble Babble F16 F16+BF F16+BF SNR +BF +BF +VAD +VAD 0dB 17.8% 17.8% 46.7% 13.3% 13.3% 40.0% 5dB 31.1% 24.4% 95.6% 15.6% 15.6% 77.8% 10dB 44.4% 31.1% 100.0% 15.6% 22.2% 95.6% 15dB 53.3% 44.4% 100.0% 26.7% 28.9% 100.0% 由 表 2.4 的 結 果 可 以 看 出 靜 音 含 量 較 少 的 註 冊 語 料, 對 於 同 樣 是 靜 音 含 量 較 少 的 測 試 語 料 有 著 較 好 的 辨 識 率, 但 對 於 含 有 靜 音 的 測 試 語 料 則 會 更 容 易 受 到 不 同 的 雜 訊 的 影 響 而 有 差 異 度 相 當 大 的 辨 識 率 因 此 由 結 果 可 以 推 測, 如 果 系 統 的 語 音 端 點 偵 測 做 得 非 常 準 確, 即 使 訊 雜 比 只 有 5dB 依 然 能 有 不 錯 的 辨 識, 但 如 果 測 試 語 料 含 有 雜 訊 及 較 多 靜 音 時, 幾 乎 不 含 靜 音 的 註 冊 語 料 強 健 性 較 差, 且 在 不 同 雜 訊 間 的 辨 識 率 變 化 相 當 大 最 後 第 四 階 段 我 們 探 討 利 用 與 測 試 語 料 混 相 同 雜 訊 且 訊 雜 比 為 15dB 經 過 波 束 形 成 及 語 音 端 點 偵 測 處 理 之 註 冊 語 料, 及 六 類 測 試 語 料 做 語 者 辨 識 的 結 果, 以 期 能 了 解 環 境 雜 訊 匹 配 與 否 對 語 者 辨 識 的 影 響 表 2.5: 環 境 雜 訊 匹 配 辨 識 率 NOISE Babble Babble Babble F16 F16+BF F16+BF SNR +BF +BF +VAD +VAD 0dB 17.8% 20.0% 28.9% 11.1% 17.8% 33.3% 5dB 20.0% 20.0% 84.4% 17.8% 20.0% 93.3% 10dB 22.2% 22.2% 100.0% 22.2% 28.9% 100.0% 15dB 28.9% 24.4% 100.0% 26.7% 33.3% 100.0% 由 表 2.5 可 以 看 出 不 論 使 用 混 人 聲 雜 訊 或 是 飛 機 聲 雜 訊 之 註 冊 語 料, 對 於 相 21

對 應 雜 訊 且 未 經 過 語 音 端 點 偵 測 除 去 靜 音 之 測 試 語 料 的 辨 識 率, 明 顯 不 如 乾 淨 的 註 冊 語 料, 而 對 於 相 對 應 雜 訊 且 經 過 語 音 端 點 偵 測 去 除 靜 音 之 測 試 語 料 辨 識 率, 則 隨 著 雜 訊 不 同 與 乾 淨 的 註 冊 語 料 互 有 高 低 由 這 三 個 實 驗 結 果, 我 們 可 以 得 到 在 雜 訊 環 境 下 使 用 麥 克 風 陣 列 做 為 前 級 之 語 者 辨 識 系 統, 空 間 語 音 端 點 偵 測 有 無 是 影 響 其 辨 識 率 關 鍵 的 結 論, 且 有 麥 克 風 陣 列 提 供 空 間 之 資 訊, 及 使 在 訊 雜 比 只 有 5dB 的 嘈 雜 環 境 裡, 使 用 空 間 語 音 端 點 偵 測 對 語 料 做 處 理 後, 依 然 可 以 有 不 錯 的 語 者 辨 識 率 22

第 三 章 文 本 獨 立 語 者 確 認 系 統 完 整 的 語 者 辨 識 系 統 除 了 包 含 對 於 已 註 冊 語 者 辨 別 身 分 的 功 能 之 外, 還 必 須 包 含 偵 查 是 否 為 非 註 冊 語 者 的 能 力 更 進 一 步 地, 語 者 辨 識 系 統 與 其 他 使 用 者 身 分 識 別 系 統 ( 例 : 人 臉 辨 識 系 統 ) 結 合 時, 還 必 須 賦 予 辨 識 結 果 一 個 量 化 的 分 數, 也 就 是 所 謂 的 信 心 指 數, 以 利 多 個 系 統 融 合 出 一 個 共 同 的 辨 識 結 果 3.1 節 將 介 紹 系 統 計 算 門 檻 及 信 心 指 數 的 方 法 ;3.2 節 記 錄 實 驗 結 果 3.1 語 者 身 分 驗 證 與 信 心 指 數 在 本 論 文 中 如 圖 3.1 所 示, 我 們 將 語 者 身 分 驗 證 問 題 分 成 兩 個 階 段 : 第 一 階 段 第 二 階 段 語 者 辨 識 系 統 測 試 有 效 判 定 超 過 門 檻 值 信 心 指 數 辨 識 排 名 與 信 心 分 數 測 試 語 料 未 達 門 檻 值 無 法 辨 識 身 分 圖 3.1: 語 者 確 認 系 統 第 一 階 段, 系 統 依 據 辨 識 結 果 判 定 此 次 辨 識 是 否 有 效 必 須 被 判 定 為 無 效 的 情 況 包 括 非 註 冊 語 者 使 用 系 統, 以 及 辨 識 錯 誤 的 結 果 判 定 無 效 的 結 果 則 跳 過 第 二 階 段, 直 接 輸 出 無 法 辨 識 使 用 者 身 分 判 定 有 效 的 結 果, 則 在 第 二 階 段 賦 予 每 個 排 名 一 個 信 心 指 數, 信 心 指 數 為 一 個 介 於 0 到 1 之 間 的 數 值, 代 表 系 統 對 於 這 辨 識 結 果 的 信 心 程 度 而 我 們 將 這 兩 階 段 視 為 統 計 假 設 檢 定,H 0 代 表 已 註 冊 語 者 使 用 系 統, 或 是 辨 識 正 確 的 假 設, 而 H 1 則 代 表 其 對 立 假 設 在 已 知 H 0 H 1 的 機 率 分 布 條 件 下, 則 根 據 奈 曼 - 皮 爾 生 引 理, 最 佳 解 為 概 似 比 檢 測 而 其 決 策 規 則 (decision rule) 為 : 23

px ( λhyp ) > η, X H px ( λ ) η, X H hyp 0 1 (3-1) 其 對 數 形 式 為 : ( X) log p( X λhyp ) log p( X λhyp ) Λ = (3-2) 註 冊 語 者 為 已 知, 因 此 我 們 可 以 藉 由 註 冊 語 料 得 到 H 0 的 機 率 分 布, 但 如 何 去 估 計 H 1 就 成 了 重 點 本 節 我 們 將 介 紹 三 種 估 計 H 1 的 方 法 及 其 實 驗 的 結 果,3.1.1 介 紹 使 用 通 用 背 景 模 型 做 為 H 1, 稱 為 通 用 模 型 正 規 化 ;3.1.2 介 紹 以 第 二 名 的 語 者 做 為 同 儕 集 合 去 估 計 H 1, 稱 為 最 大 值 正 規 化 (maximum normalization);3.1.3 介 紹 以 除 了 第 一 名 以 外 所 有 註 冊 語 者 做 為 同 儕 集 合 去 估 計 H 1, 稱 為 幾 合 平 均 數 正 規 化 (geometric mean normalization) 而 我 們 先 分 別 利 用 這 三 種 方 法 及 實 驗 語 料 得 到 辨 識 正 確 與 辨 識 錯 誤 語 料 的 分 數 Λ ( X ), 抑 或 是 目 標 語 者 與 非 目 標 語 者 的 分 數 Λ ( X ), 並 藉 由 分 析 分 數 分 布 而 得 到 最 佳 的 門 檻 值 以 及 賦 予 辨 識 結 果 信 心 指 數 的 函 數 以 供 即 時 系 統 使 用 3.1.1 通 用 模 型 正 規 化 對 於 本 論 文 的 即 時 系 統 而 言, 使 用 者 使 用 時, 系 統 並 無 任 何 的 使 用 者 資 訊, 完 全 憑 其 語 料 及 系 統 內 事 先 註 冊 的 模 型 來 判 斷 每 位 語 者 的 身 分, 因 此 首 先 必 須 判 定 使 用 者 是 否 為 已 註 冊 語 者, 接 著 判 定 辨 識 結 果 是 否 為 正 確, 如 果 為 錯 誤 的 辨 識 結 果, 其 實 也 可 以 視 為 封 閉 集 合 的 冒 名 頂 替 者 而 通 用 背 景 模 型 正 規 化 的 概 念, 就 是 認 為 辨 識 正 確 的 語 料 對 於 目 標 語 者 模 型 及 通 用 背 景 模 型 的 相 似 度 差 異, 是 比 辨 識 錯 誤 的 語 料 和 非 註 冊 語 者 的 語 料 對 於 目 標 語 者 模 型 及 通 用 背 景 模 型 的 相 似 度 差 異 來 得 較 為 明 顯 具 體 的 正 規 化 流 程 如 下, 假 設 現 在 共 有 N 位 已 註 冊 語 者, 且 第 M 位 註 冊 語 者 為 目 標 語 者, 而 語 者 模 型 為 λ n, n= 1 S N; 目 標 語 者 模 型 為 λ S ; 通 用 背 景 模 型 為 UBM λ ; 觀 測 資 料 O { O,..., O,..., O } = 共 T 個 音 框, 則 我 們 可 以 得 到 每 筆 測 1 t T 24

試 語 料 對 語 者 模 型 λ n, 經 過 通 用 模 型 正 規 化 後 的 對 數 概 似 值 分 數 為 : n ( O) Λ = T t= 1 ( log p( Ot λn ) log p( Ot λubm )) S S S S 測 試 的 實 驗 語 料 分 成 三 類, 第 一 類 為 目 標 語 者 的 語 料 O { O1,..., Ot,..., OT} n n n n 二 類 為 封 閉 集 合 的 冒 名 頂 替 者 語 料 O { O1,..., Ot,..., OT} T (3-3) = ; 第 =, n= 1 N n S; 第 三 類 為 開 放 集 合 的 冒 名 頂 替 者 語 料 ( 假 設 現 在 共 有 K 位 開 放 集 合 的 冒 名 頂 替 者 ) { 1,..., t,..., T} k k k k O = O O O, k = N + 1 N + K 則 我 們 可 以 得 到 三 類 分 數, 第 一 類 為 目 標 語 者 語 料 對 於 目 標 語 者 模 型 得 到 的 分 數 : ( O ) Λ = S S t= 1 S T S S ( log p( Ot λm ) log p( Ot λubm )) 第 二 類 為 封 閉 集 合 的 冒 名 頂 替 者 語 料 對 於 目 標 語 者 模 型 得 到 的 分 數 : ( O ) Λ = n n t= 1 S T n n ( log p( Ot λs ) log p( Ot λubm )) T T (3-4), n= 1 N n S(3-5) 第 三 類 為 開 放 集 合 的 冒 名 頂 替 者 語 料 對 於 目 標 語 者 模 型 得 到 的 分 數 : ( O ) Λ = k k t= 1 S T k k ( log p( Ot λs ) log p( Ot λubm )) T, k = N + 1 N + K (3-6) 而 根 據 第 一 類 分 數 是 應 該 被 判 定 有 效, 二 三 類 分 數 是 應 該 被 判 定 為 無 效 的 原 則, 我 們 可 以 得 到 接 收 者 操 作 特 徵 曲 線 圖, 並 藉 由 分 析 圖 及 找 出 其 等 錯 率 點 來 訂 定 門 檻 值 此 外, 更 進 一 步 地, 除 了 冒 名 頂 替 者 是 該 被 判 定 無 效 的 辨 識 結 果 外, 辨 識 錯 誤 的 結 果 一 樣 是 應 該 被 判 定 為 無 效 因 此 我 們 將 目 標 語 者 的 語 料 對 於 目 標 語 者 模 型 的 分 數, 再 分 成 辨 識 正 確 的 分 數 : ( O ) Λ = SR SR t= 1 S T SR SR ( log p( Ot λs ) log p( Ot λubm )) T (3-7) 25

及 辨 識 錯 誤 的 分 數 : ( O ) Λ = SE SE t= 1 S T SE SE ( log p( Ot λs ) log p( Ot λubm )) T (3-8) 兩 類, 並 依 此 原 則 訂 定 最 終 供 即 時 系 統 使 用 的 信 心 指 數 及 門 檻 值 而 辨 識 錯 誤 即 代 表 系 統 將 使 用 者 誤 認 為 其 他 已 註 冊 語 者, 因 此 對 於 被 誤 認 語 者 而 言, 此 辨 識 錯 誤 也 可 以 視 為 封 閉 集 合 的 冒 名 頂 替 者 3.1.2 最 大 值 正 規 化 最 大 值 正 規 化 的 概 念, 即 是 認 為 辨 識 正 確 的 語 料 對 於 目 標 語 者 模 型 的 相 似 度 會 大 於 辨 識 錯 誤 的 語 料 和 非 註 冊 語 者 的 語 料 對 於 目 標 語 者 模 型 的 相 似 度 因 此 若 辨 識 結 果 第 一 名 與 第 二 名 的 分 數 差 距 越 大, 系 統 對 於 此 結 果 為 辨 識 正 確 結 果 的 信 心 度 也 越 高 最 大 值 正 規 化 法 也 是 討 論 第 一 名 分 數 與 其 他 名 次 分 數 分 布 的 關 係, 因 此 其 出 現 封 閉 集 合 的 冒 名 頂 者 的 情 況 也 即 為 辨 識 錯 誤 的 情 況 具 體 的 正 規 化 流 程 如 下, 假 設 共 有 N 位 已 註 冊 語 者, 則 語 者 模 型 為 λ n, = ; 觀 測 資 料 O { O,..., O,..., O } n 1 S N 料 對 於 語 者 模 型 λ n 的 對 數 概 似 值 分 數 : = 共 T 個 音 框, 我 們 可 以 得 到 測 試 語 1 t T 首 先 找 出 最 高 的 分 數 : n ( O) Λ = T t= 1 ( log p( Ot λn) ) T (3-9) M ( O) = arg max Λ (3-10) n n 1st ( O) ( O) Λ =Λ (3-11) M 接 著 找 出 第 二 高 的 分 數 : 2nd ( O) ( O) max Λ = [ Λ ] n= 1 N n M n (3-12) 最 後 我 們 可 以 得 到 經 過 最 大 值 正 規 化 的 分 數 : ( O) ( O) ( O) Λ =Λ Λ (3-13) MAX 1st 2nd 26

而 在 這 裡 我 們 將 語 料 分 為 兩 類, 第 一 類 為 已 註 冊 語 者 語 料 { 1,..., t,..., T} n n n n O = O O O, n= 1 N 第 二 類 為 開 放 集 合 的 冒 名 頂 替 者 的 語 料 ( 假 設 我 們 現 在 有 K 位 開 放 集 合 冒 名 頂 替 者 ) { 1,..., t,..., T} k k k k O = O O O, k = N + 1 N + K 因 此 可 以 得 到 三 類 分 數, 第 一 類 為 辨 識 正 確 的 分 數 : ( O ) 1 ( O ) 2 ( O ) Λ =Λ Λ (3-14) R nr nr nr MAX st nd 第 二 類 為 辨 識 錯 誤 ( 對 於 被 誤 認 的 語 者, 則 視 為 封 閉 集 合 的 冒 名 頂 替 者 ) 的 分 數 : ( O ) 1 ( O ) 2 ( O ) Λ =Λ Λ (3-15) E ne ne ne MAX st nd 第 三 類 為 開 放 集 合 的 冒 名 頂 替 者 的 分 數 : ( O ) 1 ( O ) 2 ( O ) Λ =Λ Λ (3-16) I k k k MAX st nd 也 是 根 據 第 一 類 分 數 是 應 該 被 判 定 有 效, 二 三 類 分 數 是 應 該 被 判 定 為 無 效 的 原 則, 並 藉 由 分 析 接 收 者 操 作 特 徵 曲 線 圖 及 找 出 其 等 錯 率 點 來 訂 定 門 檻 值 3.1.3 幾 何 平 均 數 正 規 化 幾 何 平 均 數 正 規 化 的 概 念, 即 是 認 為 辨 識 正 確 的 語 料 對 於 目 標 語 者 模 型 及 其 他 已 註 冊 語 者 模 型 的 相 似 度 差 異, 是 比 辨 識 錯 誤 的 語 料 和 非 註 冊 語 者 的 語 料 對 於 目 標 語 者 模 型 及 其 他 已 註 冊 語 者 模 型 的 相 似 度 差 異 來 得 較 為 明 顯 因 此 若 第 一 名 的 分 數 大 於 其 他 名 次 分 數 的 平 均 越 多, 系 統 對 於 此 結 果 為 辨 識 正 確 結 果 的 信 心 度 也 越 高 此 外 由 於 此 正 規 化 法 討 論 的 是 第 一 名 分 數 與 其 他 名 次 分 數 分 布 的 關 係, 因 此 其 出 現 封 閉 集 合 的 冒 名 頂 者 的 情 況 即 為 辨 識 錯 誤 的 情 況, 例 : 已 有 註 冊 語 者 模 型 的 使 用 者 A 使 用 系 統 時, 被 系 統 辨 識 為 註 冊 語 者 B, 因 此 對 於 A 而 言 此 辨 識 結 果 為 錯 誤 的, 而 A 同 時 也 成 為 了 冒 名 頂 替 B 的 使 用 者 27

具 體 的 正 規 化 流 程 如 下, 假 設 共 有 N 位 已 註 冊 語 者, 語 者 模 型 為 λ n, = ; 觀 測 資 料 O { O,..., O,..., O } n 1 S N 料 對 於 語 者 模 型 λ n 的 對 數 概 似 值 分 數 : = 共 T 個 音 框, 我 們 可 以 得 到 測 試 語 1 t T 首 先 找 出 最 高 的 分 數 : n ( O) Λ = T t= 1 ( log p( Ot λn) ) T (3-17) M ( O) = arg max Λ (3-18) n n 接 著 找 出 幾 合 平 均 數 正 規 化 項 : 1st ( O) ( O) Λ =Λ (3-19) M G ( O) Λ = N n= 1 n M Λ n N 1 ( O) 最 後 我 們 可 以 得 到 經 過 幾 合 平 均 數 正 規 化 的 分 數 : (3-20) ( O) ( O) ( O) Λ =Λ Λ (3-21) GM 1st G 而 在 這 裡 我 們 將 語 料 分 為 兩 類, 第 一 類 為 已 註 冊 語 者 語 料 { 1,..., t,..., T} n n n n O = O O O, n= 1 N (3-22) 第 二 類 為 開 放 集 合 的 冒 名 頂 替 者 的 語 料 ( 假 設 我 們 現 在 有 K 位 開 放 集 合 冒 名 頂 替 者 ) { 1,..., t,..., T} k k k k O = O O O, k = N + 1 N + K (3-23) 因 此 可 以 得 到 三 類 分 數, 第 一 類 為 辨 識 正 確 的 分 數 : ( O ) 1 ( O ) ( O ) Λ =Λ Λ (3-24) R nr nr nr GM st G 第 二 類 為 辨 識 錯 誤 ( 對 於 被 誤 認 的 語 者, 則 視 為 封 閉 集 合 的 冒 名 頂 替 者 ) 的 分 數 : ( O ) 1 ( O ) ( O ) Λ =Λ Λ (3-25) E ne ne ne GM st G 28

第 三 類 為 開 放 集 合 的 冒 名 頂 替 者 的 分 數 : ( O ) 1 ( O ) ( O ) Λ =Λ Λ (3-26) I k k k GM st G 同 樣 根 據 第 一 類 分 數 應 該 被 判 定 有 效, 二 三 類 分 數 應 該 被 判 定 為 無 效 的 原 則, 並 藉 由 分 析 接 收 者 操 作 特 徵 曲 線 圖 及 找 出 其 等 錯 率 點 來 訂 定 門 檻 值 3.1.4 信 心 指 數 曲 線 及 門 檻 值 本 論 文 中 訂 定 第 一 階 段 門 檻 值 的 方 式 為, 藉 由 每 個 正 規 化 方 法 三 種 秒 數 的 等 錯 率 點 的 分 數 值 做 為 門 檻 值 而 當 實 際 使 用 時, 系 統 將 測 試 語 料 區 分 為 小 於 1.5 秒 介 於 1.5 秒 到 2.5 秒 大 於 2.5 秒 三 個 區 間, 不 同 區 間 的 測 試 語 料 分 別 對 應 到 1 2 3 秒 測 試 結 果 等 錯 率 點 所 算 出 的 門 檻 值 而 第 二 階 段 賦 予 辨 識 結 果 信 心 指 數 的 方 式 則 如 下 圖 所 示, 先 利 用 大 量 實 驗 的 結 果 得 到 辨 識 正 確 分 數 的 累 積 分 布 函 數 F (x), 以 及 辨 識 錯 誤 分 數 的 累 積 分 布 函 R 數 F E (x) 而 信 心 指 數 曲 線 為 經 過 F R (x)-(1- F E (x)) 運 算 後 得 到 的 曲 線, 再 將 Y 軸 正 規 化 到 0 到 1 之 間 曲 線 圖 的 X 軸 代 表 經 過 正 規 化 方 法 後 的 辨 識 結 果 分 數,Y 軸 代 表 信 心 指 數 ( 一 個 0 到 1 的 值 ) 實 際 使 用 時, 每 次 辨 識 結 果 所 得 到 的 語 者 分 數 經 過 正 規 化 後, 依 其 落 在 X 軸 的 點 找 相 對 應 的 Y 軸 的 點 即 為 其 信 心 指 數 圖 3.2: 信 心 指 數 算 法 29

3.2 實 驗 結 果 3.2.1 語 者 驗 證 實 驗 語 料 與 結 果 實 驗 語 料 為 與 語 者 識 別 實 驗 語 料 相 同 的 10 男 10 女 各 4 組 及 5 男 5 女 1 組 共 9 組 的 語 料 每 位 語 者 使 用 24 秒 註 冊 語 料, 及 50 筆 1 秒 測 試 語 料, 每 筆 語 料 之 間 不 重 疊 實 驗 分 為 兩 個 階 段, 第 一 階 段 先 挑 選 其 中 10 男 10 女 各 1 組 及 5 男 5 女 1 組 共 3 組 語 料, 在 通 用 模 型 正 規 化 法 裡 探 討 目 標 語 者 語 料 分 數 與 冒 名 頂 替 者 語 料 分 數 的 分 布, 及 更 進 一 步 地 在 三 種 正 規 化 方 法 下 探 討 辨 識 正 確 的 分 數 與 辨 識 錯 誤 ( 封 閉 集 合 的 冒 名 頂 替 者 ) 和 開 放 集 合 冒 名 頂 替 者 的 分 數 分 布 圖 3.3: 通 用 模 型 正 規 化 法 目 標 語 者 與 冒 名 頂 替 者 分 數 分 布 30

圖 3.4: 通 用 模 型 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖 圖 3.3 為 3 組 所 有 目 標 語 者 語 料 分 數 以 及 封 閉 集 合 和 開 放 集 合 冒 名 頂 替 者 語 料 分 數 經 過 通 用 模 型 正 規 化 之 後 的 分 布 圖 在 我 們 系 統 的 使 用 情 境 裡, 因 為 文 本 獨 立 的 關 係, 系 統 並 不 知 道 使 用 者 說 話 的 內 容, 而 每 位 語 者 使 用 時 也 並 無 宣 稱 自 己 身 分, 因 此 在 這 個 實 驗 裡 所 謂 的 封 閉 集 合 冒 名 頂 替 者, 就 定 義 為 每 次 語 者 識 別 後 目 標 語 者 測 試 語 料 對 於 除 了 自 己 以 外 其 他 所 有 已 註 冊 語 者 模 行 得 到 的 分 數, 也 就 是 假 設 目 標 語 者 使 用 系 統 時 宣 稱 自 己 為 其 他 已 註 冊 語 者 時 的 情 況 由 圖 可 以 發 現 封 閉 集 合 的 冒 名 頂 替 者 分 數 分 布 較 為 靠 近 目 標 語 者 分 數, 據 推 測 是 因 為 在 全 部 男 生 或 女 生 的 實 驗 組 裡 封 閉 集 合 的 冒 名 頂 替 者 為 同 樣 性 別, 而 開 放 集 合 的 冒 名 頂 替 者 則 有 3/4 為 不 同 性 別, 才 造 成 此 差 異, 而 這 也 影 響 到 了 兩 者 的 等 錯 率, 分 數 分 布 距 離 較 遠 的 開 放 集 合 冒 名 頂 替 者 因 其 與 目 標 語 者 分 數 分 布 重 疊 部 分 較 少, 所 以 有 比 較 低 的 等 錯 率 對 於 家 用 機 器 人 上 所 使 用 之 文 本 獨 立 語 者 辨 識 系 統 而 言, 由 於 較 常 用 於 生 活 幫 手 或 是 客 制 化 服 務 的 情 境 中 且 文 本 獨 立 的 關 係, 因 此 系 統 並 無 任 何 關 於 使 用 者 的 資 訊, 只 能 單 憑 其 測 試 語 料 來 辨 別 身 分, 而 對 於 系 統 而 言 真 正 會 出 現 的 冒 名 頂 31

替 者 即 為 語 者 識 別 錯 誤 的 結 果 及 非 註 冊 語 者 接 著 我 們 將 探 討 在 三 種 正 規 化 方 法 下 辨 識 正 確 辨 識 錯 誤 和 開 放 集 合 冒 名 頂 替 者 之 間 分 數 分 布 的 情 況, 以 期 系 統 能 偵 測 錯 誤 而 辨 識 正 確 的 分 數 則 是 來 自 每 筆 目 標 語 者 測 試 語 料 對 於 其 語 者 模 型 所 得 到 的 分 數 中 辨 識 結 果 正 確 的 部 分, 辨 識 錯 誤 的 分 數 則 是 來 自 每 筆 目 標 語 者 測 試 語 料 對 於 其 他 已 註 冊 語 者 模 型 所 得 到 的 分 數 中, 超 過 該 筆 語 料 對 於 其 自 身 語 者 模 型 所 得 到 的 分 數, 而 造 成 辨 識 錯 誤 的 部 分 (a) 通 用 模 型 正 規 化 法 (b) 幾 合 平 均 數 正 規 化 法 32

圖 3.5: 辨 識 正 確 及 辨 識 錯 誤 分 數 分 布 (c) 最 大 值 正 規 化 圖 3.6: 通 用 模 型 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖 33

圖 3.7: 最 大 值 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖 圖 3.8: 幾 合 平 均 數 正 規 化 法 接 收 者 操 作 特 徵 曲 線 圖 由 圖 3.5(a) 可 以 看 出 辨 識 錯 誤 的 分 數 確 實 與 辨 識 正 確 的 分 數 有 所 差 別, 但 重 疊 的 部 分 卻 比 之 前 封 閉 集 合 冒 名 頂 替 者 分 數 與 目 標 語 者 分 數 重 疊 部 分 大 得 34

多, 因 此 由 圖 3.6 可 看 出 等 錯 率 提 高 了 不 少 而 開 放 集 合 的 冒 名 頂 替 者 與 辨 識 正 確 的 分 數 分 佈 重 疊 的 更 少 了, 因 此 等 錯 率 下 降 了 些 許 由 這 結 果 可 以 看 出 在 通 用 模 型 正 規 化 法 裡 若 以 辨 識 正 確 與 否 當 做 判 斷 準 則, 則 依 照 等 錯 率 點 所 找 出 的 門 檻 值 對 於 開 放 集 合 的 冒 名 頂 替 者 是 相 當 有 鑑 別 力 的, 而 對 於 判 斷 是 否 辨 識 錯 誤 則 有 20% 左 右 的 機 率 判 斷 錯 誤 由 圖 3.7 及 圖 3.8 實 驗 的 結 果 可 以 看 出 幾 何 平 均 數 正 規 化 法 對 於 判 別 辨 識 錯 誤 的 能 力 似 乎 較 最 大 值 正 規 化 法 和 通 用 模 型 正 規 化 法 差 上 許 多, 但 其 辨 別 非 註 冊 語 者 的 能 力 似 乎 略 優 於 最 大 值 正 規 化 法, 不 過 也 還 是 遠 輸 於 通 用 模 型 正 規 化 法 此 外, 由 圖 3.5(b) 我 們 可 以 發 現 最 大 值 正 規 化 法 辨 識 錯 誤 以 及 非 註 冊 語 者 的 分 數 分 布 非 常 相 似, 這 也 顯 示 了 最 大 值 正 規 化 法 的 背 後 意 義, 在 於 如 果 第 一 名 的 分 數 超 過 第 二 名 越 多, 則 辨 識 結 果 為 正 確 的 可 能 性 越 大 綜 合 第 一 階 段 實 驗 的 結 果, 通 用 模 型 正 規 化 法 對 於 辨 識 錯 誤 的 判 斷 能 力 與 其 他 兩 個 方 法 相 差 不 遠, 而 對 於 非 註 冊 語 者 的 判 斷 則 優 於 其 餘 兩 個 方 法 但 非 註 冊 語 者 的 分 數 分 布 較 難 以 掌 握, 因 為 其 語 料 變 化 較 大 也 未 知, 在 實 驗 時 也 無 法 完 全 正 確 地 去 估 計 真 正 非 註 冊 語 者 的 模 型, 所 以 在 真 實 情 況 時, 是 否 能 確 實 的 拒 絕 未 註 冊 使 用 者, 可 能 會 受 到 許 多 未 能 事 先 掌 控 的 因 素 大 幅 度 影 響 而 且 對 於 家 用 系 統 的 使 用 情 境 而 言, 大 部 分 時 間 皆 為 已 註 冊 語 者 使 用 系 統, 所 以 如 何 將 辨 識 錯 誤 的 結 果 判 定 無 效 比 拒 絕 非 註 冊 語 者 的 情 境 更 常 見, 因 此 在 第 二 階 段 實 驗 裡 我 們 將 重 點 擺 在 三 個 方 法 的 偵 錯 能 力 此 外 在 第 一 階 段 實 驗 確 定 這 三 個 方 法 有 一 定 的 偵 錯 能 力 之 後, 為 了 印 證 對 於 結 果 的 推 論 具 有 一 般 性, 我 們 將 測 試 組 數 增 加 為 9 組, 並 測 試 不 同 秒 數 所 造 成 的 結 果 變 異 每 位 語 者 一 樣 使 用 24 秒 註 冊 語 料, 而 測 試 語 料 則 增 加 為 1 2 3 秒 各 50 筆 在 第 二 階 段 實 驗, 我 們 首 先 觀 察 通 用 模 型 正 規 化 法 對 於 目 標 語 者 語 料 分 數 與 封 閉 集 合 冒 名 頂 替 者 語 料 分 數 的 分 布, 接 著 觀 察 三 種 正 規 化 方 法 辨 識 正 確 與 辨 識 錯 誤 的 分 數 分 布 觀 察 通 用 模 型 正 規 化 法 對 於 目 標 語 者 語 料 分 數 與 封 閉 集 合 冒 名 頂 替 者 語 料 分 數 的 分 布, 是 為 了 藉 由 了 解 目 標 語 者 對 於 自 己 的 語 者 模 型 及 對 其 他 35

註 冊 名 單 裡 的 語 者 模 型 所 得 到 的 分 數 分 布, 做 為 之 後 分 析 辨 識 正 確 及 辨 識 錯 誤 分 數 分 布 的 參 考 圖 3.9: 通 用 模 型 正 規 化 法 1 2 3 秒 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 分 數 分 布 表 3.1: 通 用 模 型 正 規 化 法 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 分 數 分 布 統 計 測 試 秒 數 1 秒 2 秒 3 秒 分 數 目 標 語 者 平 均 值 1.04 1.04 1.04 目 標 語 者 方 差 0.42 0.29 0.24 冒 名 頂 替 者 平 均 值 -0.28-0.28-0.28 冒 名 頂 替 者 方 差 0.35 0.26 0.23 由 圖 3.9 及 表 3.1 我 們 可 以 發 現 不 論 測 試 語 料 的 秒 數 為 多 少, 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 分 數 分 佈 的 平 均 值 都 差 別 不 大, 但 方 差 則 明 顯 的 隨 著 秒 數 增 加 而 變 小 這 結 果 代 表 了 當 測 試 秒 數 越 高, 則 兩 類 分 數 的 分 布 越 往 其 各 自 的 平 均 值 36

集 中, 而 重 疊 造 成 混 淆 的 部 分 越 來 越 小, 因 此 等 錯 率 也 應 該 越 來 越 小 此 外 重 疊 部 分 在 一 定 程 度 上 與 辨 識 錯 誤 率 相 關, 因 此 隨 著 秒 數 上 升 辨 識 錯 誤 率 下 降, 重 疊 部 分 減 少 也 是 合 理 的 情 況 由 下 圖 3.10 也 可 以 看 出 等 錯 率 確 實 如 預 期 般 隨 著 秒 數 上 升 而 下 降, 但 下 降 的 幅 度 也 隨 著 秒 數 趨 緩, 對 照 於 語 者 識 別 率 上 升 速 度 的 結 果, 也 確 實 隨 著 秒 數 上 升 而 趨 緩 圖 3.10: 通 用 模 型 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖 37

圖 3.11: 通 用 模 型 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 表 3.2: 通 用 模 型 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計 測 試 秒 數 1 秒 2 秒 3 秒 分 數 辨 識 正 確 平 均 值 1.20 1.11 1.08 辨 識 正 確 方 差 0.34 0.25 0.22 辨 識 錯 誤 平 均 值 0.36 0.37 0.40 辨 識 錯 誤 方 差 0.19 0.11 0.10 接 著 觀 察 通 用 模 型 正 規 化 法 下 辨 識 正 確 與 錯 誤 的 分 數 分 布, 由 圖 3.11 及 表 3.2 可 以 看 出 從 目 標 語 者 分 數 分 佈 中 拆 出 部 分 的 辨 識 正 確 分 數, 及 從 封 閉 集 合 冒 名 頂 替 者 分 數 分 布 中 拆 出 部 分 的 辨 識 錯 誤 分 數, 也 有 著 方 差 隨 著 秒 數 增 加 而 變 小 的 特 性, 但 兩 分 數 平 均 值 的 距 離 卻 隨 著 秒 數 增 加 而 縮 短 據 推 測 應 該 是 因 為 會 造 成 語 者 識 別 錯 誤 的 語 料, 其 分 數 必 定 是 落 於 封 閉 集 合 冒 名 頂 者 分 數 分 布 與 目 標 語 38

者 分 數 分 布 重 疊 的 區 間, 而 隨 著 秒 數 上 升 重 疊 部 分 越 來 越 小, 所 以 依 然 辨 識 錯 誤 結 果 的 分 數 也 必 然 越 來 越 高 另 一 方 面 由 表 3.2 可 看 出 隨 著 秒 數 上 升, 目 標 語 者 與 封 閉 集 合 冒 名 頂 替 者 各 自 分 數 的 平 均 值 幾 乎 不 變, 但 目 標 語 者 分 數 中 屬 於 辨 識 正 確 的 部 分 則 越 來 越 多, 因 此 辨 識 正 確 分 數 的 平 均 值 則 會 隨 著 秒 數 上 升 而 下 降, 所 以 造 成 辨 識 正 確 語 辨 識 錯 誤 分 數 平 均 值 間 的 距 離 隨 著 秒 數 上 升 而 縮 短 由 下 圖 3.12 可 以 發 現 三 種 秒 數 等 錯 率 幾 乎 是 差 不 多 的, 會 造 成 這 樣 的 結 果 就 在 於 雖 然 辨 識 正 確 與 辨 識 錯 誤 的 分 數 分 佈 都 因 為 秒 數 上 升 而 方 差 下 降, 但 其 平 均 值 也 越 來 越 靠 近, 所 以 造 成 其 重 疊 的 部 分 並 沒 有 因 此 減 少 圖 3.12: 通 用 模 型 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖 39

圖 3.13: 最 大 值 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 表 3.3: 最 大 值 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計 測 試 秒 數 1 秒 2 秒 3 秒 分 數 辨 識 正 確 平 均 值 0.78 0.78 0.78 辨 識 正 確 方 差 0.28 0.21 0.19 辨 識 錯 誤 平 均 值 0.21 0.17 0.16 辨 識 錯 誤 方 差 0.04 0.03 0.02 由 圖 3.13 及 表 3.3 我 們 可 以 看 出 在 最 大 值 正 規 化 法 下 辨 識 正 確 的 分 數 分 佈 的 平 均 值 在 三 種 秒 數 下 差 別 不 大, 但 是 方 差 就 有 比 較 明 顯 的 下 降, 根 據 通 用 模 型 正 規 化 的 實 驗 結 果, 目 標 語 者 分 數 與 封 閉 集 合 冒 名 頂 替 者 的 分 數 隨 著 秒 數 增 加 方 差 跟 著 變 小, 但 平 均 值 則 相 差 不 大, 因 此 可 以 推 測 在 辨 識 正 確 的 情 況 下 第 一 名 ( 目 標 語 者 ) 與 第 二 名 ( 封 閉 集 合 冒 名 頂 替 者 之 一 ) 分 數 的 方 差 也 隨 著 秒 數 變 小, 平 均 值 則 應 該 變 化 不 大, 因 此 兩 者 相 減 得 到 的 最 大 值 正 規 化 後 分 數 的 方 差 也 會 隨 著 40

秒 數 增 加 而 變 小, 平 均 值 則 也 相 差 不 大 另 一 方 面 辨 識 錯 誤 的 分 數 的 平 均 值 與 方 差 則 都 隨 著 秒 數 上 升 而 下 降, 其 原 因 據 推 測 應 該 是 因 為 可 能 造 成 辨 識 錯 誤 的 封 閉 集 合 冒 充 頂 替 者 分 數 必 定 落 在 目 標 語 者 及 封 閉 集 合 分 數 分 布 重 疊 的 區 間, 而 且 因 為 隨 著 秒 數 增 加 辨 識 錯 誤 的 機 率 也 越 來 越 低, 所 以 識 錯 誤 時 目 標 語 者 所 在 的 名 次 的 平 均 值 也 更 接 近 第 二 名, 因 此 第 二 名 分 數 應 該 也 是 落 在 此 區 間 而 此 區 間 根 據 前 面 實 驗 果 將 會 隨 著 秒 數 上 升 而 變 小, 表 示 辨 識 錯 誤 情 況 下 第 一 二 名 的 分 數 分 布 將 更 集 中, 這 將 造 成 一 二 名 分 數 的 差 值 越 來 越 小, 且 其 差 值 變 動 的 範 圍 也 變 小, 因 此 辨 識 錯 誤 的 分 數 經 過 最 大 值 正 規 化 後, 平 均 值 及 方 差 均 隨 著 秒 數 上 升 而 下 降 由 下 圖 3.14 可 以 看 出 由 於 秒 數 增 加, 辨 識 正 確 分 數 與 辨 識 錯 誤 分 數 平 均 值 間 的 距 離 變 大, 且 兩 群 分 數 的 方 差 皆 變 小 因 此 其 重 疊 的 部 分 也 變 小, 等 錯 率 也 就 隨 著 秒 數 增 加 而 變 小 圖 3.14: 最 大 值 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖 41

圖 3.15: 幾 何 平 均 數 正 規 化 法 1 2 3 秒 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 表 3.4: 幾 何 平 均 數 正 規 化 法 辨 識 正 確 及 辨 識 錯 誤 的 分 數 分 布 統 計 測 試 秒 數 1 秒 2 秒 3 秒 分 數 辨 識 正 確 平 均 值 1.50 1.40 1.37 辨 識 正 確 方 差 0.36 0.29 0.25 辨 識 錯 誤 平 均 值 0.90 0.78 0.76 辨 識 錯 誤 方 差 0.14 0.10 0.10 如 下 圖 3.16 所 示, 幾 何 平 均 數 正 規 化 法 雖 然 也 隨 著 秒 數 增 加 等 錯 率 變 小, 但 等 錯 率 下 降 的 幅 度 明 顯 不 如 最 大 值 正 規 化 法 觀 察 圖 3.15 及 表 3.4 裡 辨 識 正 確 與 辨 識 錯 誤 的 分 數 的 分 佈 可 以 發 現, 隨 著 秒 數 增 加 兩 者 的 平 均 值 與 方 差 都 下 降, 因 此 兩 群 分 數 平 均 值 間 的 距 離 只 有 些 微 的 變 化, 等 錯 率 會 下 降 主 要 是 因 為 方 差 下 降 使 得 重 疊 部 分 變 少 的 緣 故 而 最 大 值 正 規 化 法 則 是 辨 識 正 確 分 數 的 平 均 值 幾 乎 不 變, 辨 識 錯 誤 的 分 數 隨 著 秒 數 增 加 而 變 小, 因 此 兩 者 平 均 值 的 距 離 隨 著 秒 數 增 42

加 而 變 大, 且 兩 者 方 差 又 都 隨 著 秒 數 變 小, 因 此 其 等 錯 率 下 降 幅 度 明 顯 比 幾 何 平 均 數 正 規 化 法 大 上 許 多 推 測 應 該 是 因 為 鑑 別 度 的 原 因, 相 對 接 近 的 第 二 名 比 起 一 直 都 很 遠 的 後 面 幾 名 更 有 鑑 別 第 一 名 屬 於 哪 一 分 類 的 能 力 例 如 假 設 目 標 語 者 A 的 某 一 音 檔 取 1~3 秒 皆 辨 識 為 語 者 B, 則 依 據 之 前 的 觀 察 第 一 名 B 與 辨 識 結 果 為 第 二 名 或 其 他 名 次 的 A 分 數 的 距 離 會 越 來 越 小, 但 對 於 一 些 已 註 冊 模 型, 此 音 檔 所 得 到 的 分 數 可 能 一 直 就 是 很 低, 隨 著 秒 數 增 加 分 數 變 化 並 不 大, 因 此 使 用 最 大 值 正 規 化 法 時 隨 著 秒 數 增 加, 我 們 發 現 等 錯 率 越 來 越 小, 而 在 幾 何 平 均 數 正 規 化 法 下 雖 然 第 二 名 越 來 越 靠 近 第 一 名, 但 受 到 第 二 名 分 數 還 必 須 與 其 他 名 次 相 加 而 平 均 的 結 果, 所 以 鑑 別 程 度 就 不 如 最 大 值 正 規 化 法 來 得 佳 圖 3.16: 幾 何 平 均 數 正 規 化 法 1 2 3 秒 接 收 者 操 作 特 徵 曲 線 圖 43

3.2.2 語 者 驗 證 信 心 指 數 語 者 驗 證 系 統 分 為 兩 個 階 段, 第 一 階 段 希 望 將 非 註 冊 語 者 與 辨 識 錯 誤 的 結 果 判 定 無 效, 第 二 階 段 則 對 於 辨 識 結 果 給 於 一 信 心 指 數 以 利 其 與 其 他 系 統 進 行 整 合 而 為 了 確 認 系 統 該 如 何 挑 選 兩 階 段 所 用 之 正 規 化 方 法, 我 們 挑 出 於 前 面 辨 識 正 確 與 錯 誤 分 數 分 布 實 驗 結 果 等 錯 率 較 低 的 最 大 值 正 規 化 法 及 通 用 模 型 正 規 化 法, 以 四 種 可 能 挑 選 的 方 式 : 兩 階 段 皆 為 最 大 值 正 規 化 法, 以 MN+MN 表 示 ; 第 一 階 段 為 最 大 值 正 規 化 法, 第 二 階 段 為 通 用 模 型 正 規 化 法, 以 MN+WMN 表 示 ; 兩 階 段 皆 為 通 用 模 型 正 規 化 法, 以 WMN+WMN 表 示 ; 第 一 階 段 為 通 用 模 型 正 規 化 法, 第 二 階 段 為 最 大 值 正 規 化 法, 以 WMN+MN 表 示 探 討 於 1 2 3 秒 時 辨 識 正 確 與 錯 誤 分 數 的 平 均 值, 以 及 更 進 一 步 地 觀 察 系 統 可 能 出 現 的 四 種 結 果 信 心 指 數 的 平 均 值 : 辨 識 正 確 且 系 統 判 定 有 效, 以 Correct &accept 表 示 ; 辨 識 正 確 但 系 統 判 定 無 效, 以 Correct &reject 表 示, 而 其 機 率 以 FR rate 表 示 ; 辨 識 錯 誤 但 系 統 判 定 有 效, 以 Error &accept 表 示, 而 其 機 率 以 FA rate 表 示 ; 辨 識 錯 誤 且 系 統 判 定 無 效, 以 Error &reject 表 示 可 以 得 到 下 面 三 個 表 表 3.5:1 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值 MN+MN MN+WMN WMN+WMN WMN+MN mean mean mean mean Correct 0.68 0.70 0.70 0.68 Correct &accept 0.78 0.75 0.78 0.74 Correct &reject 0.27 0.48 0.33 0.42 FR rate 19.6% 17.7% Error 0.31 0.30 0.30 0.31 Error &accept 0.64 0.30 0.66 0.30 Error &reject 0.22 0.30 0.23 0.31 FA rate 20.7% 16.6% 44

表 3.6:2 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值 MN+MN MN+WMN WMN+WMN WMN+MN mean mean mean mean Correct 0.71 0.70 0.70 0.71 Correct &accept 0.78 0.75 0.78 0.76 Correct &reject 0.31 0.46 0.31 0.45 FR rate 15.9% 16.1% Error 0.28 0.30 0.30 0.28 Error &accept 0.63 0.32 0.63 0.33 Error &reject 0.23 0.29 0.22 0.27 FA rate 13.1% 17.9% 表 3.7:3 秒 正 規 化 方 法 選 用 及 辨 識 結 果 信 心 指 數 平 均 值 MN+MN MN+WMN WMN+WMN WMN+MN mean mean mean mean Correct 0.72 0.70 0.70 0.72 Correct &accept 0.77 0.74 0.79 0.77 Correct &reject 0.30 0.41 0.33 0.48 FR rate 12.1% 19.2% Error 0.27 0.30 0.30 0.27 Error &accept 0.60 0.37 0.62 0.30 Error &reject 0.22 0.29 0.23 0.26 FA rate 12.4% 18.2% 由 這 三 個 表 可 以 看 出 兩 種 第 一 階 段 與 第 二 階 段 選 用 不 同 正 規 化 方 法 的 挑 選 方 式, 在 系 統 將 辨 識 錯 誤 結 果 誤 判 為 有 效 時, 其 信 心 指 數 的 平 均 值 幾 乎 是 另 外 兩 種 兩 階 段 挑 選 相 同 正 規 化 方 法 的 挑 選 方 式 的 一 半, 也 就 代 表 說 如 果 系 統 選 用 這 兩 45