标题

Similar documents
自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

第 卷 第 期 年 月 半 导 体 学 报! " # $%&'%' $!&' #% #$1 /#1 $'! / ?/ ?/ / 3 0,?/ ) * +!!! '!,!! -. & ' $! '! 4% %&1)/1(7%&)03 (% )

山东省招生委员会

untitled

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

附3

7 北京大学学报 医学版 # +94* 4 ' % 论著!! "# $ #% %"&!%'!! $ "( )& * $ +,-.)/ ) 01 " * ). " 2")3 )01 ( /" 433% /1 " 0 "51 " -.)/$ 6',)") 4.))%) 0

1 引言

标题

东北大学学报 自然科学版 第 卷

北 京 大 学

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

第 期 王雪丽等 重建最佳关联的翻译

第 期 叶 柠等 基于 小波包子带能量比的疲劳驾驶检测方法

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

(pleasure) 情 緒 喚 起 (arousal) 情 緒 控 制 (dominance) 以 及 依 照 ( 王 士 逢 2004) 末 梢 血 流 與 臉 部 肌 電 圖 測 量 與 焦 慮 狀 態 評 估 系 統 設 計 的 結 論 得 知, 肌 電 訊 號 由 於 每 個 人 的 標

Microsoft Word doc

Microsoft Word - 19王建华.doc

2011年上海市高校精品课程申报表(本科)

专 技 能 1. 精 通 Matlab/Simulink 平 台 下 的 海 洋 运 载 器 运 动 控 制 系 统 与 仿 真 建 模 设 计 ; 2. 精 通 51 单 片 机 AVR 单 片 机 Arduino 开 源 板 的 开 发 和 设 计 ; 3. 精 通 基 于 Arduino 板

untitled

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A



untitled

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

56 包 装 工 程 1.2 眼 动 跟 踪 技 术 介 入 APP 图 形 用 户 界 面 可 用 性 评 估 眼 动 仪 是 基 于 眼 动 轨 迹 跟 踪 的 装 置, 用 于 测 量 眼 睛 的 位 置 和 眼 球 运 动 眼 动 仪 是 用 于 人 类 视 觉 系 统 心 理 学 认 知

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

soturon.dvi

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Microsoft Word 記錄附件

F = {f(x, y), 1 x M, 1 y N},, f(x, y) x y, : 1.. Key 1 W = {w i, i = 1,, L},, L, w i {0, 1}. 2. Zernike. Zernike,, Zernike, {V mn (x, y)}. (

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

,.,,.. :,, ,:, ( 1 ). Π,.,.,,,.,.,. 1 : Π Π,. 212,. : 1)..,. 2). :, ;,,,;,. 3

东北大学学报 自然科学版 第 卷

! & ( )! # # # # # # # # # & ) # # #

F4

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,


第 1 期 常 壮 等 : 基 于 RS-485 总 线 的 舰 船 损 管 训 练 平 台 控 系 统 研 究 87 能 : 1) 损 管 基 本 理 论 的 学 习 帮 助 舰 员 熟 悉 舰 艇 舱 室 相 关 规 章 制 度 损 管 施 分 布 和 使 用 不 沉 性 文 件 等 ) 损 管

Microsoft Word - 专论综述1.doc

南通大学学报 社会科学版 第 卷 第 期 双月刊 年 月出版 3 9 S ^ 9 F = S ]( ^ >? 67 = D ^ E Y GH I 摘要!"#$%&' ()*+,-./* :; 1 < #D.E? FGAH!" BI7JK LM.NO F


CHINA SCIENCE AND TECHNOLOGY DEVELOPMENT REPORT

Microsoft Word - 专论综述1.doc

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

考生编号政治政治分外语外语分科目 1 科目 1 分科目 2 科目 2 分总分专业代码专业名称专业排名考试方式报名号 思想政治理论 62 英语一 78 数学一 108 普通物理 ( 包括力学 电磁学 光学 ) 物理电子学 1 全国统考 11

Microsoft Word - A doc

<4D F736F F D20C9CFBAA3BFC6BCBCB4F3D1A7D0C5CFA2D1A7D4BA C4EAC7EFBCBEC8EBD1A7B2A9CABFD7CAB8F1BFBCCAD4CAB5CAA9CFB8D4F22D C8B7B6A8B8E5>

cost downoem Original Equipment Manufacture value up ODM Original Design Manufacture value addedobm Original Brand Manufacture a OEM ODM OBM O

2013 年 7 月 总 第 235 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 节 令 是 一 种 命 令 毕 淑 敏 1 聚 焦 CASIA 自 动 化 所 召 开 庆 祝 建 党 92 周

128 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2012 年 第 18 卷 第 5 期 毫 无 价 值, 而 且 还 会 遗 患 无 穷 随 着 社 会 生 活 节 奏 的 加 快 和 生 活 方 式 的 改 变, 食 品 供 应 将 日 益 社 会 化, 更 多 的 人 依 赖 食 品

第 03 期 刘高军等 : 基于 CNONIX 的 XML 与 EXCEL 相互转换技术研究 XML XML CNONIX XML EXCEL EXCEL EXCEL EXCEL CNONIXEXCEL XML EXCEL CNONIX XML EXCEL CNONIX 1 CNONIX 数据元分析

GeomaticsandInformationScienceofWuhanUniversity Vol.38No.4 Apr.2013 : (2013) :A 1 1,2 1 (1, 129,430079) (2, 129,430079)

论文集10.12.doc

中 国 系 统 工 程 学 会 理 事 会 民 主 管 理 办 法 中 国 系 统 工 程 学 会 行 政 人 员 人 事 管 理 制 度 中 国 系 统 工 程 学 会 财 务 管 理 办 法 教 育 系 统 工 程 专 业 委 员 会 2015 年 工 作 总 结 过 程 系 统 工 程 专 业

X i i 2003 X' i i W i V i = S i / X珔 i W i = V i / m V i = 1 i 2 2 X珔 ESDA i i S i i V i i W i i m ESI = m W i = 1 i X i 3 3 ESI m 2.ESDA ESD

Microsoft Word - sbs.doc

省份批次科类录取专业招生数 录取 最低分 备注 艺术 音乐学 ( 地方免费师范生 ) 专业成绩 美术学 ( 地方免费师范生 ) 综合成绩 提前艺术体育本 科 提前一批本科 体育 ( 文 ) 体育 ( 理 ) 文史 体育教育 ( 地方免费师范生 ) 专

第 一 章 数 学 系 的 历 史 沿 革 第 一 节 数 学 系 的 渊 源 和 机 构 变 革 情 况 1949 年 6 月, 邸 耀 宗 厉 瑞 康 在 太 原 市 北 郊 上 兰 村 原 进 山 中 学 的 废 墟 上 筹 建 兵 工 职 业 学 校,1950 年 改 为 兵 工 高 级 职

标题

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

10期( )

GeologicalScienceandTechnologyInformation Vol.36 No.4 Jul doi: /j.cnki.dzkq ,,. [J].,2017,36(4): , 2 2, (1.

(Mashup) IT Google API Foursquare API IT API 2 Mashup Fig.2 CaseofComplexNetworkandNodeDegree USPSTracking 100 MostPowerfulCeleb- USPS Tr

附件1:

P(x,y) P(x-1,y) P(x,y-1) P(x,y+1) P(x+1,y) Sobel LaplacePrewittRoberts Sobel [2] Sobel [6] 0 1 1: P(x,y) t (4-connectivity) 2: P(x,y) t 3:

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

标题

第 期 房建成等 动态定位的强跟踪卡尔曼滤波研究

Microsoft Word 定版


Microsoft Word - 31空中大學校稿檔.doc

参编人员情况

1 2 3

基 础 实 室 4 计 算 机 网 络 唐 爱 红 专 业 机 房 PROTEL 联 想 同 方 电 脑 180 台 唐 爱 红 MATLAB 计 算 机 网 络 电 工 电 子 技 能 训 练 室 电 子 基 本 技 能 示 波 器 毫 伏 表 雕 刻 机 图 示 仪 电 子 实 训 台 电 工

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

/ / / / / /

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

y 1 = 槡 P 1 1h T 1 1f 1 s 1 + 槡 P 1 2g T 1 2 interference 2f 2 s y 2 = 槡 P 2 2h T 2 2f 2 s 2 + 槡 P 2 1g T 2 1 interference 1f 1 s + n n


[1] [4] Chetverikov Lerch[8,12] LeaVis CAD Limas-Serafim[6,7] (multi-resolution pyramids) 2 n 2 n 2 2 (texture) (calf leather) (veins)

标题

附件4

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

Microsoft Word - 07.docx

标题

70 包 装 工 程 2015 年 1 月 一有效的方式 [2] 尤其是在儿童阶段的生活中 对儿 童的成长与发展影响巨大 [3] 台湾学者张世宗提出 玩游戏 的本质就是人类个体主动与外界互动的自 主性行为 并且依据互动对象与渠道的形式分类 玩 人 与 物 互 动 的 游 戏 活 动 与 学 习 行

untitled

标题


电 信 领 域 排 名 前 20 名 占 15 席 1 IEEE Communications Surveys And Tutorials IEEE Communications Magazine IEEE Journal On Selected A

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

Transcription:

第 37 卷 2017 年 4 月 北京理工大学学报 TransactionsofBeijingInstituteofTechnology Vol.37 No.4 Apr.2017 基于决策树和改进 SVM 混合模型的语音情感识别 赵涓涓, 马瑞良, 张小龙 ( 太原理工大学计算机科学与技术学院, 山西, 太原 030024) 摘要 : 为有效提高语音情感识别的准确性, 达到人机和谐交互的目的, 本文提出了一种基于决策树和改进 SVM 混合模型的语音情感识别方法, 有效地避免了无界泛化误差 分类器数目多 受限优化等问题, 提高了悲伤 喜悦 愤怒 厌恶 惊讶 恐惧 6 种基本情感识别效率. 实验结果表明, 该方法识别准确率为 87.58%, 与传统的支持向量机和人工神经网络方法相比, 有更高的抗噪声能力和稳定性, 能得到更高的识别准确率, 而且有较强的实用性和推广能力. 关键词 : 人机交互 ; 情感识别 ; 支持向量机 ; 决策树中图分类号 :TP391 文献标志码 :A 文章编号 :1001-0645(2017)04-0386-06 DOI:10.15918/j.tbit1001-0645.2017.04.011 SpeechEmotionRecognitionBasedonDecision TreeandImprovedSVM Mixed Model ZHAOJuaṉjuan, MA Ruiḻiang, ZHANG Xiaoḻong (SchoolofComputerScienceandTechnology,TaiyuanUniversityofTechnology,Taiyuan,Shanxi030024,China) Abstract:Toefectivelyimprovetheaccuracyofspeechemotionrecognitionininteligentmaṉ machineharmoniousinteraction,amethodofspeechemotionrecognitionwasproposedbasedon decisiontreeandanimprovedsvm mixed model.this methodcanavoidthetreeunbounded generalizationerror, morethe number ofclassifiers and other shortcomings, whiletaking advantageofsvm-knn mixed modeltoavoidconstrainedoptimizationproblemsandimprove therecognitioneficiency.inthispaper,sixbasicemotionswereidentified,includingsadness, joy,anger,disgust,surprise,fear.experimentalresultsshowthatthismethodcanefectively identifysixbasicemotions.comparedwiththetraditionalsupportvectormachineandartificial neuralnetworkmethod,thismethodcangethigherrecognitionaccuracy,beterstability,strong practicabilityandgeneralizationability. Key words: humaṉcomputer interaction; emotion recognition; support vector machine; decisiontree 随着情感计算与模式识别发展, 如何通过语音 使人们能够与计算机和谐智能交互, 已经成为智能 [1] 人机交互领域的研究热点. 在日常基本的语音中 不仅仅包含了语音表达的信息, 还隐含了说话人的 情感信息, 传统信息处理系统在对语音处理时主要 侧重语音中词汇传达的信息是否清晰准确, 忽略了 [2] 其中包含的情感特征, 然而, 情感信息的识别与处理也是信息处理系统中必不可少的一部分, 因此, 语音情感信息高效地识别是人机和谐交互的重要基础. 收稿日期 :2015 11 12 基金项目 : 国家自然科学基金资助项目 (61540007,61373100); 虚拟现实技术与系统国家重点实验室资助项目 (BUAA-VR-15KF02, BUAA-VR-16KF-13) 作者简介 : 赵涓涓 (1975 ), 女, 博士, 教授,E-mail:zh_juanjuan@126.com.

赵涓涓等 : 基于决策树和改进 SVM 混合模型的语音情感识别 387 目前, 在国内外研究中, 情感识别的主要方法 有 :K 最近邻方法 [3] 混合高斯模型法 隐马尔科夫 模型法 [4] 人工神经网络方法 [5] 支持向量机 (SVM) 以及在这些方法上的改进. 但是由于不同 国家 不同语言特色以及发音的差异等, 情感的表达 特征也不同. 针对于不同的语言, 国内外还没有建 立标准 统一的语音情感数据库, 而且研究者录制建 立语音数据库与现实真实情感的语句在自然度上有 一定程度差异, 在实际应用中由于噪声等相关因素 干扰, 造成在不同语音数据库应用中识别率不稳定, 推广能力差. 针对上述问题, 本文首先通过录音与剪辑两种 方式构建情感语音库, 然后提取基音频率 振幅 短 时能量 MFCC 等特征, 采用改进的 SVM 和决策树 建立混合模型对情感进行识别. 实验结果表明, 该 方法有更高的识别准确率 抗噪声能力, 对汉语语音 情感识别有较好的稳定性. 1 相关工作 目前, 语音情感识别主要的难点是如何从语音 的时域和频域中选择有效的语音特征. 情感识别准 确率的高低与语音特征的选取有关, 同一识别模型, 特征集选取不同, 识别结果不同. 从众多特征中选 择与各个情感显著相关的特征是提高识别准确率的 根本问题. 研究表明, 语音高频信息对于某些特定 的情感有很好的识别度, 语音低频信息与情感唤醒 [67] [8] 度有显著的相关性.Murray 等研究确定了不 同情感下各个语音信号的特征状态的定性描述, [9] Cowie 等研究列出了在 14 种情感下基频 共振 峰 振幅等特征的分布规律. 在国内外情感识别研 究中, 研究者通常采用基频 短时能量 时间等基本 的韵律特征, 这些特征提取方法成熟而且能很好地 [10] 区分不同的基本情感. 朱菊霞等在自建汉语语 音情感数据集上通过支持向量机模型进行语音情感 [11] 识别, 徐照松等在基于汉语语音情感数据库基础 上利用 BP 神经网络方法进行分类取得了较好的识 别率,Mao [12] [13] 和 Schuler 等在语音韵律特征的基 础上结合时间尺度等情感特征建立了情感特征集进 [14] 行分类识别.Vlasenko 等在柏林 EMO-DB 语音 数据库上利用混合高斯模型对 4 种情感进行识别, [15] 取得了较高的识别率. 张石清等在传统 SVM 的 基础上, 加入模糊隶属度, 利用模糊支持向量机对 4 种情感进行识别, 相比传统 SVM 取得了较好的识 别性能. 2 情感语音库建立 本文实验所使用的汉语语音情感库通过录音和 剪辑两种方式获取, 录音时避免外界噪音干扰在安 静的录音室录制, 该库由 16 位专业的录音人员录 制, 其中男女各 8 名, 录音数据采样参数为 16kHz [16] 16bit 的单声道 WAV. 依据 Ekman 等建立的情 感分类标准, 库中语句有 6 种基本情感状态 : 悲伤 喜悦 愤怒 厌恶 惊讶 恐惧. 基本的录音语句不包 含任何情感倾向且情感自由度高. 同一个录音语句 均可由上述 6 种情感表达, 且与说话人无关以便于 分析比较. 为保证录制的情感语句的质量, 录制语 句经由评判组对其情感可信度进行评价, 将可信度 大于 0.75 的语料作为实验数据, 对易混淆情感的语 句经评判无效后对语句进行重新录制. 为使数据库 中语音情感更加自然地接近现实真实的情感, 对电 视访谈节目 影视剧 广播 演讲等语音数据的剪辑, 挑选其中在安静环境中 噪声干扰小 且符合上述 6 种特征的语句进行剪辑加入情感语音库中. 最 终, 本文建立的情感语音库中包含情感语料共 1600 句, 各个情感语料组成部分如表 1 所示, 其中 493 句通过剪辑获得, 并且将 1100 句作为训练集, 500 句作为测试集. 表 1 语音数据库各情感语料组成 Tab.1 Emotionalspeechdatabaseofcorpus 情感分类悲伤喜悦愤怒厌恶惊讶恐惧 语句数量 269 267 274 266 264 260 3 情感特征提取 语音情感是通过不同语音信号混合特征表现出 来的, 不同的情感与之相关的主要特征集也不同. 同一特征在不同情感的语音信号中数值不同 相关 性不同 贡献度也不同. 研究表明, 不同情感表达的 区分主要表现在语音信号中的韵律特征. 那么能否 从众多的语音特征中选择一个高效的 与各情感显 著相关的特征集是语音情感识别准确率高低的关键 问题. 本文提取以下特征为情感识别的特征集 : 1 基音频率 : 最大值 最小值 极差 均值 标准 差 方差 平均绝对斜度 上 4 分位数 中位数 下 4 分位数 内 4 分极值 基频抖动值 ; 2 振幅能量 : 最大值 最小值 极差 平均值 标 准差 方差 上 4 分位数 中位数 下 4 分位数 内

388 北京理工大学学报第 37 卷 4 分极值 ; 3 共振峰 : 第 1 2 3 4 共振峰最大值 最小值 均值 标准差 协方差 变化率 变化率的 1/3 分为点和 1/4 分为点 ; 4 短时能量 : 短时振幅变化率均值 最大值 最小值 极差 中值 方差 ; 5 发音持续时间 : 发音持续总时间 有声发音持续时间 无声发音持续时间 有声发音持续时间与发音持续总时间之比 无声发音持续时间与发音持续总时间之比 ; 6 语速 : 平均语速 ; 7 MFCC:12 维 MFCC 均值. 4 语音情感识别模型 对于多分类语音情感问题, 传统 SVM 有两种解决方案, 即一对一和一对多. 通常一对一方法中易出现无界泛化误差, 一对多方法易造成分类器数目多 分类效率低的缺点. 针对上述问题, 本文将 6 种情感分类问题进行分解, 建立基于决策树的多级 SVM 分类器, 对于样本集, 每一级的 SVM 识别出一种情感, 剩余的样本集进入下一级的 SVM 进行识别, 如图 1 所示, 逐级递减, 最后决策树的叶子节点是所得到的情感分类. 图 1 决策树 SVM 多分类示意图 Fig.1 ThedecisiontreeandtheSVMclassificationschemes 然而, 在面对不同的应用时, 通常无法选择合适的核函数, 而且传统 SVM 对于复杂问题的分类准确率低, 对大规模分类问题训练时间复杂度高 [17] 等, 对 SVM 分类时错分样本的分布进行分析发 [1819] 现, 错误样本多集中在分界面的附近, 而远离分界面的样本基本能够得到正确地分类. 提高超平面附近样本的分类正确率是提高 SVM 精度的关 键. 因此, 对于 SVM 超平面附近产生的错分样本, 利用 KNN 算法进行结合, 构建了 SVM-KNN 组合 分类模型, 如图 2 所示, 由于初始的 SVM 分类对样 本的分类准确度和可信度低, 于是本文通过计算分 界面两边样本的相似度, 选择超平面两边分类不明 确 模糊的 n 个样本, 由于分界面附近的样本基本上 都是支持向量, 所以结合 SVM 和 KNN, 可对样本 在空间的不同分布使用不同的分类方法, 提高 SVM 分类的准确性. 图 2 SVM-KNN 混合模型 Fig.2 SVMandKNNhybridmodel 构建 SVM-KNN 分类器步骤 : 1 初始认为训练集中的样本都为被标记, 从训 练集中随机选择选择少量样本, 构造一个小样本训 练集, 确保初始训练样本集中每种情感都至少包含 一个样本 ; 2 根据初始训练样本得到一个情感 A 的弱 SVM 分类器, 然后确定其最优分类超平面, 支持向量集 T 分类决策函数的系数 W 和常数 b; 3 用弱 SVM 标记语音情感样本集中所有的未 标记样本, 选择超平面附近分类模糊 准确率低的样 本 : 从 A 类情感中任选一个样本, 计算它与非 A 类 情感所有样本的相似度, 挑选出 n 个最可能是非 A 类情感的样本, 记为样本集 A. 从非 A 类样本中任 选一个样本, 计算其与 A 类情感所有样本的相似 度, 挑选出 n 个最可能是 A 类情感的样本, 记为样 本集 B; 4 A 和 B 中的样本为超平面附近的点, 将 A B 中的样本 x 代入决策函数 g(x)= i yiaik (x i,x j )+b, 计算得到样本点与最优分类面之间的距离 v; 5 若 v >e, 则通过 SVM 对样本点的分类准 确度 可信度高, 因此, 可以通过决策函数 f(x)=

赵涓涓等 : 基于决策树和改进 SVM 混合模型的语音情感识别 389 sgng(x) 确定样本点所属类别 ; 6 若 v <e, 则样本点在超平面附近, 分类可信度低 易错分, 因此, 通过 KNN [4] 方法确定样本 x 所属类别. 将 A 类与非 A 类的支持向量集 T 作为训练样本, 计算样本 x 与 T 中每一个向量之间的距离 d(x,x i ), 将距离最近的向量所属的类别作为样本 x 的类别, d(x,x i )= Φ(x)-Φ(x i )= k(x,x)-2k(x,x i )+k(x i,x i ), 式中 :x i 为支持向量 ;k() 为一阶多项式核函数 ; 阈值 e 的范围为 [0,1], 具体值可以根据实验结果进行动态调整, 初始值一般设置为 1, 如果调整为 0, 则算法为传统的 SVM 算法 ; 7 将 SVM 分类得到的样本和 KNN 分类的样本放入初始训练集对其进行扩充, 从而在扩充后的训练集基础上训练一个新的 SVM2; 8 迭代下去, 直到训练集中所有样本都加入初始训练集中时, 停止迭代. 利用最终的训练集得到一个对 A 类情感分类精度高的 SVM 分类器 ; 9 此时训练出的决策树中一级的 SVM 分类器, 然后利用非 A 类的样本集作为下一级 SVM 的训练器. 这样逐级训练得出各个情感类别相对应的 SVM 分类器. 5 实验结果 首先本文在自制的语音情感数据库上提取基音频率 振幅能量 短时能量 共振峰 语速 发音持续时间 MFCC 等情感特征, 在 SVM 的基础上, 设计了基于决策树和 SVM-KNN 混合模型进行情感识别方法, 在自建情感语音数据库上对 6 种基本情感识别, 结果如表 2 所示, 该方法对于悲伤 恐惧 愤怒情感的识别正确率高 稳定性好, 在某些语料中厌恶 惊讶情感的识别率错误率较高, 这可能是由于厌恶 惊讶两种情感的音频特征相似以及数据库中两种情感语音表现的情感特征不显著. 与此同时, 本文通过传统的支持向量机方法和人工神经网络方法对自建语音情感数据库中 6 种情感进行识别, 其结果比较如表 3 所示, 本文方法的情感平均识别率为 87.58%, 比传统 SVM 方法提高了 6.96%, 比人工神经网络方法提高了 9.22%, 优于传统 SVM 和 ANN 方法, 而且对于愤怒 恐惧 悲伤 3 种情感, 本文识别准确率比传统 SVM 和 ANN 方法有了较高的识别率. 情感 表 2 本文 6 种情感识别率结果 Tab.2 Sixkindsofemotionrecognitionresults 情感识别率 /% 悲伤喜悦愤怒厌恶惊讶恐惧 悲伤 88.35 1.57 1.67 4.74 4.67 5.36 喜悦 1.74 86.25 7.36 2.38 6.35 1.45 愤怒 2.33 3.23 91.44 3.96 5.23 5.86 厌恶 8.41 3.41 3.26 83.54 4.74 6.74 惊讶 3.20 7.17 3.85 1.26 82.76 8.32 恐惧 6.74 4.66 3.66 3.17 5.48 93.17 识别方法 表 3 情感识别率比较 Tab.3 Emotionrecognitionrate 情感识别率 /% 悲伤喜悦愤怒厌恶惊讶恐惧 平均识别率 /% SVM 79.54 83.34 79.37 78.63 80.51 82.35 80.62 ANN 73.62 81.52 78.65 77.39 82.37 78.25 78.63 本文 88.35 86.25 91.44 83.54 82.76 93.17 87.58 为检验本文方法对其他语音情感数据库分类的 准确性, 通过本文方法及 SVM ANN 方法对北京航 空航天大学情感语音数据库中 6 种基本情感进行识 别, 结果表明, 本文将 3 种方法的平均识别率进行比 较, 结果如表 4 所示,ANN 方法其识别率变化小, 但 识别率低, 传统 SVM 方法识别率变化幅度较大, 整 体而言, 本文方法有较好的稳定性和识别准确率. 为验证不同的信噪比对本文方法识别率的影 响. 本文选取无噪声的 800 句测试样本添加高斯白 噪声, 分别在不同的信噪比下进行实验, 结果如表 5 所示. 表 4 北航情感语音数据库实验比较 Tab.4 Emotionalspeechdatabaseexperimentalcomparison 数据库 平均识别率 /% SVM ANN 本文 本文自建情感语音数据库 80.62 78.63 87.58 北京航空航天大学情感语音数据库 Tab.5 方法 表 5 75.65 77.91 85.43 不同信噪比下情感识别率 Emotionrecognitionrateunderdiferentsignal-tonoiseratio 信噪比 /db 100 80 60 40 20 10 0-10 本文 86.43 83.27 79.62 74.85 69.21 61.53 47.53 14.85 SVM 80.15 76.62 71.54 67.34 61.35 46.75 35.62 4.62 ANN 77.68 70.94 62.86 56.72 51.82 40.51 24.97 0 实验结果表明, 随着信噪比的增加,3 种方法的 识别准确率都在不同程度逐渐降低, 但是本文方法 的识别率下降速率 下降幅度都小于传统 SVM 和 ANN 方法, 而且在相同的信噪比下平均识别率都

390 北京理工大学学报第 37 卷 高于后两者. 因此, 本文方法有更好的稳定性和抗噪声能力. 6 结论 在传统 SVM 的基础上, 设计了基于决策树和改进 SVM 混合模型的情感语音识别方法, 通过 SVM 与 KNN 混合分类模型避免了大规模训练样本下受限优化的问题, 同时提高 SVM 分类精度以及识别速度. 通过在两个不同的汉语语音数据库上分别对悲伤 喜悦 愤怒 厌恶 惊讶 恐惧 6 种基本情感进行识别, 平均识别率达到 85% 以上, 优于传统的 SVM 和 ANN 方法, 具有良好的稳定性和抗信噪比的能力. 但对于厌恶 惊讶两种情感的识别率较低, 这可能是由于在自建的情感数据库中两种情感的语料有一部分区分度小 某些音频特征相似, 或者本文在特征选择时有缺陷. 而且在决策树上 SVM 分类的准确率会受到上一级 SVM 分类准确率的影响. 因此, 最佳特征组的选择 情感分类的增加 识别率的提高仍为今后研究的重点. 参考文献 : [1] 赵腊生, 张强, 魏小鹏. 语音情感识别研究进展 [J]. 计算机应用研究,2009,26(2):34 38. Zhao Lasheng,Zhang Qiang,WeiXiaopeng.Research and development ofspeech emotion recognition[j]. ApplicationResearchofComputers,2009,26(2):34 38.(inChinese) [2] 张石清, 李乐民, 赵知劲. 人机交互中的语音情感识别研究进展 [J]. 电路与系统学报,2013,18(2):440 451. Zhang Shiqing,LiLemin,Zhao Zhijing.Researchand developmentofspeechemotionrecognitionin humaṉ machineinteraction[j].journalofcircuitsandsystems, 2013,18(2):440 451.(inChinese) [3]Lee C M. Classifying emotions in humaṉmachine spoken dialogs [C] Proceedings of 2002 IEEE International Conference on Multimedia and Expro- Proceeding.[S.l.]:IEEE,2002:737 740. [4] 林奕琳, 韦岗, 杨康才. 语音情感识别的研究进展 [J]. 电路与系统学报,2007,12(1):90 98. LinYilin,WeiGang,YangKangcai.Researchanddevelopmentofspeechemotionrecognition[J].Journalof circuitsandsystems,2007,12(1):90 98.(inChinese) [5]KhanchandaniKB,Hussain M A.Emotionrecognition usingmultilayerperceptronandgeneralizedfeedforward neuralnetwork[j].journalofscientificandindustrial Research,2009,68(5):367. [6]HuangC W,JinY,WangQ Y,etal.Speechemotion recognitionbasedondecompositionoffeaturespaceand informationfusion[j].signalprocessing,2010,26(6): 835 842. [7]Lee C M,Narayanan S S,Pieraccini R.Classifying emotionsin humaṉmachine spoken dialogs [C] Proceedings of IEEE International Conference on MultimediaandExpo.[S.l.]:IEEE,2002:737 740. [8] MurrayI R,ArnotJ L.Towardthesimulation of emotioninsyntheticspeech:areviewoftheliterature on human vocal emotion [J]. The Journal of the AcousticalSociety of America,1993,93(2):1097 1108. [9]Cowie R,Douglas-Cowie E,Tsapatsoulis N,etal. Emotionrecognitioninhumaṉcomputerinteraction[J]. IEEESignalProcessing Magazine,2001,18(1):32 80. [10] 朱菊霞, 吴小培, 吕钊. 基于 SVM 的语音情感识别算法 [J]. 计算机系统应用,2011,20(5):87 91. Zhu Juxia,Wu Xiaopei,Lü Zhao. Speech emotion recognitionalgorithm based on SVM [J].Computer Systems& Applications,2011,20(5):87 91.(inChinese) [11] 徐照松, 元建. 基于 BP 神经网络的语音情感识别研究 [J]. 软件导刊,2014,13(4):11 13. XuZhaosong,YuanJian.Researchonspeechemotion recognitionbasedonbpneuralnetwork[j].software Guide,2014,13(4):11 13.(inChinese) [12]MaoX,ChenL,FuL.MultiḻevelspeechemotionrecognitionbasedonHMMandANN[C] Proceedingsof Wri World Congress on Computer Science and Information Engineering. [S.l.]: IEEE, 2009: 225 229. [13]Schuler B, Rigol G, Lang M. Speech emotion recognitioncombiningacousticfeaturesandlinguistic informationinahybridsupportvector machine-belief network architecture [C] Proceedings of IEEE International Conference on Acoustics,Speech,and SignalProcessing.[S.l.]:IEEE,2004:577 580. [14]Vlasenko B, Schuler B, Wendemuth A, et al. Combiningframeandturṉlevelinformationforrobust recognition of emotions within speech [C ] ProceedingsofINTERSPEECH 2007,Conferenceof theinternationalspeech Communication Association. Antwerp,Belgium:[s.n.],2007:2249 2252. ( 下转第 395 页 )

朱丹丹等 : 基于归一化和非下采样 Contourlet 变换的数字水印方案 395 6 结论 本文在研究非采样 Contourlet 变换和归一化理论的基础上, 提出一种新的数字图像水印算法, 充分利用归一化的抵抗能力, 可以很好地抵抗几何攻击, 在水印领域应用非采样轮廓变换, 这也是一个大胆尝试, 实验数据表明, 本文算法对平移变换的抵抗力最强, 对旋转和缩放也有很好的抵抗力, 而且经过 JPEG 压缩之后, 数字水印也不会失真. 并且在抽取水印图像的过程中, 不需要借助于原始图像, 可以做到真正的盲检测. 参考文献 : [1]RunRS,HorngSJ,LaiJL,etal.AnimprovedSVDbased watermarkingtechniqueforcopyrightprotection [J].ExpertSystems with Applications,2012,39(1): 673 689. [2]HajaraS.Digitalimage watermarkingusinglocalized biorthogonalwavelets[j].europeanjournalofscientific Research,2009,26(4):594 608. [3]Cvejic N, Seppanen T. Spread spectrum audio watermarkingusingfrequencyhoppingandatackcharacterization[j].signalprocessing,2004,84(1):207 213. [4]KurosakiM,Kiya H.Errorconcealmentusingadata hidingtechniqueformpegvideo[j].ieicetransactions on FundamentalsofElectronics,Communicationsand ComputerSciences,2002,85(4):790 796. [5]LiLeida,GuoBaolong.Localizedimagewatermarking inspatialdomain resistantto geometricatacks[j]. AEU-InternationalJournalofElectronicsandCommunications,2009,63(2):123 131. [6]HajaraS.Digitalimage watermarkingusinglocalized biorthogonalwavelets[j].europeanjournalofscientific Research,2009,26(4):594 608. [8]PingDong,BrankovJG,GalatsanosNP,etal.Digital watermarkingrobusttogeometricdistortions[j].ieee Transactons on Image Processing, 2005,14 (12): 2140 2150. [9]Lee H Y,Kim H.Robustimagewatermarkingusing localinvariantfeatures[j].opticalengineering,2006, 45(3):037002,1 11. [10]ParameswaranL A,AnbumaniK.Arobustimagewatermarkingschemeusingimagemomentnormalization [J].Transactions on Engineering, Computing and Technology,2006,13:1305 5313. [11]DaCunhaAL,ZhouJ,DoM N.Thenonsubsampled contourlettransform:theory,design,andapplications [J].IEEE TransactionsonImageProcessing,2006, 15(10):3089 3101. [12]Cunha A L, Zhou J, Do M N. Nonsubsampled contourlettransform:filterdesignandapplicationsin denoising[c] Proceedings of IEEE International Conference on Image Processing. [S.l.]:IEEE, 2005,9(1):49 52. ( 责任编辑 : 李兵 ) 췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍 ( 上接第 390 页 ) [18]RongL,ShiweiY,ZhongzhiS.Aefectiveclassified [15] 张石清. 基于模糊支持向量机的语音情感识别 [J]. 台 algorithm of support vector machine with multirepresentative 州学院学报,2007,28(6):52 55. points based on nearest neighbor ZhangShiqing.Speechemotionrecognition basedon principle[c] ProceedingsofInternationalConferences fuzzysupportvector machine[j].journaloftaizhou on Info-Tech and Info-Net. Beijing:IEEE,2001: University,2007,28(6):52 55.(inChinese) 113 119. [16]Ekman P. An argument for basic emotions [J]. [19]ChinK K.Supportvectormachinesappliedtospeech Cognition & Emotion,1992,6(3 4):169 200. paternclassification [D].Cambridge:Cambridge U- [17]Vlachosa A. Active learning with support vector niversity,1998. machines[d].scotland: University of Edinburgh, ( 责任编辑 : 李兵 ) 2004:12 14.