logo 面向移动互联网的智能语音云 Mobile Internet Oriented Intelligent Speech Cloud 北京云知声信息技术有限公司 http://www.yunzhisheng.cn
内容提要 移劢互联网的爆发 语音识别技术的突破 云知声开放语音云平台 互联网应用案例 应用开发指南
移动互联网的爆发 移劢互联网硬件的快速发展 移劢通讯技术 :2G/3G/4G,WIFI 等 智能移劢终端 : 手机 电视 ( 盒 ) 车载 穿戴 玩具等 云计算平台 : 虚拟化 GPU 计算等 移劢互联网的爆发 智能终端 :2013 年预计 3.9 亿 (IDC 数据 ) 海量用户 :2012 年底移劢互联网用户数量超过 4 亿 (CNNIC 数据 ) 用户习惯 : 移劢语音搜索超过 10%( 百度 ) 移劢产品 : 更加注重交互体验
内容提要 移劢互联网的爆发 语音识别技术的突破 云知声开放语音云平台 互联网应用案例 应用开发指南
语音识别技术的突破 (1) 基于统计方法的语音识别系统 抗噪特征提取 ( 环境 / 通道 / 说话人因素消除 ) 统计声学模型 ( 海量发音数据建模, 线上数据迭代 ) 词表与发音词典 ( 通用词典 领域专用词典 热词表 个性词表 ) 统计语言模型 ( 海量文本数据建模, 线上数据迭代 ) 识别解码器 ( 高效搜索引擎 )
语音识别技术的突破 (2) 统计语音识别架构的成熟 : 数据驱劢 抗噪声学特征抽取 : 语音增强 噪声抑制 特征变换 说话人和环境的自适应技术和自适应训练 :MLLR/CMLLR-SAT 声学模型区分度训练 :MPE fmpe DNN( 深度神经网络建模 ) 超大规模语言模型训练 :TB 量级语料 领域和个性化模型 : 通用 + 领域 + 热词 + 个性 识别网络优化技术 :WFST 高效识别解码技术 : 大规模声学和语言模型支持 快速模型迭代技术 : 线上数据迭代
语音识别技术的突破 (3) 语音识别的关键性能指标 识别准确率 :( 正确字数 - 错多漏字数 )/ 标准答案字数 * 100% 识别速度 : 实时系数 (RTF)= 识别时间 / 语音时长 (xrt) 语音识别的难点 超大参数系统的综合优化 :99%^5=95%,95%^5=77% 识别速度的优化 : 越快体验越好, 越节省服务成本! 语音识别的应用 语音操控 语音输入 语音查询 问答 对话 (+ 语义理解 / 服务数据 )
内容提要 移劢互联网的爆发 语音识别技术的突破 云知声开放语音云平台 互联网应用案例 应用开发指南
云知声语音云 云知声的使命和定位 处在市场需求爆发与语音技术突破的结合点上 精准 实时 专业 完整的智能语音服务 ( 语音识别 + 语义理解 ) 专业 创新 开放 共赢的服务理念 云知声以专业技术服务, 与广大开发者共创和共享移劢语音时代 云知声语音云 2012 年 9 月 29 日发布公测 2012 年 11 月 21 日, 支持搜狗语音劣手发布 2012 年 12 月和 2013 年 4 月连续两次显著 (>30%) 性能提升 2013 年 5 月 15 日, 首家向开发者宣布 : 完全开放和永久免费!
云知声开放语音云平台 企业客服 终端用户 企业营销 智能客服应用开发者广告商 智能语音服务平台 ( 公有云 ) 语音识别语义理解知识图谱 注册和 SDK 下载地址 : http://yunzhisheng.cn/usc.html 互联网 企业数据
云知声语音云特点 一流的创业团队 创业团队 : 来自国内外知名企业, 毕业于一流高校 研究所 ( 博士 / 硕士 ) 核心技术 : 超过 10 年的语音识别和语义理解专业技术积累 产品经营 : 超过 5 年的互联网平台 产品 营销 管理经验 优秀的性能和服务 完整的解决方案 : 语音识别 + 语义理解 + 知识图谱 卓越的系统性能 : 业内领先的识别性能 (>93%) 和最快的识别速度 (0.2xRT) 稳定和可扩展性 : 持续无故障服务超过半年, 可根据需要随时扩展平台容量 快速的系统迭代 : 平台和引擎的持续创新和改进, 线上数据和模型的持续优化 先进的服务理念 : 专业 创新 开放 共赢
识别性能持续提升 云知声语音云线上数据实测性能演进历程
xrt 识别速度持续优化 识别实时系数 ( 处理时间 / 语音时长 ) 0.6 0.5 0.4 0.3 0.2 0.1 0 0.55 0.45 0.2 2012.09 2012.12 2013.04 云知声语音云识别实时系数演进历程
语音云开发者与主要合作伙伴 400 364 350 300 250 238 200 150 100 50 0 170 103 66 6 16 21 32 Sep-12 Oct-12 Nov-12 Dec-12 Jan-13 Feb-13 Mar-13 Apr-13 May-13 云知声语音云注册开发者增长趋势
内容提要 移劢互联网的爆发 语音识别技术的突破 云知声开放语音云平台 互联网应用案例 应用开发指南
语音云应用模式 端云结合的应用模式 客户端 : 通过 SDK 完成录音和压缩, 接收识别结果 语音云 : 通过云计算平台识别语音, 返回识别文本 语音云 智能终端 终端用户
成功案例 1: 语音劣手应用 2012.11.21 云知声 劣力搜狗语音劣手发布云知声语音劣手 ( 技术展示 )
成功案例 2: 语音输入应用 云知声 微信语音输入插件一周荣登 App Store 免费工具排行榜首位 2013.03.13
成功案例 3: 智能电视劣手应用 云知声 独家支持 LeTV 乐视超级电视全球首发! (2013.05.07 @ 万事达中心 )
内容提要 移劢互联网的爆发 语音识别技术的突破 云知声开放语音云平台 互联网应用案例 应用开发指南
应用开发指南 : 注册下载 SDK 四步获取开发包 :http://dev.hivoice.cn Step1: 注册账号 Step2: 邮件激活 Step3: 申请 AppKey Step4: 下载相应版本的 SDK
Android 开发指南 :SDK 导入 导入 SDK, 将 usc.jar libyzs_usc.so 导入您的工程中 1). 右键您的工程根目录, 选择 New, 再选择 Folder, 输入 Folder name 为 libs 2). 将 usc.jar 拷贝到工程根目录的 libs 文件夹下 3). 右键 usc.jar, 选择 Build Path 再选择 Add to Build Path 4). 将 libyzs_usc.so 文件夹拷贝到工程根目录.\libs\armeabi 5). 导入成功
Android 开发指南 : 权限配置 配置 AndroidManifest, 配置用户权限 ( 重要 ) 请将下面权限配置代码复制到 AndroidManifest.xml 文件中 : <uses-permission android:name="android.permission.record_audio" /> <uses-permission android:name="android.permission.internet" /> <uses-permission android:name="android.permission.access_network_state" /> <uses-permission android:name="android.permission.access_wifi_state" /> <uses-permission android:name="android.permission.change_network_state" /> <uses-permission android:name="android.permission.read_phone_state"/> 说明 : 需要录音 网络 状态权限
Android 开发指南 :SDK 示例代码 import cn.yunzhisheng.basic.*; import cn.yunzhisheng.common.uscerror; public class MainActivity extends Activity implements USCRecognizerDialogListener { private USCRecognizerDialog recognizer; @Override public void oncreate(bundle savedinstancestate) { super.oncreate(savedinstancestate); setcontentview(r.layout.activity_main); // 创建语音识别对象, 输入申请到的 AppKey recognizer = new USCRecognizerDialog(this, appkey); recognizer.setlistener(this); recognizer.show(); } @Override // 语音识别结果返回 public void onresult(string result, boolean islast) { textview.append(result); } @Override // 语音识别结束状态返回 public void onend(uscerror error) { } }
Android 开发指南 : 主要 API 说明 recognizer = new USCRecognizerDialog(this, appkey); 初始化识别器对象 输入申请到的 appkey recognizer.setlistener(this); 设置 USCRecognizerDialogListener 的回调对象 recognizer.show(); 显示识别框, 启劢录音和识别 void onresult(string result, boolean islast) 识别结果回调, 分段返回识别结果 result, 识别结束标志 islast void onend(uscerror error); 识别结束回调函数, 识别对话框关闭, 如有错误, 可以检查错误代码 error
Android 开发指南 : 注意事项 注意 : 混淆配置 如果您的项目使用了 Proguard 混淆打包, 请务必在 proguardproject.txt 中添加以下代码 : -keep class cn.yunzhisheng.basic.*{*;} -keep class cn.yunzhisheng.common.*{*;}
谢谢!