语音技术及其应用

Similar documents
認 識 聲 音 的 原 理 人 們 靠 耳 朵 聽 到 外 在 聲 音 Jingo C. Liao 廖 正 宏 P 3 認 識 聲 音 的 原 理 聲 音 是 如 何 產 生 的? 聲 音 的 產 生 起 因 於 物 體 振 動 鼓 聲 由 鼓 面 振

CC213

WaveCN 使用手册及教程

r_09hr_practical_guide_kor.pdf

第三章思考题

int *p int a 0x00C7 0x00C7 0x00C int I[2], *pi = &I[0]; pi++; char C[2], *pc = &C[0]; pc++; float F[2], *pf = &F[0]; pf++;

第 3 章 数 据 在 计 算 机 中 的 表 示 43 在 进 位 计 数 制 中 有 数 码 数 位 ( 位 置 ) 基 数 和 位 权 等 用 语 数 码 是 在 一 个 计 数 制 中 用 来 表 示 数 值 的 符 号 ; 数 位 是 指 数 码 在 一 个 数 中 所 处 的 位 置 ;

audiogram3 Owners Manual

6 C51 ANSI C Turbo C C51 Turbo C C51 C51 C51 C51 C51 C51 C51 C51 C C C51 C51 ANSI C MCS-51 C51 ANSI C C C51 bit Byte bit sbit

SA054 Chinese user manual


TD

Microsoft Word - fm.doc

Audio/Smartphone accessories Training - Plan Proposal

03 最 新 計 算 機 概 論 3-1 文 字 表 示 法 (multimedia) (text) (image) (audio) (video) (text) (bit pattern) ASCII (American Standard Code for In

(Guangzhou) AIT Co, Ltd V 110V [ ]! 2

Wireless Plus.book

C语言的应用.PDF

C/C++程序设计 - 字符串与格式化输入/输出

Xear 3D USB CH-IN-2 SPKs 2 6 :

untitled

3.1 num = 3 ch = 'C' 2

( CIP) /. :, ( ) ISBN TP CIP ( 2005) : : : : * : : 174 ( A ) : : ( 023) : ( 023)

目 录 如 何 阅 读 本 说 明 书! 感 谢 您 惠 购 先 锋 产 品 务 必 阅 读 本 说 明 书 和 使 用 说 明 书 ( 快 速 入 门 ) 它 们 都 包 含 使 用 本 产 品 之 前 必 须 了 解 的 重 要 信 息! 在 本 手 册 中, 产 品 上 所 示 的 声 道 和

简 介 关 于 本 说 明 书 将 来 本 文 件 的 内 容 如 有 变 更 恕 不 预 先 通 知 有 关 产 品 名 称 和 机 型 号 码 的 最 新 信 息 请 联 系 我 们 的 顾 客 支 持 中 心 详 细 使 用 说 明 书 中 使 用 的 液 晶 显 示 器 和 主 机 的 插

untitled

52C

(Microsoft Word - \304\263\265{+\245\330\246\270.doc)

untitled

和韵®晶体管扩音机使用说明书

新・明解C言語入門編『索引』

四川省教育厅

54 15 ipod/iphone/mp3/psp/pda

C/C++语言 - C/C++数据

PC-PC的IP电话实验

1 Project New Project 1 2 Windows 1 3 N C test Windows uv2 KEIL uvision2 1 2 New Project Ateml AT89C AT89C51 3 KEIL Demo C C File

Microsoft PowerPoint - Aqua-Sim.pptx


C C

TCP/IP TCP/IP OSI IP TCP IP IP TCP/IP TCP/IP

Chap2.ppt

MAN- Metropolitan Area Network Resilient Packet Ring a : 5GHz 54Mbps b : 2.4GHz 11Mbps c : MAC Bridge 802.1D 80

Microsoft PowerPoint - ch2-stallings.ppt

(Microsoft Word \256\325\260\310\267|\304\263\260O\277\375_\252k\250\356_.doc)

Microsoft Word - 桂电教[2008]8号.doc

教育心理学教学案例分析

nb.PDF

Converting image (bmp/jpg) file into binary format

<4D F736F F D2037A1B6CAFDD7D6D2F4C6B5D4ADC0EDA1B7BFCEB3CCBDCCD1A7B4F3B8D9>

Cube20S small, speedy, safe Eextremely modular Up to 64 modules per bus node Quick reaction time: up to 20 µs Cube20S A new Member of the Cube Family

五 活 動 方 式 與 獎 項 本 徵 選 活 動 以 2017 臺 北 世 大 運 活 動 之 核 心 精 神 熱 情 勇 敢 夢 想 愛 為 主, 參 與 徵 選 之 歌 曲 須 在 詞 曲 創 作 中 符 合 此 精 神, 創 作 元 素 須 含 有 運 動 陽 光 之 曲 風 及 歌 詞,

1. ( B ) IT (A) (B) (C) (D) 2. ( A ) (A) (B) (C) (D) 3. ( B ) (A) GPS (B) GIS (C) ETC (D) CAI 4. ( D ) (A) (B) (C) (D) 5. ( B ) (Stored Program) (A) H

C/C++ - 文件IO

FY.DOC

ITU-R M.1849建议书 - 地面气象雷达的技术和操作问题

TR-10_UserManual_Cht.indd

Microsoft Word - SVANTEK产品资料.doc

前 言 版 权 2014 Vivitek Corporation. 是 Vivitek Corporation 的 商 标 其 他 商 标 是 其 各 自 所 有 者 的 资 产 值 重 量 和 尺 寸 等 均 为 近 似 值 规 格 如 有 变 更, 恕 不 另 行 通 知 免 责 声 明 本 文

untitled

dvp3258_93_cs.indd :35:27

OK dvp3266k_93_cs.indd :43:44

7688使用手冊V10.doc

OK dvp5990k_93_cs.indd :41:08

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

Lab 4

Bus Hound 5

1 CPU

广 东 省 高 等 职 业 教 育 品 牌 专 业 建 设 方 案 ( 惠 州 城 市 职 业 学 院 _ 电 子 商 务 专 业 ) 目 录 一 建 设 目 标... 4 ( 一 ) 总 体 目 标... 4 ( 二 ) 具 体 目 标... 4 二 实 施 方 案... 5 项 目 一 全 面

ARK-14013/14017/14018

<4D F736F F D20C9CFBAA3CAD0BCC6CBE3BBFAB5C8BCB6BFBCCAD4C8FDBCB6BFBCCAD4B4F3B8D95FBDA8D2E9B8E55F5F E646F63>

第 期 房建成等 动态定位的强跟踪卡尔曼滤波研究

C PICC C++ C++ C C #include<pic.h> C static volatile unsigned char 0x01; static volatile unsigned char 0x02; static volatile unsigned cha

p-2.indd

Microsoft Word 第12期_总96期_.doc

前 言 版 权 2012 Vivitek Corporation. 是 Vivitek Corporation 的 商 标 其 他 商 标 是 其 各 自 所 有 者 的 资 产 值 重 量 和 尺 寸 等 均 为 近 似 值 规 格 如 有 变 更, 恕 不 另 行 通 知 免 责 声 明 本 文

行业

2_dvdr3380_97_CT_21221b.indd

HD ( ) 18 HD ( ) 18 PC 19 PC 19 PC 20 Leica MC170 HD Leica MC190 HD 22 Leica MC170 HD Leica MC190 HD Leica MC170 HD

校园之星

untitled

公開徵求廠商提供「採購專業人員訓練計畫企劃書」公告

untitled

untitled

目录

untitled

ebook64-1

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1

Cover-YP-35-ch

手册 doc

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

第十一章 資料備份及復原(Backup and Restore)

QL1880new2.PDF

「人名權威檔」資料庫欄位建置表

LED液晶电视机|平板彩色电视机 - LG 电子中国

MPEG AVS AV AVS:JVT AVS

/ XY 24 Z 25 XYZ

AVN127RC_HD_3389.book

PowerPoint Presentation

Transcription:

洪青阳副教授 厦门大学信息科学与技术学院 qyhong@xmu.edu.cn

振动 在空气中形成压力波动 传感器的动作 时变的电压信号

声波是一种纵波, 它的振动方向和传播方向是一致的 声波的频率是指在单位时间内声波的周期数 声音的频率与声音的音高有关 在声学测量中, 直接测量声强较为困难, 故常用声压来衡量声音的强弱 某一瞬间介质中的压强相对于无声波时压强的改变量称为声压, 记为 p(t), 单位是 Pa

由于人耳感知的声压动态范围太大, 加之人耳对声音大小的感觉近似地与声压 声强呈对数关系, 所以通常用对数值来度量声音, 分别称为声压级与声强级 一般把很小的声压 p 0 =2 10-5 Pa 作为参考声压, 把所要测量的声压 p 与参考声压 p 0 的比值取常用对数后, 乘以 20 得到的数值称为声压级 ( 单位 : 分贝,dB) 声压级 = 20log p p 0 db 安静家庭 :35dB, 吵闹街道 :70dB. 按照国家标准规定, 住宅区的噪音, 白天不能超过 50 分贝, 夜间应低于 45 分贝, 若超过这个标准, 便会对人体产生危害

Thanks to Dr. Ming Li for the contribution of the slides

图 1 动圈式传声器 图 2 普通电容式传声器

麦克风 ( 又称传声器 拾音器 话筒 ) 的类型 动圈式麦克风 : 精度 灵敏度较低, 体积大 其突出特点是输出阻抗小, 所以接较长的电缆也不降低其灵敏度 温度和湿度的变化对其灵敏度也无大的影响 用于语音广播 扩声系统 电容式麦克风 : 音质好, 灵敏度较高, 但需要电源, 用于舞台 录音室等 驻极体麦克风 : 是电容式的一种, 无需外加电源, 体积小, 使用最广泛 振膜式 : 极化带电体是驻极体振膜本身, 驻极体话筒拾声的音质效果相对差些, 多用在对于音质效果要求不高的场合, 如普通电话机 玩具等 背级式 : 极化带电体是涂敷在背极板上的驻极体膜层, 将储存电荷的膜层与振膜分离设计, 手机 语音识别等高端传声录音产品多采用背极式驻极体

灵敏度 : 在一定强度的声音作用下输出电信号的大小 以分贝表示, 并规定 1V/Pa 为 0dB, 因话筒输出一般为毫伏级, 所以, 其灵敏度的分贝值始终为负值

话筒对于不同方向来的声音灵敏度会有所不同, 这称为话筒的方向性 方向性用传声器正面 0 方向和背面 180 方向上的灵敏度的差值来表示, 差值大于 15dB 者称为强方向性话筒 全指向性 单一指向性

全指向性话筒从各个方向拾取声音的性能一致 当说话者要来回走动时采用此类话筒较为合适, 但在环境噪声大的条件下不宜采用 心形指向话筒的灵敏度在水平方向呈心脏形, 正面灵敏度最大侧面稍小, 背面最小 这种话筒在多种扩音系统中都有优秀的表现 单指向性话筒又称为超心形指向性话筒, 它的指向性比心形话筒更尖锐, 正面灵敏度极高, 其它方向灵敏度急剧衰减, 特别适用于高噪音的环境

目前常见的话筒有高阻抗与低阻抗之分 高阻抗的输出电压略高, 但引线电容所起的旁路作用较大, 使高频下降, 同时也易受外界的电磁场干扰, 所以, 话筒引线不宜太长, 一般以 10~20 米为宜 低阻抗输出无此缺陷, 所以噪音水平较低, 传声器引线可相应的加长, 有的扩音设备所带的低阻抗传声器引线可达 100 米 如果距离更长, 就应加前级放大器

1 语音增强 (Speech Enhancement) 2 声源定位 (Source Localization) 3 去混响 (Dereverberation) 4 声源信号提取 ( 分离 )

麦阵远场声源分离 10m 距离测试, 室外条件下不同方向两个说话人同时说话 厦门大学 1,2,3,4,5,6 原始语音 麦阵对准右边说话人输出

Thanks to Dr. Ming Li for the contribution of the slides

采样标准 : 能够重现声音, 与原始语音尽量一致采样率 : 每秒采样点数 Thanks to Dr. Ming Li for the contribution of the slides

当采样率大于信号中最高频率的 2 倍时, 采样之后的数字信号完整地保留了原始信号中的信息 采样定理又称奈奎斯特 (Nyquist) 定理 W 原信号 F(f) 折叠失真 0 S 2S (a) 准确取样 (S 2W) 频率 0 S 2S 频率 (b) 非准确取样时 (S<2W)

Thanks to Dr. Ming Li for the contribution of the slides

量化 : 采样点的值不能取任意值取值范围 :2 N -1,N=8,16,32 必须为整型

模拟电压 量化和编码 电压范围 (V) 量化 ( 十进制数 ) 编码 ( 二进制数 ) 0.5~0.7 3 0011 0.3~0.5 2 0010 0.1~0.3 1 0001-0.1~0.1 0 0000 量化过程是指将每个采样值在幅度上再进行离散化处理

量化方法 均匀量化 非均匀量化 量化误差 量化会引入失真, 并且量化失真是一种不可逆失真, 这就是通常所说的量化噪声 信噪比 (signal-to-noise ratio,snr) 2 X max ( ) 6.02B 4.77 20lg( 2 e x x SNR db) 10lg( )

Thanks to Dr. Ming Li for the contribution of the slides

采样率 :8K( 电话 嵌入式 ), 16K(PC), 44.1K(CD) 采样精度 ( 量化位数 ): 即每次取样信息量 码率 (bps: bits per second, 又称比特率 ), 如 8k16bit 为 128kbps. 语音通道数 : 语音通道的个数表明语音产生的波形数, 一般分为单声道和立体声道 单声道产生一个波形, 立体声道则产生两个波形

PCM 编码 1. 脉冲编码调制 (pulse code modulation,pcm) 是将模拟信号经采样 量化 编码的过程 它只将编码后的数据保存, 并不保存任何格式信息 最大优点是音质好, 最大缺点是体积大 2. PC 麦克风常用格式 ( 宽带录音,16k16bit) 可保存为 PCM raw data(.raw 文件, 无头部 ) 或 Microsoft PCM 格式 (.wav 文件 ) 3. ADPCM 编码是有损编码 (32kbps), 保存为 Microsoft ADPCM 格式 (.wav 文件 ) 存储格式 : PCM raw data (*.raw) Microsoft PCM (*.wav) Microsoft ADPCM (*.wav)

MP3 MP3 对音频信号采用的是有损压缩方式, 压缩率高达 10:1~12:1 为了降低声音失真度,MP3 采取了 感官编码技术, 并使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果

NIST 包含 ASCII 文本格式的 1024 字节可读的 Sphere 头部 以下示例使用 16 位线性 PCM 和 16KHz 的采样率

A-law(A 律 ) 编码 1. ITU-T( 国际电联电信标准局 ) 定义的关于脉冲编码的一种压缩 / 解压缩算法 2. 世界上大部分国家采用 A 律压缩算法 美国采用 mu 律算法进行脉冲编码 3. 固话录音 (300-3300Hz) 常用的格式 ( 窄带录音, 8k8bit) https://en.wikipedia.org/wiki/a-law_algorithm

WAV (Microsoft PCM): PC 麦克风录音常用格式 A-law(8k8bit): 电话录音常用格式 MP3 AMR(Adaptive Multi-Rate): 每秒钟的 AMR 音频大小可控制在 1K 左右, 常用于彩信 微信语音, 但失真比较厉害 WMA(Windows Media Audio): 微软公司推出的与 MP3 格式齐名的一种新的音频格式, 在压缩比和音质方面都超过了 MP3 AAC(Advanced Audio Coding): 相对于 MP3,AAC 格式的音质更佳, 文件更小 M4A: MPEG-4 音频标准的文件的扩展名, 最常用的.m4a 文件是使用 AAC 格式的 FLAC(Free Lossless Audio Codec): FLAC 是一套著名的自由音频压缩编码, 其特点是无损压缩 NIST(*.sph): 语音识别常用格式, 包含 ASCII 文本格式的 1024 字节可读的头

Speex 编解码库压缩率变换范围较广, 压缩等级可供选择的范围较宽, 所以应用在网络状况较为复杂的移动终端应用中甚为合适 科大讯飞

基于 PCM 编码的 WAV 常作为不同编码互相转换时的一种中介格式, 以便于后续处理 音频工具 : Cool Edit Adobe Audition 格式工厂

#define SIGN_BIT (0x80)/* Sign bit for a A-law byte. */ #define QUANT_MASK (0xf) /* Quantization field mask. */ #define NSEGS (8) /* Number of A-law segments. */ #define SEG_SHIFT (4) /* Left shift for segment number. */ #define SEG_MASK (0x70)/* Segment field mask. */ short alaw2linear2(unsigned char a_val) { short t; short seg; } a_val ^= 0x55; t = (a_val & QUANT_MASK) << 4; seg = ((unsigned short)a_val & SEG_MASK) >> SEG_SHIFT; switch (seg) { case 0: t += 8; break; case 1: t += 0x108; break; default: t += 0x108; t <<= seg - 1; } return ((a_val & SIGN_BIT)? t : -t);

在音频信息处理中, 经常需要编程处理不同格式的音频数据, 但前面介绍的音频格式多数不公开源码, 因此也很难将它们一一详细介绍, 这里只介绍 WAV 格式的技术构成

计算机中最常见的存放声音格式, 就是 WAV 文件格式, 其扩展名是.wav WAV 文件是以 RIFF (resource interchange file format) 的档案格式储存, 含有不定长度的文件头 (header) 与数据 (data), 组成不定长度的区块 (chunk) 与子区块 (subchunks), 所存的数据是编码的声音信号,WAV 文件支持线性波形编码调制 (PCM) 自适应差分脉冲编码调制 (ADPCM) 等波形编码实现

WAVE 文件是由若干个 Chunk 组成的 按照在文件中的出现位置包括 :RIFF WAVE Chunk, Format Chunk, Fact Chunk( 可选 ), Data Chunk 具体见下图 : ------------------------------------------------ RIFF WAVE Chunk ID = 'RIFF' RiffType = 'WAVE' ------------------------------------------------ Format Chunk ID = 'fmt ' ------------------------------------------------ Fact Chunk(optional) ID = 'fact' ------------------------------------------------ Data Chunk ID = 'data' ------------------------------------------------

typedef struct { char riff[4]; long length; char wave[4]; }WAVECHUNK; // RIFF file identification (4 bytes) // length field (4 bytes) // WAVE chunk identification (4 bytes) typedef struct{ char fmt[4]; long flength; short format; short chans; // format sub-chunk identification (4 bytes) // length of format sub-chunk (4 byte integer) // format specifier (2 byte integer) // number of channels (2 byte integer) long sampsrate; // sample rate in Hz (4 byte integer) long bpsec; // bytes per second (4 byte integer) short bpsample; // bytes per sample (2 byte integer) short bpchan; // bits per channel (2 byte integer) }FMTCHUNK; typedef struct{ char data[4]; long dlength; }DATACHUNK; // data sub-chunk identification (4 bytes) // length of data sub-chunk (4 byte integer)

偏移地址 字节数 数据类型 内容 00H 4 char "RIFF" 标志 04H 4 long 文件长度 08H 4 char "WAVE" 标志 0CH 4 char "fmt" 标志 10H 4 过渡字节 ( 不定 ) 文件头 14H 2 short 格式类别 (10H 为 PCM 形式的声音数据 ) 16H 2 short 通道数, 单声道为 1, 双声道为 2 18H 4 long 采样率 ( 每秒样本数 ), 表示每个通道的播放速度, 1CH 4 long 波形音频数据传送速率, 其值为通道数 每秒数据位数 每样本的数据位数 /8 播放软件利用此值可以估计缓冲区的大小 20H 2 short 22H 2 short 数据块的调整数 ( 按字节算的 ), 其值为通道数 每样本的数据位值 /8 播放软件需要一次处理多个该值大小的字节数据, 以便将其值用于缓冲区的调整 每样本的数据位数, 表示每个声道中各个样本的数据位数 如果有多个声道, 对每个声道而言, 样本大小都一样 24H 4 char 数据标记符 "data" 28H 4 long 语音数据的长度 总共 44 个字节

可以用时间 - 频域 - 幅度的方式显示出原始声音的语谱图 语谱图

麦克风类型 采样和量化过程 语音文件常见格式 WAV 头部 语谱图

Any questions?