语音信号基础

Similar documents
语音技术及其应用

認 識 聲 音 的 原 理 人 們 靠 耳 朵 聽 到 外 在 聲 音 Jingo C. Liao 廖 正 宏 P 3 認 識 聲 音 的 原 理 聲 音 是 如 何 產 生 的? 聲 音 的 產 生 起 因 於 物 體 振 動 鼓 聲 由 鼓 面 振

CC213

WaveCN 使用手册及教程

r_09hr_practical_guide_kor.pdf

int *p int a 0x00C7 0x00C7 0x00C int I[2], *pi = &I[0]; pi++; char C[2], *pc = &C[0]; pc++; float F[2], *pf = &F[0]; pf++;

audiogram3 Owners Manual

Audio/Smartphone accessories Training - Plan Proposal

6 C51 ANSI C Turbo C C51 Turbo C C51 C51 C51 C51 C51 C51 C51 C51 C C C51 C51 ANSI C MCS-51 C51 ANSI C C C51 bit Byte bit sbit

SA054 Chinese user manual

简 介 关 于 本 说 明 书 将 来 本 文 件 的 内 容 如 有 变 更 恕 不 预 先 通 知 有 关 产 品 名 称 和 机 型 号 码 的 最 新 信 息 请 联 系 我 们 的 顾 客 支 持 中 心 详 细 使 用 说 明 书 中 使 用 的 液 晶 显 示 器 和 主 机 的 插

第三章思考题

新・解きながら学ぶC言語

03 最 新 計 算 機 概 論 3-1 文 字 表 示 法 (multimedia) (text) (image) (audio) (video) (text) (bit pattern) ASCII (American Standard Code for In

目 录 如 何 阅 读 本 说 明 书! 感 谢 您 惠 购 先 锋 产 品 务 必 阅 读 本 说 明 书 和 使 用 说 明 书 ( 快 速 入 门 ) 它 们 都 包 含 使 用 本 产 品 之 前 必 须 了 解 的 重 要 信 息! 在 本 手 册 中, 产 品 上 所 示 的 声 道 和

第 3 章 数 据 在 计 算 机 中 的 表 示 43 在 进 位 计 数 制 中 有 数 码 数 位 ( 位 置 ) 基 数 和 位 权 等 用 语 数 码 是 在 一 个 计 数 制 中 用 来 表 示 数 值 的 符 号 ; 数 位 是 指 数 码 在 一 个 数 中 所 处 的 位 置 ;


FR-33.2_user_manual.indd

C语言的应用.PDF

CA-C750К

UX-J51_UF

Microsoft Word - fm.doc

TD

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1


Wireless Plus.book

新・解きながら学ぶJava

新・明解C言語入門編『索引』

54 15 ipod/iphone/mp3/psp/pda

untitled

新版 明解C言語入門編

TR-10_UserManual_Cht.indd

52C

QL1880new2.PDF

目 录 软 件 概 述 软 件 用 途 软 件 运 行 系 统 配 置... 3 使 用 入 门 软 件 登 录 与 退 出 页 面 介 绍... 6 组 别 账 号 编 辑 组 别 编 辑.

MAN- Metropolitan Area Network Resilient Packet Ring a : 5GHz 54Mbps b : 2.4GHz 11Mbps c : MAC Bridge 802.1D 80

untitled

bingdian001.com

C/C++ - 文件IO

Xear 3D USB CH-IN-2 SPKs 2 6 :

PC-PC的IP电话实验

(Microsoft Word - \304\263\265{+\245\330\246\270.doc)

3.1 num = 3 ch = 'C' 2

untitled

四川省教育厅

Cover-YP-35-ch

甄試報告1125.PDF

和韵®晶体管扩音机使用说明书

(Guangzhou) AIT Co, Ltd V 110V [ ]! 2

OK dvp3266k_93_cs.indd :43:44

第 卷 第 期 年 月 半 导 体 学 报! " # $%&'%' $!&' #% #$1 /#1 $'! / ?/ ?/ / 3 0,?/ ) * +!!! '!,!! -. & ' $! '! 4% %&1)/1(7%&)03 (% )

Chapter #

Chap2.ppt

/ XY 24 Z 25 XYZ

C/C++程序设计 - 字符串与格式化输入/输出

FY.DOC

C/C++语言 - C/C++数据

前 言 版 权 2014 Vivitek Corporation. 是 Vivitek Corporation 的 商 标 其 他 商 标 是 其 各 自 所 有 者 的 资 产 值 重 量 和 尺 寸 等 均 为 近 似 值 规 格 如 有 变 更, 恕 不 另 行 通 知 免 责 声 明 本 文

五 活 動 方 式 與 獎 項 本 徵 選 活 動 以 2017 臺 北 世 大 運 活 動 之 核 心 精 神 熱 情 勇 敢 夢 想 愛 為 主, 參 與 徵 選 之 歌 曲 須 在 詞 曲 創 作 中 符 合 此 精 神, 創 作 元 素 須 含 有 運 動 陽 光 之 曲 風 及 歌 詞,

电子技术基础 ( 第 版 ) 3. 图解单相桥式整流电路 ( 图 4-1-3) 电路名称电路原理图波形图 整流电路的工作原理 1. 单相半波整流电路 u 1 u u sin t a t 1 u 0 A B VD I A VD R B

TCP/IP TCP/IP OSI IP TCP IP IP TCP/IP TCP/IP

1 Project New Project 1 2 Windows 1 3 N C test Windows uv2 KEIL uvision2 1 2 New Project Ateml AT89C AT89C51 3 KEIL Demo C C File

Converting image (bmp/jpg) file into binary format

nb.PDF

(Microsoft Word \256\325\260\310\267|\304\263\260O\277\375_\252k\250\356_.doc)

Microsoft Word - 桂电教[2008]8号.doc

教育心理学教学案例分析

国家外国专家局文件

C C

Microsoft Word - SVANTEK产品资料.doc

ARP ICMP

行业

LED液晶电视机|平板彩色电视机 - LG 电子中国

C PICC C++ C++ C C #include<pic.h> C static volatile unsigned char 0x01; static volatile unsigned char 0x02; static volatile unsigned cha

( CIP) /. :, ( ) ISBN TP CIP ( 2005) : : : : * : : 174 ( A ) : : ( 023) : ( 023)

四川省普通高等学校

C/C++ - 字符输入输出和字符确认

第一章、前言

Windows RTEMS 1 Danilliu MMI TCP/IP QEMU i386 QEMU ARM POWERPC i386 IPC PC104 uc/os-ii uc/os MMI TCP/IP i386 PORT Linux ecos Linux ecos ecos eco

F515_CS_Book.book

ebook64-1

前 言 版 权 2012 Vivitek Corporation. 是 Vivitek Corporation 的 商 标 其 他 商 标 是 其 各 自 所 有 者 的 资 产 值 重 量 和 尺 寸 等 均 为 近 似 值 规 格 如 有 变 更, 恕 不 另 行 通 知 免 责 声 明 本 文

「人名權威檔」資料庫欄位建置表

C/C++ - 函数

dvp3258_93_cs.indd :35:27

untitled

Wireless Plus.book

目录

Minx_2015_B5_1P_8P_ページ送る

Lab 4

OK dvp5990k_93_cs.indd :41:08

FM1935X智能非接触读写器芯片

STM32F103xxADPCM

(Microsoft Word - Motion Program \270\305\264\272\276\363 \307\245\301\366 \271\327 \270\361\302\367.doc)

IONEER 10 IONEER SC-LX90 10 ICEpower 2 THX 9.2 VSX-AX10 THX Ultra 2 lus 7.1 MCACC THX AV ITU-R Dolby THX W 10 8 RMS 200W 7 8 RMS5Hz 100kHz

MPEG AVS AV AVS:JVT AVS

Cube20S small, speedy, safe Eextremely modular Up to 64 modules per bus node Quick reaction time: up to 20 µs Cube20S A new Member of the Cube Family

IEC 传输帧格式

N1010A FlexDCA 软 件 获 取 安 装 N1010A FlexDCA 是 安 捷 伦 采 样 示 波 器 新 的 GUI 应 用 软 件, 在 86100D 主 机 内 已 经 预 先 安 装 此 软 件 我 们 有 2 个 免 费 版 本 的 软 件 可 以 通 过 下 面 连 接

PowerPoint Presentation

Transcription:

第 2 章语音信号基础 洪青阳 厦门大学信息学院 qyhong@xmu.edu.cn

纲要 2.1 声波的特性 2.2 声音的接收装置 2.3 声音的采样 2.4 声音的量化 2.5 语音的编码 2.6 WAV 文件格式 2.7 WAV 文件分析 2.8 本章小结

2.1 声波的特性 声波在空气中是一种纵波, 它的振动方向和传播方向是一致的 声音在空气中的震动形成压力波动, 产生压强, 经过传感器接收转化, 变成时变的电压信号 振动 在空气中形成压力波动 传感器的动作 时变的电压信号

2.1 声波的特性 声波的特性主要包括频率和声强 某一瞬间介质中的压强相对于无声波时压强的改变量称为声压, 记为 p(t), 单位是 Pa 一般把很小的声压 p 0 =2 10-5 Pa 作为参考声压, 把所要测量的声压 p 与参考声压 p 0 的比值取常用对数后, 乘以 20 得到的数值称为声压级 (sound pressure level, SPL), 其单位为分贝 (db) SPL = 20log p p 0 db 国家标准规定住宅区的噪音大小, 白天不能超过 50 分贝, 夜间应低于 45 分贝 注意衡量声音的信噪比 (Signal to Noise Ratio,SNR) 单位也用分贝, 其数值越高, 表示声音越干净, 噪声比例越少

2.2 声音的接收装置 声波 模拟语音信号 采样 离散时间信号 量化 数字离散时间信号

2.2 声音的接收装置 图 1 动圈式传声器 图 2 普通电容式传声器

2.2 声音的接收装置 动圈式麦克风 : 精度 灵敏度较低, 体积大, 其突出特点是输出阻抗小, 所以接较长的电缆也不降低其灵敏度, 温度和湿度的变化对其灵敏度也无大的影响, 用于语音广播 扩声系统 电容式麦克风 : 音质好, 灵敏度较高, 但需要电源, 适用于舞台 录音室等 驻极体麦克风 : 是电容式的一种, 无需外加电源, 体积小, 使用最广泛 振膜式 : 带电体是驻极体振膜本身, 话筒拾声的音质效果相对差些, 多用在对于音质效果要求不高的场合, 如普通电话机 玩具等 背级式 : 带电体是涂敷在背极板上的驻极体膜层, 与振膜分离设计, 手机 语音识别等高端传声录音产品多采用背极式驻极体

2.2 声音的接收装置 随着现代生产工艺的发展, 现在工业上广泛采用一种叫 MEMS 的麦克风 MEMS 麦克风原理依然属于电容式麦克风, 是一个电容器集成在微硅晶片上, 可以采用贴片工艺进行制造 MEMS 麦克风的优点是一致性比较好, 特别是中高端手机应用中, 更适合远场语音交互用的麦克风阵列 MEMS 麦克风

2.2 声音的接收装置 麦克风的性能指标 指向性 频率响应 灵敏度 输出阻抗

2.2 声音的接收装置 麦克风的性能指标 指向性 : 麦克风对于不同方向的声音灵敏度, 称为麦克风的指向性 指向性用麦克风正面 0 方向和背面 180 方向上的灵敏度的差值来表示, 差值大于 15dB 者称为强方向性麦克风 全指向性麦克风从各个方向拾取声音的性能一致 当说话的人要来回走动时采用此类麦克风较为合适 心形指向麦克风的灵敏度在水平方向呈心脏形, 正面灵敏度最大侧面稍小, 背面最小 这种麦克风在多种扩音系统中都有优秀的表现 单指向性麦克风又称为超心形指向性麦克风, 它的指向性比心形麦克风更尖锐, 正面灵敏度极高, 其它方向灵敏度急剧衰减, 特别适用于高噪音的环境

2.2 声音的接收装置 麦克风的性能指标 灵敏度 : 一定强度的声音作用下输出电信号的大小, 以分贝表示, 并规定 1V/Pa 为 0dB, 因话筒输出一般为毫伏级, 所以, 其灵敏度的分贝值始终为负值 频率响应 : 表示麦克风拾音的频率范围, 以及在此范围内对声音各频率的灵敏度 一般说来, 频率范围越宽 频响曲线愈平直越好

2.2 声音的接收装置 麦克风阵列 针对远距离识别 ( 又称远场识别 ), 用一个麦克风采集语音是不够的, 无法判断方位和语音增强, 需要采用麦克风阵列 麦克风阵列采用两个或两个以上的麦克风, 如亚马逊 Echo 音箱采用了 6+1 麦克风阵列

2.2 声音的接收装置 麦克风阵列 麦克风阵列有线型 圆型等多种排列方式, 主要实现以下功能 : 1 语音增强 (Speech Enhancement) 2 声源定位 (Source Localization) 3 去混响 (Dereverberation) 4 声源信号提取 ( 分离 ) 麦克风阵列波束形成 (Beamforming)

2.3 声音的采样 采样标准 : 能够重现声音, 与原始语音尽量一致采样率 : 每秒采样点数

2.3 声音的采样 奈奎斯特 (Nyquist) 定理 声音的采样需满足采样定理 : 当采样率大于信号中最高频率的两倍时, 采样之后的数字信号能够完整保留原始信号中的信息 采样定理又称奈奎斯特 (Nyquist) 定理 原信号 折叠失真 f max f max F samp 2F samp 频率 F samp 2F samp 频率 (a) 无失真采样 (F samp >2f max ) (b) 有失真采样 (F samp <2f max )

2.4 声音的量化 模拟电压 量化和编码 电压范围 (V) 量化 ( 十进制数 ) 编码 ( 二进制数 ) 0.5~0.7 3 11 0.3~0.5 2 10 0.1~0.3 1 01-0.1~0.1 0 00 0.7 0.5 0.3 0.1 3 2 1 0-0.1

2.4 声音的量化 均匀量化与非均匀量化 量化输出值 量化输出值 均匀量化 x 1 x 2 x 3 x 4 x 5 x 6 采样输入样本值 非均匀量化 x 1 x 2 x 3 x 4 x 5 x 6 采样输入样本值

语音文件格式的重要参数 采样率 :8K( 电话 嵌入式 ), 16K(PC), 44.1K(CD) 采样精度 ( 量化位数 ): 即每次取样信息量 比特率 (bps: bits per second), 如 8k16bit 为 128kbps. 语音通道数 : 语音通道的个数表明语音产生的波形数, 一般分为单声道和立体声道 单声道产生一个波形, 立体声道则产生两个波形

2.5 语音的编码 PCM 编码 脉冲编码调制 (pulse code modulation, PCM) 是将模拟信号经采样 量化 编码的过程 它只将编码后的数据保存, 并不保存任何格式信息 最大优点是音质好, 最大缺点是占用存储空间 PCM 是 PC 麦克风常用格式 ( 宽带录音,16k16bit), 可保存为 PCM raw data(.raw 文件, 无头部 ) 或 Microsoft PCM 格式 (.wav 文件 ) 还有一种编码是自适应差分 PCM(ADPCM),ADPCM 编码是有损编码 (32kbps), 保存为 Microsoft ADPCM 格式 (.wav 文件 ) 存储格式 : PCM raw data (*.raw) Microsoft PCM (*.wav) Microsoft ADPCM (*.wav)

2.5 语音的编码 MP3 编码 MP3 对音频信号采用的是有损压缩方式, 压缩率高达 10:1~12:1 为了降低声音失真度,MP3 采取了 感官编码技术, 并使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果

2.5 语音的编码 A-law(A 律 ) 编码 1. ITU-T( 国际电联电信标准局 ) 定义的关于脉冲编码的一种压缩 / 解压缩算法 2. 世界上大部分国家采用 A-law(A 律 ) 压缩算法 美国采用 μ-law(mu 律 ) 算法进行脉冲编码 3. 固话录音 (300-3300Hz) 常用的格式 ( 窄带录音, 8k8bit) https://en.wikipedia.org/wiki/a-law_algorithm

2.5 语音的编码 其它常用格式 AMR(Adaptive Multi-Rate) : 每秒钟的 AMR 音频大小可控制在 1K 字节左右, 常用于彩信 微信语音, 但失真比较厉害 WMA(Windows Media Audio) : 为抗衡 MP3, 微软公司推出的一种新的音频格式, 在压缩比和音质方面都超过了 MP3 AAC(Advanced Audio Coding) : 相对于 MP3,AAC 格式的音质更佳, 文件更小 M4A: MPEG-4 音频标准的文件的扩展名, 最常用的.m4a 文件是使用 AAC 格式的 FLAC(Free Lossless Audio Codec) : 自由音频压缩编码,2012 年以来被很多软硬件产品支持, 其特点是无损压缩, 不会破坏任何音频信息

2.5 语音的编码 Speex 编码 Speex: 是一种音频编解码的开源库, 压缩率变化范围较广, 比特率 2kbps 到 44kpbs, 常用于网络状况复杂多变的移动终端应用 编解码算法比特率 (kbps) 压缩率 Speex 2.15~24.6 5.08~45.71 Speex-web 3.95~42.2 5.98~58.18

2.5 语音的编码 编码标准

2.5 语音的编码 格式之间的转化 A-law MP3 AAC,M4A PCM WAV FLAC 其它格式的 WAV

例 : 8bit A-law 转 16bit PCM #define SIGN_BIT (0x80)/* Sign bit for a A-law byte. */ #define QUANT_MASK (0xf) /* Quantization field mask. */ #define NSEGS (8) /* Number of A-law segments. */ #define SEG_SHIFT (4) /* Left shift for segment number. */ #define SEG_MASK (0x70)/* Segment field mask. */ short alaw2linear2(unsigned char a_val) { short t; short seg; a_val ^= 0x55; t = (a_val & QUANT_MASK) << 4; seg = ((unsigned short)a_val & SEG_MASK) >> SEG_SHIFT; switch (seg) { case 0: t += 8; break; case 1: t += 0x108; break; default: t += 0x108; t <<= seg - 1; } return ((a_val & SIGN_BIT)? t : -t); }

2.6 WAV 文件格式 WAV 文件是以 RIFF (resource interchange file format) 的档案格式储存, 包含文件头 (Header) 与数据 (Data) WAV 文件头由若干个 Chunk 组成的, 按照在文件中的出现位置包括 : WAVECHUNK, FMTCHUNK, FACTCHUNK( 可选 ), DATACHUNK, 具体包括如下结构体 : Header WAVECHUNK FMTCHUNK FACTCHUNK DATACHUNK Data

2.6 WAV 文件格式 WAV 头部 //WaveForm struct typedef struct { char riff[4];// RIFF file identification (4 bytes) int length;// length field (4 bytes) char wave[4];// WAVE chunk identification (4 bytes) }WAVECHUNK; typedef struct{ char fmt[4];// format sub-chunk identification (4 bytes) int flength;// length of format sub-chunk (4 byte integer) short format;// format specifier (2 byte integer) short chans;// number of channels (2 byte integer) int sampsrate;// sample rate in Hz (4 byte integer) int bpsec;// bytes per second (4 byte integer) short bpsample;// bytes per sample (2 byte integer) short bpchan;// bits per channel (2 byte integer) }FMTCHUNK; typedef struct{ char szfactid[4];//'f','a','c','t int dwfactsize;//the value is 4 }FACTCHUNK; typedef struct{ char data[4];// data sub-chunk identification (4 bytes) int dlength;// length of data sub-chunk (4 byte integer) }DATACHUNK;

2.6 WAV 文件格式 WAV 头部格式说明表 偏移地址 字节数 数据类型 内 容 00H 4 char "RIFF" 标志 04H 4 long 文件长度 08H 4 char "WAVE" 标志 0CH 4 char "fmt" 标志 10H 4 过渡字节 ( 不定 ) 文件头 14H 2 short 格式类别 (10H 为 PCM 形式的声音数据 ) 16H 2 short 通道数, 单声道为 1, 双声道为 2 18H 4 long 采样率 ( 每秒样本数 ), 表示每个通道的播放速度, 1CH 4 long 波形音频数据传送速率, 其值为通道数 每秒数据位数 每样本的数据位数 /8 播放软件利用此值可以估计缓冲区的大小 20H 2 short 22H 2 short 数据块的调整数 ( 按字节算的 ), 其值为通道数 每样本的数据位值 /8 播放软件需要一次处理多个该值大小的字节数据, 以便将其值用于缓冲区的调整 每样本的数据位数, 表示每个声道中各个样本的数据位数 如果有多个声道, 对每个声道而言, 样本大小都一样 24H 4 char 数据标记符 "data" 28H 4 long 语音数据的长度

2.7 WAV 文件分析 对 WAV 文件进行处理之前, 我们要先了解其格式是否符合规范, 如电话录音往往是 8kHz8bit 的格式, 对应的比特率为 64kbps,PC 麦克风录音一般是 16kHz16bit 的格式, 对应的比特率为 256kbps 在 Windows 环境, 一种查看比特率的简便办法是选中 WAV 文件, 通过鼠标点右键观察

2.7 WAV 文件分析 双声道录音

2.7 WAV 文件分析 时域图和语谱图 用 CoolEdit 显示的时域图和语谱图

2.7 WAV 文件分析 时域图和语谱图 用 Praat 显示的时域图和语谱图

2.8 本章小结 本章详细介绍了语音信号基础知识, 包括麦克风的类型 采样原理 量化过程 编码类型 WAV 文件格式以及常用的音频处理工具 声音采样后, 模拟的电压信号变成离散的采样值, 采样率要超过声音最高频率的两倍, 才不会失真 常用的采样率包括 8kHz 和 16kHz 声音的量化过程是指将每个采样值在幅度上再进行离散化处理, 变成整型数值 量化位数代表每次取样的信息量, 量化会引入失真, 因此要采用足够的位数, 一般是 16bits 声音的采样率和量化位数相乘得到比特率, 代表了每个音频样本每秒量化的比特位数 常用的语音编码包括 PCM WAV MP3 A-law Speex 等类型, 不同的语音编码有不同的比特率范围