您的当前位置:首页正文

语音编码总结

2022-09-25 来源:好走旅游网
语音编码总结

一、历史与概念 1、模拟的声音信号

话音信号:(口语发声的)200Hz~3400Hz 调幅广播信号:(无线广播)50Hz到7000Hz 调频广播信号:(无线广播)20Hz到16000Hz 激光唱机信号(CD):10Hz~20000Hz 2、话音编码技术的历史回顾

高保真立体音频 16位 44.1k 905.6k PCM ISO 1990压缩 64k~128k MPEG 每声道在32k~448k 无线FM 无线AM 14位 16k 224k PCM 64k 子带ADPCM 64k PCM 8位 8k 88年G.722 (Toll)G.711 10 20 50 200 3400 7000 1600 20000 Hz

话音编码研究的历史表明,这一领域的研究成果直接为通信产业发展提供了源动力。目前IP电话所用的编码的标准有G.723.1, G.728, G.729。具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。 3、若干概念术语

(1)数字信号:标称的不连续信号。它可以用离散的步差从一个状态转变到另一个状态。

(2)采样:按周期T对模拟信号进行测量,称为采样。采样频率Fs=1/T.在满足奈奎斯特定理时,从采样值可准确的恢复原信号。 (3)量化

用数字信号表示话音的过程称为量化。

(4)非均匀量化

非均匀量化可以兼顾动态范围和小信号的系统精度。Reeves提出概念。即对大信号取较大的量化步长。对小信号取较小的量化步长。 二、矢量量化

将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化,它是对标量量化在K维空间的一个推广。

标量量化 矢量量化 量化对象 单个采样点 K个采样点 集合划分 在一维幅度轴上划分有限个区间 1=[a0 a1)…n=[an-1 an) 在k维空间里,划分成有限个子空间S={Si|i=1,2,„M} 量化过程 在每个区间里,选一个代表值 fii I=1,2,…n 在每个子空间里,选一个代表矢量Yi={Yi1,Yi2,Yii} Yi {Si} i=1,2,…M 量化方法 对任一模拟信号,当其标称 值 属于区间i时,就用数字信号fi代表值 对任一k维模拟信号的矢量。 当其标称值属于子区间Si时,就用代表矢量Yi去量化之。 1、码本设计的LBG方法

(1)在矢量空间X中,进行最佳划分,即,把X划分成M个子空间Si i=,1.2„.m 使平均失真最小。

(2)对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从而构成新的码本。将上述步骤反复迭代,最终求出最佳码本和量化器。(3)初始码本的选择: A、随机选取,迭代时间较长

B、分裂法

(4)LBG方法不是最优化方法,即迭代过程不能保证收敛到全局最小值。 后来有人提出模拟退火法,将LBG方法收敛到局部最小值时,采用某种扰动将迭代过程继续进行下去。 2、空间分布对矢量量化的影响

LBG算法把问题简化为:在矢量空间中,样点的分布是均匀的。但实际的应用场合往往不满足这个前提。因此应考虑空间分布,空间分布对量化值的选择有很重要的影响。对矢量的情况,影响依然存在。 3、语音编码方案的三种类型

语音编码的主要任务:对量化的话音信号施加某种数字变化,使其具有适于数字信道传输的形式,同时尽可能多信号所承载的信息。话音信号的剩余度主要表现在三个方面: (1)相邻样点存在较强的相关性 (2)对浊音信号存在周期(准周期)性 (3) 信号短时平稳,时不变性

此外,人类听觉对话音有选择效应,即当一个强音与一个弱音

同时存在时,人类听觉能够自动抑制弱音的效果,称为人耳的“掩蔽效应”。这些是话音压缩编码的出发点。

3.1 波型编码:对话音信号的每一个样点进行量化、编码和传输。 因此,波型编码是没有延迟的话音编码方案。 3.1.1 差值脉码调制(DPCM和△-调制)

一位的DPCM系统成为△-调制或增量调制DM。流程图如下:

Si+di量化器ˆdiˆisΔ码化器CiCiΔ译码器ˆdi~siˆis~si预测器+解码器预测器编码器 这里,^表示对应的量化值,上标 ~ 表示对应的预测值,用 ei 表示差值di的量化误差。收端恢复的量化信号只与差值信号的量化误差有关,而与预测器性质无关。 (1)当信号变化快时,恢复波形跟不上信号的变化,称为”斜率过载“ (2)对于零信号,DM方法交替输出一串0和1,这种随机交变电平成为“颗粒噪声”。解决办法是在量化器引入自适应阶矩调整机制(ADM)。如果自适应调整依据输入信号,称为前向自适应。如果自适应调整依据是量化器输,称为后向自适应。前向自适应将导致延迟的产生,后向自适应有可能不稳定。 3.1.2 连续可变斜率增量调制(CVSD) 其原理可用下图说明: 语音信号 + - 比较放大器 CLK 1 0 解码器 CLK 触发器 回放信号 PG 1 0 ALL \"1\" & ALL \"0\" ALL \"0\" ALL \"1\" PG 当反馈回路中,出现连续四个“1”或连续四个“0”时,表明系统出现斜率过载的情况,此时或门输出一个高电平,驱动触发器改变量化的阶矩的大小,以便适应输入信号的变化。 3.1.3 自适应差值脉码调制(ADPCM)

PCM:非均匀量化。D:调制。差值调制。CVSD:自适应概念

将脉码调制、差值调制和自适应技术三者结合起来。使编码算法不仅适用于幅值起伏较大的话音信号,而且能很好的适合于平稳信号(如话带数据)。 3.1.4信息压缩的基本思路 1、信息与消息

(1)消息是由符号、数字、文字或语言组成的序列。 (2)信息是消息中不确定的内容。

消息是信息的载体,信息是消息的内含。由于信息是消息中承载的不确定性因素(差别、变化、区别等),因此必然与通信双方的知识(约定)有关。越少见的事件,其出现带来的信息越多. 2、信息压缩的主要手段 (1)减少不确定性

差值编码:相当于用前一个值来预测当前值,引出线性预测的概念

d(n)s(n)is(ni)i1P

(2)通信双方建立某种知识约定,如码书或算法

(3)对变化的规律、不确定性因素建立描述机制或学习机制

3.2 参数编码就是对每帧语音信号,将滤波器系数和残差e(n)分别进行量化编码。由于e(n)的平均能量和幅度变化范围远远小于信号s(n),因此在信噪比相同的条件下,可以用较少的比特对其编码。参数编码时,将激励按清音、浊音分成高斯随机白噪声或准周期信号。倒谱参数C(n)构成的同态声码器,用共振峰参数构成的共振峰声码器,都是参数编码方法。

1、基音提取:并联基音提取方法。 (1)短时平均幅度差函数AMDF

(2)中心削波法是对信号的一个非线性变换:

S(n)ClC[S(n)]0S(n)ClS(n)Cl1S(n)ClS(n)Cl

式中,Cl称为削波电平,它取信号最大值Smax的一个百分比(30%~80%)

(3)三电平中心削波函数

C(s) 1 -Cl Cl s 1C[S(n)]01S(n)ClClS(n)ClS(n)Cl-1

用Y[S(n)]表示三电平中心削波器的输出,在自相关函数中有

1y(nm)y(nmk)01y(nm)y(nmk)y(nm)0.or.y(nmk)0y(nm)y(nmk)用三电平中心削波信号计算自相关函数,找到自相关函数最大值,并

将峰值与一个固定门限[例如Rn(0)的1/3]比较,如果低于门限判为清音,如果高于门限则最大峰位置判为基音周期。 2、并联基音提取 基本方法原理:

(1)先对信号进行处理产生若干冲激串,冲激串只保留原始信号的周期性而去除了与基音检测无关的信息。 (2)估计每个冲激串的周期。

(3)对这些周期进行逻辑判断,最后确定语音信号的周期,将进过低通滤波的信号按如下原则求出六个冲激串 3.3 混合编码

波形编码音质好但码率高,参数编码可以获得很低的码率但音质不好,为了兼顾二者的长处和不足,提出了残差激励模型,多脉冲激励模型和码激励模型。此外,对LPC参数模型也提出了噪声加权整形技术和长时预测滤波器等方法。 1、混合编码中的新技术 (1)长时预测滤波器

浊音信号存在准周期性,当用滤波器

e(n)s(n)is(ni)i1

描述语音信号时,残差序列e(n) 保留着中准周期性。为此,用一个称为长时预测滤波器的B(z)来去除这种准周期性。

B(z)jI(Mj)zMjI

式中M是对应于基音周期的样点数。I根据滤波器阶数一般取0或1。残差e(n)经B(z)滤波器滤波后将得到更加白化的噪声谱。 2、噪声整形

信号经短时长时滤波后,噪声谱一般是平坦的。由于在两个共振峰之间,信号谱低于噪声谱,因此尽管总的信噪比是高的,但在阴影区域对应的频率上,噪声能明显被人耳感觉到。采用噪声谱变形后,总的信噪比有所降低,但在所有频率上信号的能量大于噪声的能量,由于人耳的选择性,可以形成对噪声的听觉屏蔽效应,所以采用噪声整形。

功率谱dB 噪声谱包络 信号谱包络 频率kHz (a) 加噪声谱变形

3、合成分析法(Analasys By Sythesis A-B-S)

波形编码器内一般要嵌入一个解码器,使得解码信号与原始信号作差,提供一个比较信息或形成后向自适应。在参数编码时也用这一类方法,将合成信号与原始信号作差(加权)并比较,以次为依据进行参数修正或选择激励,这种方法称为A-B-S。LPC编码方法的二元激励模型过于简化。

(1)多脉冲激励线性预测编码器

MPLPC的关键问题是,如果一帧中允许用M个激励脉冲,如何求出

这M个脉冲的位置和幅度,使得合成语音与原始语音的感觉加权均方误差最小。

LPC分析 S(n) 激励发生器 LPC综合 滤波器 ˆ(n)s感觉加权 es(n) ew(n) 均方误差最小 用自相关法求出短时滤波器A(z)后经听觉加权处理,其冲击响应为:

h(n)(n)jrjh(nj)j1P1nN

它们激励综合滤波器合成语音信号为:

s(n)ghii1In(nmi)

(2) 规则脉冲激励线性预测编码器(RPE-LPC)

规则脉冲是多脉冲的一种,即脉冲间隔固定的多脉冲激励。对于规则脉冲激励,算法可以简化。其结构图如下:

S(n)原始语音 A(z) r(n)残差 v(n)— 激励发生器 1/A(z/r) ew(n)

均方误差最小估值

规则脉冲是让原始语音经短时滤波后的信号r(n)与激励信号作差,然

后对感觉加权后的差值信号求均方误差最小来确定最佳激励。 规则脉冲激励的问题是 A、确定规则脉冲最佳的相位 B、为每个非零脉冲确定一个幅度。 (4)码激励 CELP

通过LPC分析去除信号的短时相关性,再用长时基音分析去除基音周期性,得到的是信号具有高斯白噪声特性。 (5)G.728 低延迟码激励话音编码算法(LD-CELP) A、特点

a、每5个样点为一帧,延迟为0.625ms

b、采用50阶LPC滤波器,不用长时预测和基音检测

c、50阶LPC滤波器参数每4帧(20个样点,2.5ms)更新一次,具有时变参数特性

d、3位增益码书,7位波形码书的结构,增益码书与波形码书分别有0.5位冗余

e、采用后向滤波技术,因此不传递参数信息,只传递激励信息 f、采用对数增益滤波技术,有效地降低码书尺寸 B、G.728原理可归纳为一个判据 ,三个模块。 1) 判据

min

2ˆngiHyjnx2

2)LPC分析模块:

3)包括四个滤波器:a. 50阶综合滤波器 b. 10阶感觉加权滤波器 c. 10阶对数增益滤波器 d. 10阶后滤波器

(6)G.729:共轭结构的代数码激励 CS-ACELP

G.729编码器属于CELP型编码器,帧长为10ms,采样率为8kHz。通过对输入语音信号进行分析,提取出CELP模型参数,包括线性预测滤波器系数、自适应码书和代数码书的标号和增益,将这些参数编码后发往解码器。 A、编码器原理框图

输入语音 预处理 LP分析 量化内插 固定码书 GCLPC 信息 综合滤波器 自适应码书 GPLPC 信息 基音分析 感觉加权 固定码书 搜索 增益 量化 LPC 信息 参数 编码 传送的比特流 图G.729 编码器原理基本框图

B、解码器原理

解码器对接收到的码流进行解码,得到对应的编码器参数,利用这些参数,构成重建语音,再将重建语音送给后处理级,后处理级包括基于长时和短时合成滤波器的后滤波器,后面跟有一个高通滤波器和幅度调节单元。

固定码书 GC 短时滤波 后处理 自适应码书 GP G.729 解码器原理框图 C、

加窗

LP分析窗由两部分组成:第一部分是半个哈明窗,第二部分是四分之一个余弦函数窗 D、感觉加权滤波器

A(z/)W(z)A(z/1)211aizii1012aiziii1i110

滤波器系数ai是通过对输入语音进行LP分析而得到的,ai值每帧更新一次,以达到加权的作用。 E、开环基音分析

为降低搜索闭环基音的复杂性,可以先把搜索范围限制在开环基音Top附近。开环基音延迟是对加权输入语音信号sw(n)进行分析得到的,每帧进行一次。

F、自适应码书搜索

自适应码书搜索每个子帧进行一次,目的是找到最佳基音延迟和增益,使用的方法是基于加权均方误差最小准则进行的闭环分析,在第一个子帧里,在开环基音延迟Top附近的6个样点内搜索来确定延迟 G、固定码书结构

固定码书是基于代数结构的码书,其中,每个码矢含有4个非零脉冲,每个脉冲可为+1或-1, H、固定码书搜索方法

固定码书搜索是使加权输入信号语音Sw(n)和加权重建语音间均方误差最小。用于闭环基音搜索的目标信号通过减去自适应码书的贡献而得到更新。

因篇幅问题不能全部显示,请点此查看更多更全内容