您的当前位置:首页正文

数字语音考点整理

2021-06-15 来源:好走旅游网
好好复习,人人考100分

数字语音编码考点大全

1. 数字语音处理的核心内容是认识和描述人类语音和语言的基本特征,即语音分析,并应

用于语音编码、语音合成、语音识别、说话人识别、语种识别、语音增强和语言理解等

众多分支领域。

2. 压缩编码需要在语音的可懂度和音质、降低传输码率、降低编码过程的计算代价3方面

进行折衷。 3. 语音编码通常分为波形编码、参数编码和混合编码三类。波形编码与参数编码的主要区

别在于重建的语音时域信号是否在波形上尽量与原始信号一致。 4. 参数编码的特点与缺点

参数编码通常称为“声码器技术”。它根据对声音形成机理的分析,在使重建的语音信号具有足够的可懂性的原则上,通过建立的语音信号的产生模型,提取代表语音新红啊特征的参数来编码,并不要求在波形上与原始信号匹配。频域上这一模型对应于具有一定零极点分布的数字滤波器,编码器只需要发送滤波器参数和相关语音特征值。由于语音在短时间内可认为其模型特征近似不变(短时平稳性),所以模型特征参数更新的频度较低,这就有效地降低了码率。

参数编码的优点是码率低,甚至可以工作在2.4kbit/s以下。其主要问题是合成语音质量差,特别是自然度低;另外对环境噪声较敏感,需要教安静的环境才能给出较高的可懂度。共振峰声码器和线性预测声码器都是典型的参数声码器。

5. 基音频率分为随发音人的性别、年龄而不同,老年男性偏低,小孩和青年女性偏高。基

音频率决定了声音频率的高低,频率高则音调高,频率低则音调低。成年男性的基音频率一般为50~250Hz,女性的基音频率一般为200~450Hz。 6. 音调是听觉分辨声音高低时用于描述这种感觉的一种特性。客观上用频率表示声音的音调,其单位是Hz,主观上感觉音调的单位采用美(mel)标度。 7. 掩蔽现象是一种常见的心理声学现象,它是由人耳的频率分辨机制决定的。在一个较强的声音附近,相对较弱的声音将不被人耳察觉,即被强音所掩蔽。较强的音称做掩蔽者,

较弱的音叫做被掩蔽者。掩蔽效应应分为同时掩蔽和异时掩蔽两种。 8. 语音是人类发音器官发出的一种声波,它与其他各种声音一样也有声音的物理属性。也即是说每一种音都具有一定音色、音调、音强和音长。 9. 语音信号的特性主要是指它的声学特性,语音信号的时域波形和频谱特性以及语音信号的统计特性等。

10. 语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时间的强弱用相应点的灰度或色调的浓淡来表示。 11. 目前,已经研究了许多种不同的语音信号模型。其中,广泛使用的线性语音信号模型是

级联无损声管模型和共振峰模型。

12. 根据分析出参数的性质不同,语音信号分析技术分为时域分析、频域分析、倒频域分析等。 13. 简述语音信号的数字分析与处理的过程?

语音信号的数字化一般包括放大及增益控制、预处理(主要是反混叠滤波)、A/D转换(包含采样过程)及编码(PCM编码)。预处理一般包括预处理、加窗和分帧等。预滤波的目的主要是抑制超出fs/2输入信号的频域分量(fs为取样频率),以防止混叠干扰,这一过

1

好好复习,人人考100分

程称为反混叠滤波。预滤波器是带通滤波器(fh和fl是其上、下截止频率)。语音信号经过预滤波和取样后,由A/D转换器变换为二进制数字码。A/D转换中要对信号进行量化,量化就会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。A/D转换器分为线性和非线性两类。数字化的反过程是从数字化语音中重构语音波形。由于进行了上述处理,在接收语音信号之前,必须在D/A转换后加平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。

语音输入 反混叠滤波 A/D转换 分析处理 传输或存储 语音输出 平滑滤波 D/A转换 合成处理

14. 不论分析怎样的参数以及采用什么分析方法,在按帧进行语音分析、提取语音参数之前,

有一些经常使用的、共用的短时分析技术必须预先进行,如语音信号的数字化、语音信

号的端点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号分析的关键技术。 15. 语音的清音能量较小,浊音能力较大。语音的能量分析主要是语音的短时能量和短时平均幅度。

16. 简述为什么要进行语音端点检测以及如何进行语音端点检测?

在许多实际应用中,要求首先对系统的输入信号进行判断,准确找出语音断的起始点和终止点。使采集的数据是真正的语音信号,以减少数据量和运算量并减少处理时间。

两级判别法是一种有效地语音起止点的经典判别方法。该方法用短时能量做第一次判别,在此基础上用短时平均过零率作第二次判别。用短时能量做第一次判别时,为了不至于把语音能量的局部下降点错误的当成起止点,采用双门限比较的方法。用短时平均过零率作第二次判别,以短时平均过零率Zn为标准,从C点往左和从D点往右搜索,找到短时平均过零率第一次低于某个门限M3的两点E、F,这就是语音断的起止点.。门限M3由背景噪声的平均过零率Zr确定,一般取M3=(3~5)Zr. 17. 简述什么是中值滤波及其过程?

中值滤波是一种非线性滤波过程。它采用滑动窗口从数据序列选出一段数据,然后用这段数据的中间值来代替这段数据。窗口不断沿数据序列滑动,便不断地得到一个个中指作为滤波结果。设待滤波数据序列为x(n),滑动窗宽为L,当滑动窗位于n时,窗口选取的数据段是x(n)、x(n-1),„„x(n-L+1),中值滤波器的输出ML[x(n)]是上列数据段的中间值,即 ML[x(n)]={x(n)、x(n-1),„„x(n-L+1)}的中值。在信号开始和末端边界处的

2

好好复习,人人考100分

中值,通常是假定信号的边界值保持不变进行外推来确定的。举例说明。

18. 广义上讲,语音信号的频域分析对象包括语音信号的频谱、功能谱、倒频谱和频谱包络等,常用的频域分析方法有带同滤波器组法、Fourier变换法、同态分析、线性预测法等几种。

19. 宽带带通滤波器具有平坦特性,用它可以粗略地求取语音的频谱,其频率分辨率较低,

相当于短时处理时窗宽较窄的情况。

20. 小波变换的研究主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,

进行清、浊音判断,动态频谱分析。

21. 根据语音信号产生的数字模型,语音信号是由准周期脉冲(浊音)或随机白噪声(清音)

激励一个线性短时不变系统产生的输出。

22. 分离非加性组合(如乘性或卷积行组合)信号,常采用同态滤波技术。

23. 在倒谱情况下一个序列经过正反两个特征系统变换后,不能还原成自身;这是因为在计算倒谱的过程中,序列的相位信息丢失了。

24. 计算复倒谱的方法:按复倒谱的定义计算、复对数求导数计算和递推计算。 25. 简述如何利用数字语音信号的倒谱分析法判别基因周期。 (P112)

频谱法基音估计的原理相当简单,首先计算语音的倒谱,然后再可能出现的基音周期附近寻找寻找峰值。如果倒谱分支超过了预先设置的门限,则输入语言段判为浊音,其峰值位置就是基音周期的估计值;反之,如果没有超出门限的峰值的话,则输入语音为清音。

X(n) + 汉明窗 基音周期和清浊判别 峰值检测 DFT 计算振幅 取对数 IFFT 26. lpc分析的基本思想是:利用语音信号之间的想关性,用过去的取样值来预测现在或未来的取样值,即用过去若干个语音信号的取样值的线性组合逼近一个语音信号的取样值。

27. 语音信号序列是一个缓变的随机序列。与语音信号产生的物理机理模型比较,该模型是

发音机理模型的一种特殊形式,它把发音过程中的辐射、声道以及声门机理的全部谱效应简化为一个时变的数字滤波器来表示。 28. LPC的经典算法有自相关法和协方差法两种

3

好好复习,人人考100分

29. 矢量量化技术是一种数据压缩和编码技术,现已广泛应用于语音编码、语音合成、语音识别和说话人识别等领域、 30. 矢量量化的基本原理及使用范围?

矢量量化的基本原理是将若干个标量数据或一帧语音数据中提取的特征参数,组成一个矢量,在多维空间上整体量化,从而可以在信息量损失较小的情况下高效地压缩数据量。矢量量化有效地利用了矢量中分量之间有相关性,压缩效果远优于标量量化。矢量量化不仅用于线性预测编码而且适用于波形编码,能用于语音压缩和语音识别和说话人识别,同时用于语音处理而且用于图像处理。

31. 失真测度的选择的好坏将直接影响到聚类效果和量化精度,进而影响到语音信号矢量量

化处理系统的性能。

32. 在语音信号处理中,矢量量化最常用的失真测度是Euclid距离测度、加权Euclid距离测度、Itakura-Satio距离测度、似然比失真测度和识别失真测度等。

33. 矢量量化器的最佳码书设计遵循的两个原则是:最近邻准则,矢量质心准则。 34. 简述二叉树的搜索原理。(P149)

略。

35. 压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。

36. 在语音信号处理中,Lpc分析是一种常用的技术,在语音识别、语言合成、语音编码和说话人识别等领域获得成功的应用。Lpc编码的出发点在于跟踪波形的产生过程,而不是波形本身,他传送的是反映整个过程变化的参数。Lpc是基于全极点模型假设。 37. 语音波形编码是最基本的语音编码方式,也是最早提出和实现的编码技术。应用最多的

语音波形编码技术主要有PCM(脉冲编码调制)、ADPCM(自适应脉冲编码调制)和SBC(子带编码)。 38. 计算设计。

略。

4

因篇幅问题不能全部显示,请点此查看更多更全内容