VoIP中语音压缩编码技术的研究与性能分析

如对此感兴趣,请拨打电话02l-228l84l9,QQ微信,微博
诚招各地区市场各行业应用推广合作伙伴。查看详细联系方式
欢迎提出产品建议,思路,合作信息,我们计入产品股份,享有对应的分红权。

通信技术Internet的巨大成功。必将使IP成为未来信息网络的支柱技术,以IP为核心的分组化和以移动通信为核心的无线化已成为电信网络演进的主流方向。TCP/IP的网络技术不但无可置疑地成为数据领域的主导技术,而且已经开始进入电信领域,其突破口就是电话业务。

IP网络电话是一项涉及计算机网络、信令协议、数字信号处理等多个领域的综合性技术,它具有价格低廉、可以灵活地提供各种增值业务、有利于企业建立高效综合服务内部网、有利于运营商开拓新的市场、有助于和IP网络新技术的融合、促进网络技术的发展等独特的优势。其中价格低廉是IP电话能够进入市场的首要因素,其根本原因是IP电话均采用语音分组技术、语音压缩编码和统计复用,带宽利用率高,完成一次通信所需的成本大幅度降低。IP电话中的语音处理主要需要解决两个问题:一是在保证一定话音质量的前提下尽可能地降低编码比特率,二是在IP网络环境下保证一定的通话质量。前者正是我们要研究的语音编码技术。

1、语音编码技术

1.1 语音编码技术的分类

根据语音编码的发展过程,把语音编码技术归纳为以下3类:

1.1.1 波形编码

波形编码方式是能够忠实地表现波形的编码方式。语音信号的波形编码力图使重建的语音波形保持原语音信号的波形状态。这类编码器通常是将语音信号作为一般的波形信号来处理,所以它具有适应能力强、话音质量好、抗噪抗误码能力强等特点,但是波形编码所需的编码速率比较高,其速率一般在64 kbit/s~16 kbit/s。其中64 kbit/s PCM的语音编码方式是其中的一个代表。

1.1.2 参数编码

参数编码是根据声音的形成模型,把声音变换成参数的编码方式。其基本方法是通过对语音信号特征参数的提取及编码,力图使重建语音信号具有尽可能高的可懂性,即保持原语音的语义。而重建的信号的波形同原语音信号的波形可能会有相当大的差别。参数编码的最大优点是编码速率低,通常小于 4.8kbit/s,有时可以低至600 bit/s~2.4 kbit/s。缺点是合成语音质量差,自然度较低,对讲话环境噪声较敏感,且时延大。

参数编码的典型例子就是语音信号的线性预测编码(LPC),它已被公认为是目前参数编码中最有效的方法。

1.1.3 混合编码

混合编码结合了以上两种编码方式的优点,采用线性技术构成声道模型,不只传输预测参数和清浊音信息,而且预测误差信息和预测参数同时传输,在接收端构成新的激励去激励预测参数构成的合成滤波器,使得合成滤波器输出的信号波形与原始语声信号的波形最大程度的拟合,从而获得自然度较高的语声。这种编码技术的关键是:如何高效地传输预测误差信息。依据对激励信息的不同处理,这类编码主要有:多脉冲线性预测编码(MPLPC)、规则脉冲激励线性预测编码(RPELPC)、码激励线性预测编码(CELPC)、低时延的码激励线性预测编码(LD-CELPC)。

混合编码克服了原有波形编码器与声码器的弱点,而结合了它们的优点,在4 kbit/s~16 kbit/s速率上能够得到高质量合成语音。在本质上具有波形编码的优点,有一定抗噪和抗误码的性能,但时延较大。

1.2 语音压缩编码的原理

IP网络电话中的语音处理需要解决的一个重要问题就是在保证一定话音质量的前提下,尽可能降低编码比特率。这主要依靠语音编码技术来解决。IP 电话宜使用ITU-T定义的低比特率编码标准,其比特率为5.3 kbit/s~16 kbit/s,均为低复杂度编码算法,话音分组长度在30 ms以下,话音质量较好。从前面列举的几种编码方式也可看出,同一段语音信号,采用不同的编码方式,其编码后的比特率各不相同。那么为什么我们能够对语音信号进行压缩编码从而达到降低语音信号的比特率呢?

1.2.1 利用了语音信号的相关性

语音信源是相关信源,因此经过采样和量化的信号之间还有很强的相关性,为了降低编码速率,人们就希望尽可能多地去除语音信号之间的相关性。线性预测编码技术(LPC)就是一种用来去除语音信号之间相关性的常用技术。语音信号中存在两种类型的相关性:其一是在样点之间短时相关性。语音信号在某些短时段中呈现出随机噪声的特性,在另一些短时段中,则呈现出周期信号的特性,其他一些是二者的混合。简而言之,语音信号的特征是随时间而变化的,只是在一短段时间中,语音信号才保持相对稳定一致的特征,也就是语音信号的短时平稳性。其二是相邻基音周期之间存在的长时相关性。由于语音信号中的短时相关性和长时相关性很强,通过减弱这些相关性,使语音信号之间相关性降低,然后再进行编码,这样就可以实现语音压缩编码,降低比特率。

1.2.2 利用了人耳的听觉特性

利用人耳的掩蔽效应也可以进行语音压缩编码,降低比特率。两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感觉,使其变得不易被察觉,这就是我们所说的掩蔽效应。在语音频谱中,能 量较高的频段即共振峰处的噪声相对于能量较低频段的噪声而言不易被感知。因此在度量原始语音与合成语音之间的误差时可计入这一因素。在语音能量高的频段,允许二者的误差大一些,从而进一步降低编码比特率。为此引入一个频域感觉加权滤波器W(f)来计算二者的误差。感觉加权滤波器的频率响应中的峰、谷值正好与语音谱中相反。所以感觉加权滤波器的作用就是使实际误差信号的谱不再平坦。而是有着与语音信号谱具有相似的包络形状。这就使误差度量的优化过程与感觉上的共振峰对误差的掩蔽效应相吻合,产生较好的主观听觉效果。

1.2.3 线性预测分析——合成编码方法

IP网络电话中所使用的语音信号压缩编码方式大多数是基于合成—分析法的线性预测编码(ABS-LPC)方法,这是一种混合编码方法。线性预测技术就是用过去样点的线性组合来预测当前样点。假如用S(n)代表原始语音信号,用线性预测的方法求出预测器的系统预测系数αi,构成线性预测逆滤波 器,S(n)通过该滤波器后得到了去除短时相关性的语音信号。再将其进行基音预测,建立基音逆滤波器。去除它的长时相关性后,就可得到最后的残差信号。残差信号是完全随机的、不可预测的部分。根据速率的不同要求,可对残差信号采用不同的量化方法,从而得到不同的编码速率,让量化后的残差信号作为激励信号依次通过基音滤波器与线性预测滤波器后,便得到了合成语音信号,见图1。

图1 语音生成模型

编码的过程就是不断改变模型参数,使模型更好地适应原始语音信号。为此又引入了合成分析的概念。同时,利用人耳的掩蔽效应,引入了感觉加权滤波器。综合以上两方面,可以得到图2所示的线性预测分析—合成编码的方框图。

图2 线性预测分析—合成编码方案

合成—分析法的基本原理可以概括如下:假定—原始信号可以用一个模型来表示,这个模型又是由一组参数来决定的,随着这组参数的变化,模型所产生的合成信号就会改变,原始信号与合成信号之间的误差也随之而变化。为了使模型参数能更好地适应原始信号,可以规定一个误差准则:当误差越小,模型合成信号就和原始信号越接近。这样总能找到一组参数,使误差最小,此时这组参数决定的模型就可以使用。一般在编码端配备编码和本地解码两个部分。配备本地解码的目的是完成合成功能,以便计算原始语音信号与合成语音信号之间的误差值。在图2中之所以采用反馈控制,是为了求出最佳模型参数,使合成语音与原始语音在某种准则下最为接近。

基于合成—分析法的线性预测编码的过程实质上就是不断地改变模型参数,使模型更好地适应原始语音信号的过程。原始语音信号被分成帧,帧的长度和模型参数决定了编码速率。

2、IP语音压缩编码算法及性能分析

2.1 常用的语音压缩编码算法

IP电话经常使用ITU定义的两个标准:G.723.1、G.729。它们采用的都是线性预测分析-合成编码和码本激励矢量量化技术,即混合编码的方法。

2.1.1 G.723协议

G.723协议是一个双速率语音编码建议[1],其两种速率分别是5.3 kbit/s和6.3 kbit/s。此协议是一个数字传输系统概况协议,适用于低速率多媒体服务中语音或音频信号的压缩算法。它作为完整的H.324系列标准的一部分,主要配合低速率图像编码H.263标准。在IP电话网关中,G.723协议被用来实现实时语音编码解码处理。

G.723.1协议的编解码算法中两种速率的编解码基本原理是一样的,只是激励信号的量化方法有差别。对高速率(6.3 kbit/s)编码器,其激励信号采用多脉冲最大似然量化(MP-MLQ)法进行量化,对低速率(5.3 kbit/s)编码器,其激励信号采用代数码激励线性预测(ACELP)法量化。

编码过程是首先选速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,然后把输入语音信号的每240个样点组成一个帧,也就是30 ms的帧长。每个帧通过高通滤波器后再分为4个子帧。对于每个子帧,计算出10阶线性预测滤波器的系数。为了适于矢量量化,把预测系数转化为线性频谱对(LSP:line spectrum pair)。量化前的系数构成短时感觉加权滤波器,原始语音信号经过该滤波器得到感觉加权语音信号。对于每两个子帧,编码器用感觉加权语音信号求得开环基音周期,基音周期范围从18个样点到142个样点。此后编码器所进行的操作都是基于60个样点进行的。最后,激励信号被量化,然后把这些参数和激励信号量化结果传送到解码器。由于帧长为30 ms,并存在另外的7.5 ms的前向延迟,导致37.5 ms总的编码延迟。

G.723.1协议是为了低速可视会议业务而设计的。由于可视会议业务每秒钟只传输很少数量的帧,而且又有比较大的时延,这就是G.723.1 允许有30 ms帧长的原因。这个帧长比较大,却正好适合可视会议这种情况。而且它的编码速度比较低,可以把尽可能多的比特用在图像传输上。

2.1.2 G.729协议

G.729协议是一个能在8 kbit/s速率上实现高质量语音编码的建议,也是H.323协议中有关音频编码的标准[2]。在IP电话网关中,G.729协议被用来实现实时语音编码处理。G.729协议采用的是CS-ACELP即共轭结构算术码激励线性预测的算法。CS- ACELP以CELP编码模型为基础,它把语音分成帧,每帧10 ms,也就是80个采样点。对于每一帧语音,编码器从中分析出CELP模型参数,其中包括线性预测系数,自适应码本和随机码本的索引值和增益。然后把这些参数传送到解码端,解码器利用这些参数构成激励源和合成滤波器,从而重现原始语音。

编码过程是首先将速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,通过高通滤波器后,把输入语 音信号的每80个样点组成一个帧,也就是10 ms的帧长。对于每个帧用线性预测法求得LP滤波器系数,为了适于矢量量化,把预测系数转化为LSP。利用合成-分析方法,使原始语音和合成语音之间的误差最小,来获得最佳激励信号。激励信号的量化是通过两个码本来实现的,即自适应码本和随机码本。自适应码本反映的是长时预测结果,也就是基音预测结果。随机码本反映的是经过长时预测和短时预测后的残留信号。

2.2 性能分析与比较

语音编码的主要问题是怎样在编码质量、编码速率、算法复杂度以及抗误码性能、编解码时延等方面求得最佳。这几个因素相互联系,密切相关。下面就这些方面对G.729与G.723.1系统进行分析与比较,并给出了实验的结果[3]。

2.2.1 编码质量

编码质量是衡量语音编码优劣的关键性能之一,对它的评价通常有客观评价与主观评价两种。信噪比是衡量语音编码质量的客观标准。其计算可采用长时信噪比和短时信噪比两种准则。由于在语音信号中小能量占信号能量的比率较小,而恰恰小信号对主观听音效果又有比较大的影响,因此长时信噪比不能反应小能量量化的质量,在语音信号处理中经常采用短时信噪比。设每段有M个语音样点,则第m段的分段信噪比定义为

其中分式的分子分母分别表示M个语音样点的总能量和量化噪声的总能量。如果输入语音共有N段,则平均分段信噪比为

此次试验分别对男声、女声、童声以及混声进行了测试,它们得到的信噪比(尤其是时域信噪比)并不很高,然而经过主观评价即MOS(mean opinion score)分评价,它们的听音质量还相对较高,其结果如表1所示,由此说明了基于参数编码与波形编码的语音编码器的不同。

表1 ITU-T语音编码标准的比较

项目     G.729     G.723.1     G.729 annex A
比特率/(kbit/s)     8     5.3/6.3     8
帧大小/ms     10     30     10
头开销/ms     5     1.5     5
MOS     4     3.7     4
出台时间     1995年     1995年     1996年

2.2.2 编码速率

就目前而言,与ITU-T的其他编码标准相比,G.723.1的码速是最低的。它的码率为5.3/6.3 kbit/s,在编码码率方面拥有优势。G.729语音编码速率为8 kbit/s,在编码速率方面仅次于G.723.1,因而它们都较好地解决了通信过程中带宽不足的矛盾,有良好的应用前景。

2.2.3 编解码复杂度

编解码的复杂度与语音编码的质量有密切的关系,在同样的码率下,采用复杂的算法将获得更好的语音质量。表2给出了G.729与G.723.1在硬件实现上所需的资源。G.729在时延方面较G.723.1有优势;在复杂度方面,G.723.1相对G.729较优,但是G.729 annex A却有更大的优势。

表2 G.723.1,G.729与G.729annex A的比较

项目     G.723.1     G.729     G.729 annex  A
比特率/(kbit/s)     5.3/6.4     8.0     8.0
帧长/ms     30     10     10
头开销/ms     7.5     5     5
整个编码时延/ms     37.5     15     15
指令/(百万条/s)     16     20     10.5
RAM/byte     2 200     3 000     2 000

2.2.4 抗误码性能

抗误码性能是衡量语音编码质量的因素之一。测试表明,当随机误差为0.1%,G.729编码系统的性能与32 kbit/s G726 ADPCM相当,当误码率为10%,人耳虽能感觉到语音质量的下降,但仍能听懂语音含义;G.723.1抗误码性能与G.729基本相当。

2.2.5 编解码时延

增加算法的复杂度可以提高语音的编码质量。但往往也带来编解码的时延,在实时语音通信中对通话质量有很大影响。对于G.729系统而言由于码率为8kbit/s,每帧80个样点,因此帧大小为10 ms,再加上头开销5ms,整个系统的编解码时延为15ms,大大低于G.723.1的37.5 ms的时延(帧大小为30ms,再加上头开销7.5 ms)。因此在编解码时延方面G.729较G.723.1为优。

3、结论

混合编码中把激励模型和语音的时  
域波形结合到一起,从而改善了合成语音的质量。以上两种语音压缩编码算法的主要区别在于激励模型的不同。

虽然IP电话目前正处于蒸蒸日上的阶段。但它也存在这样或那样一些不尽如人意的方面。如何提高IP分组语音通信的质量,或者更一般地说,如何在IP网络上实现包括实时通信业务在内的综合业务通信,这正是我们需要进一步研究的。

您现在的位置: 上海速嵌 >> 技术库 >> 正文

分享到:

  相 关 技 术

固顶技术qPad一站式高效办公
固顶技术电机控制应用于医疗化工电子设备器械工业机器人自动化作业系统
固顶技术嵌入式软硬件设计服务
固顶技术声音图像语音视频通信系统
固顶技术工业传感器64路数据采集和监控
固顶技术高精度16路传感器数据采集和处理
固顶技术GPS导航定位监控行业应用方案 LBS (Location Based Service)
固顶技术Samsung S3C2440/S3C6410/S5PV210 工业产品级主板和解决方案
固顶技术GIS系统Mapinfo格式嵌入式GPS导航应用
普通技术机械臂定制
普通技术非标机械臂
普通技术机械手定制
普通技术机械臂开发
普通技术机械臂设计
普通技术机械臂
普通技术双赢双屏
普通技术众筹开发
普通技术可穿戴解决方案
普通技术imx6som卡片式计算机评估板
普通技术imx6单板工控主板火星板
普通技术imx6单板工控主板
普通技术硬件定制
普通技术远程现场呈现替身机器人
普通技术智能脉搏手表
普通技术悠牌电脑桌
普通技术OMAP4460 Pandaboard
普通技术Exynos4412评估板
普通技术iMX6SOM评估板
普通技术OMAP4460评估板
普通技术OMAP5432评估板
普通技术MK802 Linux系统
普通技术多频段RFID 3G平板
普通技术超远距离RFID终端
普通技术智能打印POS机
普通技术工业级WM智能手机
普通技术工业级Android手机
普通技术身份证识别工业平板
普通技术工业级3G平板电脑
普通技术工业安卓手持终端
普通技术GPU性能比较
普通技术Raspberry Pi 树莓派
普通技术linux qt软件开发
普通技术手机开发制造的全流程
普通技术移动嵌入式数据库市场与技术
普通技术Linux嵌入式文件系统横向对比分析
普通技术小票打印机
普通技术移动支付刷卡对比
普通技术刷卡魔块
普通技术微型UPC电脑
普通技术安防套装
普通技术USB摄像头
普通技术在线购买
普通技术技术参数
普通技术安装使用
普通技术工厂案例
普通技术公司案例
普通技术超市案例
普通技术增值功能
普通技术视频监控
普通技术在线订购
普通技术增值功能
普通技术功能介绍
普通技术最值得关注的主要嵌入式产品市场
普通技术意法半导体推出内置9轴MEMS传感器的STM32 F3开发套件
普通技术安卓Android工业平板电脑工业显示器
普通技术阳光下可视高亮度大尺寸LED显示屏
普通技术TTL转LVDS转换模块
普通技术嵌入式系统开发
普通技术3D打印机
普通技术vTigerCRM简介
普通技术功能框图
普通技术CRM作用价值
普通技术CRM与企业挑战
普通技术CRM与企业决策
普通技术CRM基础理论
普通技术国内3D打印产业与市场现状
普通技术无线医疗的机遇与挑战
普通技术EMI 来自哪里?EMI 如何通过介质干扰电路
普通技术硬件隔离保护设计 接口i2c rs232串口 485 can
普通技术Android平板电脑控制串口设备
普通技术摄像头汽车防碰撞系统
普通技术大运航海
普通技术系统说明
普通技术基于嵌入式S3C2440的船舶导航系统设计
普通技术智能家居
普通技术微虎CRM
普通技术ADI全系列仿真器ADZS-USB-ICE
普通技术九维航姿微系统电子罗盘电子陀螺仪
普通技术电子货架标签
普通技术ADDA-PWM板
普通技术网络音频板
普通技术电子产品制造服务
普通技术网络摄像头模块方案
普通技术警用警务警帽录像系统
普通技术S3C2416手持机
普通技术S3C6410手持机型
普通技术船舶船载电子海图系统和自动识别系统
普通技术HMI技术在工业控制领域的广泛应用
普通技术嵌入式组态软件和标准版组态软件的区别
普通技术光伏正弦波逆变电源
普通技术汽车电脑车载电脑汽车中控
普通技术健康监护系统
普通技术音频视频无线传输模块
普通技术广告机-支持无线网络
普通技术人体防摔安全气囊
普通技术iPhone 4拆解分析
普通技术Stellaris(群星)系列 ARM
普通技术嵌入式开发流程详解
普通技术系统移植和集成
普通技术嵌入式设备驱动程序开发
普通技术板级支持包(BSPs) 开发
普通技术电路原理图设计开发
普通技术PCB设计布线Layout
普通技术OMAP-L138 开发板
普通技术互动式手写电子白板
普通技术魔杖遥控器
普通技术便携式车载逆变器
普通技术电子血压计方案
普通技术IC智能卡刷卡机
普通技术汽车定位/调度/刷卡交费终端
普通技术汽车检测仪
普通技术微型潜水电脑
普通技术压力检测系统
普通技术网络音频终端
普通技术HMI人机界面定制开发
普通技术全球MEMS应用及其市场状况
普通技术EMC设计
普通技术ARM嵌入式数控系统
普通技术基于MSP430内嵌温度传感器的温度告警系统
普通技术语音通信系统中的噪声产生和影响
普通技术MP3算法实现
普通技术ITU G.729(CS-ACELP共扼结构-代数码激励线性预测)语音算法
普通技术ITU G.729(CS-ACELP共扼结构-代数码激励线性预测)语音算法
普通技术ITU G.723.1(ACELP代数码激励线性预测)语音算法
普通技术EVRC(Enhanced Variable Rate Codec)增强型多速率语音算法
普通技术语音通信系统中的回声产生和影响
普通技术语音通信系统中的回声产生和影响
普通技术AMR Wideband(Adaptive Multi Rate)宽带自适应多速率语音算法
普通技术AMR(Adaptive Multi Rate)自适应多速率语音算法
普通技术专业的音频视频算法处理
普通技术AAC(Advanced Audio Coding)
普通技术土壤水温监测系统
普通技术公司新闻
普通技术压力控制系统
普通技术中央空调控制系统
普通技术有关传感器与数据采集卡
普通技术S3C6410开发平台
普通技术S3C6410 移植Android 内核
普通技术S5PC110开发板
普通技术条形码识别软件
普通技术嵌入式系统硬件基础
普通技术各种认证,设计制造须知
普通技术Wiegand协议
普通技术使用PWM调光
普通技术TI DM6467 1080 高清编解码
普通技术电子设备产品机箱外壳设计
普通技术有源噪声消除 (ANC)
普通技术数字音频广播
普通技术汽车仪表板
普通技术汽车门禁系统
普通技术汽车车身控制器
普通技术车用信息娱乐
普通技术车用视觉控制
普通技术便携产品个性设计启示
普通技术投影仪、高清和低功耗 -- 多元化的手机设计
普通技术胎压计方案
普通技术G.723.1编解码算法的DSP实现
普通技术G.729A语音编码实时实现在TMS320VC5416 DSP上
普通技术GPRS数据传输终端
普通技术音频编解码标准汇总
普通技术语音识别技术简述
普通技术Iridix VEE
普通技术如何让便携式多媒体系统实现高质量音频
普通技术新AMR WB+音频/语音编解码器将在SoCIP2008展示
普通技术精心打造音视频领域的中国芯
普通技术PureSpeech蓝牙音频增强技术
普通技术语音识别应用中DSP
普通技术VoIP综合应用技术概述
普通技术VoIP中语音压缩编码技术的研究与性能分析
普通技术EVRC and G.729AB Transcoding
普通技术怎样选择嵌入式媒体处理器
普通技术TI达芬奇技术再战视频转码市场
普通技术土豆网紧跟Adobe步伐第一时间推出"清晰版"
普通技术VoIP电话发展简史
普通技术H.264简介
普通技术Internet语音通信中的回声消除技术