采用ITU-T标准的商用音频压缩编码系统研究

  提要声音信号的存储与传输,从模拟信号到数字信号经历了一个革命性的发展。随着多媒体处理技术的发展,数字音频压缩编码技术得到了广泛应用。从1972年开始ITU-T为音频信号压缩编码制定的一系列标准,成为当前移动通讯、数字卫星系统、网络广播等领域广泛采用的音频压缩编码技术和标准。

  关键词:声音信号;音频压缩编码;ITU-T标准

  中图分类号:029文献标识码:A

  

  一、引言

  

  声音是一种能量波。数字音频编码是把连续变化的波形信号转化为离散的数字信号的过程。我们通常采用PCM编码方式进行转化。

  PCM也称为脉冲代码调制编码。脉冲调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化、编码的过程。

  在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,规定PCM为无损编码。

  (一)音频数据压缩比。音频编码的作用:一是采用一定的格式来记录数字数据;二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩编码的基本指标之一就是压缩比,它通常小于1。压缩越多,信息丢失越多、信号还原后失真越大。

  音频数据压缩比=压缩后的音频数据量/压缩前的音频数据量

  (二)音频压缩的主要分类。一般来讲,根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类;而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩以及多种技术相互融合的混合压缩,等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例)以及编解码延时等都有很大的不同。

  多媒体音频信号大致可分为三类:电话质量的语音信号、调幅广播质量的音频信号和高保真立体声音频。ITU-T标准是当前商用音频编码系统主要的三大标准之一。

  

  二、ITU-T标准简介

  

  ITU-T(国际电信联盟远程通信标准化组原CCITT)旗下的G系列标准已成为电话质量的语音信号、调幅广播质量的音频信号压缩编码的国际标准。

  ITU-T最初定义的音频编码算法建议标准包括G.711、G.721、G.722、G.723等。1995年之后,ITU-T批准了新的语音压缩标准G.728,G.729等。表1给出了ITU-T标准主要算法的比较。(表1)

  

  三、ITU-T G系列主要标准的发展及应用

  

  (一)G.726标准。G.726是ITU-T1990年在G.721和G.723标准的基础上提出的关于把64kbps非线性PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号的标准。G.726标准算法简单,语音质量高,多次转换后语音质量有保证,能够在低比特率上达到网络等级的话音质量。

  G.726最为常用的方式是32kbit/s,但由于其只是G.711速率的一半,所以就将网络的可利用空间增加了一倍。在这些通道中,24kbps和16kbps的通道被用于数字电路倍增设备(DCME)中的语音传输,而40kbps通道则被用于DCME中的数据解调信号(尤其是4800kbps或更高的调制解调器)。

  (二)G.727标准。ITU-T于1990年通过了镶嵌式ADPCM标准G.727。其码率为16~40kbit/s,G.727定义了当原信号是脉冲率为64kbit/s脉冲编码调制信号(从在G.711中具体规定的语音频率模拟信号转变而来)。

  (三)G.728标准。为了进一步降低语音压缩的码率,1991年ITU-T制定了G.728标准,使用基于短延时码本激励线性预测(LD-CELP)算法,通过对语音信号的分析,提取CELP模型的参数,在解码端,这些参数用于恢复激励信号和综合滤波器的参数。其码率为16kbit/s,其质量与32kbit/s的G.721标准相当。

  CELP是一个闭环线性预测系统,它利用输入语音信号确定最佳参数,然后根据最小误差准则从码本中找出最佳激励码矢量。CELP具有较强的抗干扰能力,在4-16Kb的传输速率下能够得到较高质量的语音信号。

  G.728标准的语音编码的主要特点有:算法时延短,仅为0.625ms;编码时延小于2ms;传输比特率为16kbit/s;MOS值为4.173,达到了长途通信质量。

  我们选用G.728标准的语音编码算法作为IP电话的编码算法。

  (四)G.723.1标准。随着互联网技术的快速发展和多媒体通信业务的飞速增长,ITU-T对8kbit/s以下的高质量语音编码方案给予了极大关注。由ITU-T的第15小组(SG15)1995年提出的G.723.1标准是极低速率多媒体通信标准系列H.324中的有关语音编码的一个标准。

  G.723.1编码器采用了线性预测分析合成的技术,对8kHz取样的16bit精度的PCM数字音频进行处理,以尽量减少实际语音与合成语音之间经听觉加权后的差分信号的能量为准则来进行编码的。在G.723.1标准中提供了两种可选速率,分别为5.27kbit/s和6.3kbit/s。和同样速率的其他语音编码器相比,这两种编码器都具有较高的语音质量,较低的编码时延(30~40ms)。高速率提供更好的重建语音质量,低速率的算法计算量低,给系统设计者提供了更多的灵活性。两种速率的编解码器都具有较高的语音质量和较低的延时,允许在相邻帧(30ms)的边界转换速率,在无声帧进行噪声填充,实现了可变速率的不间断传输。

  该编码建议在有限的复杂度下最优化地表示语音信号,采用线性预测的合成分析法分帧处理。高码率(6.3kb/s)激励信号采用多脉冲极大似然量化(MP-MLQ),低码率(5.3kb/s)激励信号采用代数码本激励线性预测(ACELP)。每帧30ms,另加7.5ms的前视,算法总延迟37.5m。

  (五)G.729 标准。G.729标准是国际电联电信标准部门第十五研究组(ITU-T SG15)在(1993~1996)期间在语音编码方面取得的最大标准化成果。

  G.729协议定义了8kbit/s码率的共扼结构代数码本激励线性预测(CS-ACELP)语音编解码算法。模拟信号经过电话带宽滤波,以8kHz采样,再转换为16bit PCM码,送入编码器编码,输出比特流参数,解码器对比特流参数解码,以同样方式转换为模拟信号。其他格式的信号都要预先化为16bit PCM码,解码后再转换回来。

  CS-ACELP编码器建立在码本激励模型的基础上,8kHz采样信号每10ms为一帧(含80个样本),按帧计算CELP模型参数(LP系数、码本增益、基音和码本索引),将参数编码传送。解码器将接收到的参数解码,得到激励和合成滤波器参数。激励信号经过短时合成滤波器滤波得重构语音信号,短时合成滤波器为10阶LP滤波器。长时滤波器为自适应码本滤波器。重构语音还需经过若干个后滤波处理步骤。

  G.729标准主要应用有:个人移动通信、低C/N数字卫星系统(包括陆地移动卫星通信、海事卫星通信、一般航空卫星通信等)、高质量数字移动无线通信DOME、存储/检索以及分组语音和数字租用信道等。

  

  四、小结

  

  音频压缩编码技术的研究是目前国际上的信号压缩领域的一大研究热点。研究者一直在寻求能够在保证音频质量的前提下尽可能的降低音频信号码率的技术。本文对数字音频压缩编码的相关理论和技术参数做了简要介绍。分析并研究了ITU-T国际标准在当前数字广播、网络、移动通讯等领域的应用。

  (作者单位:1.北华航天工业学院;2.河北金融学院)

  

  主要参考文献:

  [1]房建,左涛等.数字音频压缩编码技术及其应用.信息技术,2004.

  [2]ISO/IEC11172.Coding of moving pictures and Associated audio for digital storage media at up to about 1.5Mbit/s.Information Technology,1993.

  [3]http://www.itu.int/publications.

  [4]Robert A,Wannamarker,Edward R J.Audio Eng.Soc.July/August,1997.45.

  提要声音信号的存储与传输,从模拟信号到数字信号经历了一个革命性的发展。随着多媒体处理技术的发展,数字音频压缩编码技术得到了广泛应用。从1972年开始ITU-T为音频信号压缩编码制定的一系列标准,成为当前移动通讯、数字卫星系统、网络广播等领域广泛采用的音频压缩编码技术和标准。

  关键词:声音信号;音频压缩编码;ITU-T标准

  中图分类号:029文献标识码:A

  

  一、引言

  

  声音是一种能量波。数字音频编码是把连续变化的波形信号转化为离散的数字信号的过程。我们通常采用PCM编码方式进行转化。

  PCM也称为脉冲代码调制编码。脉冲调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化、编码的过程。

  在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,规定PCM为无损编码。

  (一)音频数据压缩比。音频编码的作用:一是采用一定的格式来记录数字数据;二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩编码的基本指标之一就是压缩比,它通常小于1。压缩越多,信息丢失越多、信号还原后失真越大。

  音频数据压缩比=压缩后的音频数据量/压缩前的音频数据量

  (二)音频压缩的主要分类。一般来讲,根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类;而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩以及多种技术相互融合的混合压缩,等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例)以及编解码延时等都有很大的不同。

  多媒体音频信号大致可分为三类:电话质量的语音信号、调幅广播质量的音频信号和高保真立体声音频。ITU-T标准是当前商用音频编码系统主要的三大标准之一。

  

  二、ITU-T标准简介

  

  ITU-T(国际电信联盟远程通信标准化组原CCITT)旗下的G系列标准已成为电话质量的语音信号、调幅广播质量的音频信号压缩编码的国际标准。

  ITU-T最初定义的音频编码算法建议标准包括G.711、G.721、G.722、G.723等。1995年之后,ITU-T批准了新的语音压缩标准G.728,G.729等。表1给出了ITU-T标准主要算法的比较。(表1)

  

  三、ITU-T G系列主要标准的发展及应用

  

  (一)G.726标准。G.726是ITU-T1990年在G.721和G.723标准的基础上提出的关于把64kbps非线性PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号的标准。G.726标准算法简单,语音质量高,多次转换后语音质量有保证,能够在低比特率上达到网络等级的话音质量。

  G.726最为常用的方式是32kbit/s,但由于其只是G.711速率的一半,所以就将网络的可利用空间增加了一倍。在这些通道中,24kbps和16kbps的通道被用于数字电路倍增设备(DCME)中的语音传输,而40kbps通道则被用于DCME中的数据解调信号(尤其是4800kbps或更高的调制解调器)。

  (二)G.727标准。ITU-T于1990年通过了镶嵌式ADPCM标准G.727。其码率为16~40kbit/s,G.727定义了当原信号是脉冲率为64kbit/s脉冲编码调制信号(从在G.711中具体规定的语音频率模拟信号转变而来)。

  (三)G.728标准。为了进一步降低语音压缩的码率,1991年ITU-T制定了G.728标准,使用基于短延时码本激励线性预测(LD-CELP)算法,通过对语音信号的分析,提取CELP模型的参数,在解码端,这些参数用于恢复激励信号和综合滤波器的参数。其码率为16kbit/s,其质量与32kbit/s的G.721标准相当。

  CELP是一个闭环线性预测系统,它利用输入语音信号确定最佳参数,然后根据最小误差准则从码本中找出最佳激励码矢量。CELP具有较强的抗干扰能力,在4-16Kb的传输速率下能够得到较高质量的语音信号。

  G.728标准的语音编码的主要特点有:算法时延短,仅为0.625ms;编码时延小于2ms;传输比特率为16kbit/s;MOS值为4.173,达到了长途通信质量。

  我们选用G.728标准的语音编码算法作为IP电话的编码算法。

  (四)G.723.1标准。随着互联网技术的快速发展和多媒体通信业务的飞速增长,ITU-T对8kbit/s以下的高质量语音编码方案给予了极大关注。由ITU-T的第15小组(SG15)1995年提出的G.723.1标准是极低速率多媒体通信标准系列H.324中的有关语音编码的一个标准。

  G.723.1编码器采用了线性预测分析合成的技术,对8kHz取样的16bit精度的PCM数字音频进行处理,以尽量减少实际语音与合成语音之间经听觉加权后的差分信号的能量为准则来进行编码的。在G.723.1标准中提供了两种可选速率,分别为5.27kbit/s和6.3kbit/s。和同样速率的其他语音编码器相比,这两种编码器都具有较高的语音质量,较低的编码时延(30~40ms)。高速率提供更好的重建语音质量,低速率的算法计算量低,给系统设计者提供了更多的灵活性。两种速率的编解码器都具有较高的语音质量和较低的延时,允许在相邻帧(30ms)的边界转换速率,在无声帧进行噪声填充,实现了可变速率的不间断传输。

  该编码建议在有限的复杂度下最优化地表示语音信号,采用线性预测的合成分析法分帧处理。高码率(6.3kb/s)激励信号采用多脉冲极大似然量化(MP-MLQ),低码率(5.3kb/s)激励信号采用代数码本激励线性预测(ACELP)。每帧30ms,另加7.5ms的前视,算法总延迟37.5m。

  (五)G.729 标准。G.729标准是国际电联电信标准部门第十五研究组(ITU-T SG15)在(1993~1996)期间在语音编码方面取得的最大标准化成果。

  G.729协议定义了8kbit/s码率的共扼结构代数码本激励线性预测(CS-ACELP)语音编解码算法。模拟信号经过电话带宽滤波,以8kHz采样,再转换为16bit PCM码,送入编码器编码,输出比特流参数,解码器对比特流参数解码,以同样方式转换为模拟信号。其他格式的信号都要预先化为16bit PCM码,解码后再转换回来。

  CS-ACELP编码器建立在码本激励模型的基础上,8kHz采样信号每10ms为一帧(含80个样本),按帧计算CELP模型参数(LP系数、码本增益、基音和码本索引),将参数编码传送。解码器将接收到的参数解码,得到激励和合成滤波器参数。激励信号经过短时合成滤波器滤波得重构语音信号,短时合成滤波器为10阶LP滤波器。长时滤波器为自适应码本滤波器。重构语音还需经过若干个后滤波处理步骤。

  G.729标准主要应用有:个人移动通信、低C/N数字卫星系统(包括陆地移动卫星通信、海事卫星通信、一般航空卫星通信等)、高质量数字移动无线通信DOME、存储/检索以及分组语音和数字租用信道等。

  

  四、小结

  

  音频压缩编码技术的研究是目前国际上的信号压缩领域的一大研究热点。研究者一直在寻求能够在保证音频质量的前提下尽可能的降低音频信号码率的技术。本文对数字音频压缩编码的相关理论和技术参数做了简要介绍。分析并研究了ITU-T国际标准在当前数字广播、网络、移动通讯等领域的应用。

  (作者单位:1.北华航天工业学院;2.河北金融学院)

  

  主要参考文献:

  [1]房建,左涛等.数字音频压缩编码技术及其应用.信息技术,2004.

  [2]ISO/IEC11172.Coding of moving pictures and Associated audio for digital storage media at up to about 1.5Mbit/s.Information Technology,1993.

  [3]http://www.itu.int/publications.

  [4]Robert A,Wannamarker,Edward R J.Audio Eng.Soc.July/August,1997.45.


相关内容

  • 现代信号处理及其应用
  • [数字信号处理在视频领域的应用] [] [111044A ] [111044124] [2014.4.15] 摘要: 本文主要介绍了数字信号处理在视频领域的应用,包括相关背景.发展历程及其未来发展趋势.包含数字信号处理视频的标准及应用,重点突出数字信号处理在视频处理中的具体技术及其的实现. 目录 数 ...

  • 视频编码标准的发展概括:从H.261到H.264
  • 数字视频技术广泛应用于通信.计算机.广播电视等领域,带来了会议电视.可视电话及数字电视.媒体存储等一系列应用,促使了许多视频编码标准的产生.ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261.H.263.H.264,主要应用于实时视频通信领域,如会议电视:MPEG ...

  • 论文摘要及翻译
  • 摘 要 近年来,计算机网络的迅速发展给全球的各个方面都带来了巨大的变化.其中,基于IP网络的语音通信方式为人们的远距离交流提供了一种价格低廉的途径,结束了传统电信领域中电路交换方式一统天下的局面.本文介绍了在分组交换网上构建多媒体通信系统的标准-H.323协议,H.323协议经过不断的完善和改进,目 ...

  • 华为视频会议基本知识1
  • 华为视频会议入门手册 关于技术 Q 1. 什么是视频会议系统? A 视频会议是利用现有通信网(包括各种传输网络)和数字信号压缩处理技术,将音视频和数据信号处理后传到远端,实现面对面的交流.其交流形式为点到点,点对多点.主要设备包括MCU (多点控制单元).视频会议终端.网关.网守和相关的配套外围设备 ...

  • HEVC,星火燎原
  • 随着多媒体技术的发展,人们观看视频信息的方式也不再局限于传统的客厅电视终端以及计算能力较好的PC终端,多媒体终端技术的发展使得越来越多的视频应用可以在计算资源有限的移动平台实现,如平板电脑.智能手机平台.而随着媒体捕获能力的提升,人们对高清.超高清视频的需求也越来越多.今年巴西世界杯的三场超高清直播 ...

  • 密集波分复用系统(2)-思考题及参考答案
  • 密集波分复用系统(2)-思考题及参考答案 (1)简述何为NRZ 和RZ ?它们分别有何特点? 答:不归零码(NRZ ,Not Return to Zero) 数字信号可直接采用基带传输,所谓基带就是指基本频带.基带传输就是在线路中直接传送数字信号的电脉冲,这是一种最简单的传输方式,近距离通信的局域网 ...

  • 骨干网光网络技术的发展与展望
  • 骨干网光网络技术的发展与展望 1 引言 没有人怀疑IP会一统天下.近年来,伴随数据业务在全球范围内突飞猛进的发展,业务容量和业务颗粒越来越大,如何高效地承载这种突发的.大容量IP业务成为当前通信业面临的非常重要的问题.可喜的是,技术的发展没有停止脚步,一批批新技术.新材料.新工艺不断涌现,来解决传送 ...

  • 视频会议方案
  • 视频会议系统项目 技术方案 目 录 1 技术方案 . ........................................................................................................................... ...

  • 音频编码技术及广播电台数字编码压缩传输系统建设
  • 摘 要 随着广播电视数字化技术的迅猛发展,数字音频压缩编码技术已在广电领域得到广泛应用.本文介绍了音频编码的分类.原理.现行主流标准以及我国自主研发的DRA数字音频编码标准.同时以广播电台为实例,对播出音频信号的数字编码压缩传输系统进行了简要介绍. 关键词 数字化:音频编码:DRA:压缩传输 中图分 ...