从有损到无损的音频编解码框架

igital Si g nal Processing

文章编号:1002-8684(2010)12-0060-05

数字信号处理

AVS 无损音频编解码技术

从有损到无损的音频编解码框架

杨新辉1,舒海燕2,曲天书3,张

涛4,窦维蓓

5

论文··

(1. 中科开元信息技术(北京)有限公司,北京100080;2. 新加坡科研局资讯通信研究院,新加坡138632,新加坡;

3. 北京大学机器感知与智能教育部重点实验室,北京100871;4. 天津大学电子信息工程学院,天津300072;

5. 清华大学电子工程系,北京100084)

【摘

要】无损音频编码技术是用于数字音频数据存档,高质量音频编码的一种重要技术,提出了一种兼容有损编

解码器的无损音频编解码系统设计。包括通过有损编码残差进行无损扩展和独立的无损编解码两部分。系统采用了声道去相关、整型提升小波、线性预测、残差处理和算术熵编码等技术。在相当复杂度条件下,达到与国际主流无损音频编码技术相当的压缩性能。

【关键词】音频;无损压缩;声道去相关;算术编码;提升小波【中图分类号】TN912

【文献标识码】A

From Lossy to Lossless :A Framework of Audio Codec

YANG Xinhui 1,SHU Haiyan 2,QU Tianshu 3,ZHANG Tao 4,DOU Weibei 5

(1. CASKY eTech Co. ,Ltd. ,Beijing 100080,China ;2. Institute for Infocomm Research A*STARSingapore ,Singapore 138632,

Singapore ;3. Key Laboratory of Machine Perception (Minister of Education ),Peking University ,Beijing 100871,China ;

4. School of Electornics and Information Engineering ,Tianjin University ,Tianjin 300072,China ;

5. Department of Electronic Engineering ,Tsinghua University ,Beijing 100084,China )

【Abstract 】Lossless audio technology is a kind of important audio coding technology which is used to archive

digital audio data and encode high quality audio. Lossless audio codec system with lossy codec is described. It

includes lossless extension through lossy coding residual and independent lossless codec. Channel decorrelation ,in-teger lifting wavelet ,linear prediction ,residuals handling and arithmetic entropy coding are adopted. In very com-plex conditions ,the compression performance is achieved to internation mainstream lossless audio coding technolgy.

【Key words 】audio ;lossless compression ;channel decorrelation ;arithmetical coding ;lifting wavelet

1

引言

随着音视频应用的普及,用户对视听产品中的音

复成原始音频;(2)支持多种采样率:32~192kHz ;(3)支持多声道:单声道,立体声,多声道;(4)高压缩效率:在相当的编码复杂度下实现较高压缩率;(5)较低的复杂度:算法解码复杂较低,解码速度快,易于行业实现;(6)支持有损无损混合编解码模式:独立无损模式和有损无损混合模式;(7)个别技术满足随机访问要求:48kHz 采样率下,达到23ms 的随机访问精度。

频质量的要求日益提高,有损编码技术因其具有较高压缩比,仍然是音频编码技术的主流,但因有损编码过程中会产生音质的下降,无法满足人们对高质量音频回放和无损存档需求,因此无损音频编解码需求应运而生,并在近年来获得更多的关注。特别是大容量存储器和蓝光光盘技术的成熟应用,为无损音频编码技术[1-2]应用提供了广阔市场。

目前,国际上普遍应用的几种无损编码技术包括两种模式:有损无损混合模式和独立无损模式。如采用有损无损混合模式的MPEG-4SLS 标准;采用独立无损模式的MPEG-4ALS 标准,Monkey ′s Audio ,FLAC ,

2008年,中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )[3-5]颁布了“信息技术—先进音视频编码第3部分:音频”标准建议,以下简称

AVS-P3。AVS-P3的核心是高保真有损音频压缩编码技术,研究AVS-P3的无损扩展技术,扩展其应用领域就显得非常实际。另外,考虑到无损音频数据存档等纯无损数字音频技术的应用需求,研究独立的纯无损音频压缩技术也同样重要。2010年,AVS 工作组专门成立了“无损音频编码专题组”,通过技术提案征集、技术

TAK 和WAVPack 等。这些技术普遍满足较高的技术指标要求:(1)数据无损:无损编码数据可以被完全恢

輪电声技术2010年第34卷第12期讂輮

数字信号处理

AVS 无损音频编解码技术

评估、性能评测和技术整合等过程,形成了“从有损到无损的音频编解码系统”标准技术提案[6]。以下简称“AVS 无损音频”。

频定点解码器。

输入音频信号AVS 有损

编码器

Digital Si g nal Processin

G

核心码流

定点核心无损补偿模式

无损编码器

码输出流码流复用器

2AVS 无损音频编解码技术概述

AVS 无损音频编解码技术既是兼容AVS 有损编解码器的无损扩展技术,又具有低复杂度、高压缩效率的独立纯无损编解码功能,具有较好的灵活性、可扩展性和高效性。AVS 无损音频技术在设计时,充分考虑有损编解码器的特点和码流结构,根据具体应用需求,无损编解码框架可以支持独立的无损编解码和有损无损混合编解码两种模式供用户选择。

图1

缓冲器纯无损模式

无损编码码流

AVS 无损音频编码框架

编码过程为:在选用纯无损模式时,原始音频输入直接传送到AVS 无损编码器进行编码;在混合模式时,原始音频数据先输入到AVS 有损编码器进行编码,编码后的数据送入定点核心解码器解码,用于生成残差信号,之后对残差信号进行无损编码,在码流复用器中将有损编码数据和无损编码数据进行打包处理,合成有损无损混合码流。

2.1有损/无损混合模式

为了获得更好的灵活性和后向兼容性,在有损编

码基础上扩展无损编码,采用如下两种方法:

第一种,通过有损残差实现无损扩展。有损数据来自有损压缩后的解码器输出,原始数据与有损数据之间的残差使用无损编码器进行残差编码,在无损编码码流中,每帧数据既包含有损编码数据A ,又包含残差编码数据Delta ,即A+Delta模式。

第二种,分别用有损编码器和无损编码器对原始音频数据进行编码,在无损编码码流中,每帧数据既有有损编码数据A ,又有无损编码数据B ,即A+B模式。

以上两种无损扩展方法分别具有不同的特点,A+

2.4从有损到无损的解码框架

解码是编码的反向过程,从有损到无损的音频解

码系统包括:码流解复用器、定点有损核心解码器和无损解码器,如图2所示。

核心解码音频(有损)纯无损模式

解码器无损补偿模式

核心码流

无损编码码流

流输入解码流复用器

无损解码音频

无损解码器

图2AVS 有损解码器的无损扩展

Delta 模式能够在混合条件下获得较好压缩比,类似于MPEG-4的可伸缩无损编码标准SLS (Scalable Lossless Coding ),但编码复杂度相对较高;A+B模式具有较好的灵活性,解码复杂度低,但在压缩性能上与A+Delta模式相比平均要差5%左右。两种压缩方法均可以对有损数据实现后向兼容,即:有损解码器可以解码无损扩展码流中有损编码数据A 。

解码过程为:首先,码流解复用器解析输入的AVS 无损扩展音频码流,分离有损编码和纯无损编码两部分码流;其次,有损码流进入定点核心解码器解码,获得有损音频数据A ;无损编码码流则进入无损解码器进行解码,依据编码模式,输出A+Delta模式中的Delta 或A+B模式中的B 。根据码流结构定义以及输出需求,无损扩展解码器可以直接输出无损解码音频B ,或者将无损解码器输出的Delta 与核心定点解码音频A 一起整合输出无损解码音频(A+Delta残差模式)。

在AVS 无损编/解码扩展中,核心技术是无损编码器和无损解码器,下面从技术要点和实现原理上重点介绍AVS 无损音频编/解码器。

2.2独立纯无损模式

在没有或不需要支持有损编解码器的情况下,

AVS 无损编码系统将独立工作于纯无损编码模式,被称为B 模式,类似于A+B模式中的A=0。相对于A+B和

A+Delta两种混合模式,单纯无损编码的B 模式的压缩效率明显高,而且计算复杂度也明显低于混合模式。

3

3.1

AVS 无损音频编解码模块介绍

AVS 无损音频编码器

AVS 无损编码器包括对多声道信号的去相关处理

2.3从有损到无损的编码框架

AVS 无损音频编码系统包括有损编码器、有损定点解码器、无损编码器和码流复用器。如图1所示,它是纯无损模式和有损无损混合模式(对应图1中的无损补偿模式)并存的扩展框架。其中无损编码器是独立的B 模式无损编码器,定点核心解码器是有损音

模块、整型提升小波分解、线性预测器、LPC 系数量化和熵编码这几个关键模块,如图3所示。

无损编码过程为:对输入到无损编码器的原始数据首先通过声道去相关模块进行多声道下混处理。对

电声技术2010年第34卷第12期

讂輯輪

igital Si g nal Processing

输入信号声道

重建

整型提升小波分解

小波边信息

数字信号处理

AVS 无损音频编解码技术

(5)熵编码器:对归一化处理后的预测残差进行熵编码。

线性预测器(LPC )

预处理器

熵编码器

编码码流

LSB 和符号位

3.3.1声道去相关

在去相关模块中,AVS 无损编码器对两声道以上

LPC 系数计算和量化

量化LPC 系数

的多声道数据,根据声道组合不同,通过Mid/Side方法进行编码:可以选择对原始声道进行编码,也可以选择利用和声道和差声道进行编码。

图3AVS 无损音频编码器

下混声道,采用整型提升小波进行子带分解(时-频映射),各子带信号分别采用传统的线性预测器进行预测,生成预测残差信号。预测残差信号首先经过预处理器的归一化处理,产生归一化输出信号、LSB 信号以及信号符号位。归一化的各子带预测输出信号经过熵编码器进行熵编码,生成编码码流。

无损编码器的输出码流,即无损编码码流,由熵编码器的编码码流、LSB 信号、符号位、量化后的LPC 系数以及小波边信息组成。

Mid =(L +R )/2Side =(L -R )

(1)

将多声道数据中,根据声道间数据相关性和声道对组合采用方法进行去相关处理,并且在单帧内,比较原始声道和和声声道进行相关性判断,选择最优编码声道对组合。

3.3.2整型提升小波

小波变换对音频信号进行分带处理,生成的窄带

信号(细节信号和近似信号)再进一步采用LPC 处理,以提高编码器的压缩性能。考虑到浮点数运算的截断误差问题,该模块用整型提升小波来实现。

图5~6分别展示了整型提升小波的编码和解码处理过程。图中,P 为预测算子,U 为更新算子。

x [2n ]

x [n ]

量化LPC 系数小波边信息

分裂

3.2AVS 无损音频解码器

无损解码端处理是编码的反向过程,如图4所示。

输出信号声道

重建

整型提升小波重构

线性预测器(LPC )

后处理器熵解码器

LSB 和符号位

编码码流

P 1

U 1

xd [n ]

xs [n ]

P 2

U 2

ca [n ]

x [2n+1]

xs [n ]

P 2

cd [n ]

图5

x [2n ]

x [n ]

隔合

整型提升小波编码

图4无损解码器

无损解码器的输入包括:编码码流、LSB 信号、符号位信号、量化LPC 系数以及小波边信息。熵解码器对编码码流进行熵解码,然后通过后处理器,同LSB 和符号位,一起组合生成预测残差。线性预测器根据量化的LPC 系数对预测残差进行重建,生成各子带信号。利用整型提升小波对子带信号和小波边信息进行重构,得到相应的原始无损信号。最后,再通过声道去相关重建,生成相应声道的无损输出信号。

P 1

U 1

xd [n ]

U 2

ca [n ]

x [2n+1]

cd [n ]

图6整型提升小波解码

3.3.3线性预测器(LPC )

为确保音频信号能够在不同的运算平台上无损重

建,线性预测器以整数运算实现。LPC 偏相关系数可由

Levinson-Durbin 算法[2]算出。

对于长度为N 的输入序列x ,LPC 生成残差序列d 的过程为

3.3AVS 无损音频编码技术主要模块构成

AVS 无损音频编码器由以下5部分构成:(1)声道去相关:根据声道间的相关性利用和差编码进行去相关处理;

(2)整型提升小波分解:基于整型提升小波对输入音频信号分带,并生成边信息;

(3)线性预测器(LPC ):使用量化后的LPC 系数计算预测残差;

(4)预处理器:对预测残差信号进行归一化处理,同时输出相应的LSB 信号和符号位;

d [n ]=

x [n ],n =0≤

n ≤ΣΣ19

≤Σ·2+Σc [n ][k ]x [n-k ]Σ

,x [n ]-1≤n

2Σ≤Σ

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

≤Σ20

2≤ΣΣ

(2)

輪电声技术2010年第34卷第12期讂輰

数字信号处理

AVS 无损音频编解码技术

当level =0时,式中的x 为原始输入信号,当level =

Digital Si g nal Processin

G

1时,x 则为小波模块输出的ca ,cd 信号。

由残差序列d 重构LPC 输入序列x 的过程为

4AVS 无损音频编码性能评价

为了评测AVS 编解码技术的压缩效率,笔者选取

x [n ]=

d [n ],n =0≤

n ≤ΣΣ19

≤Σ·x [n-k ]Σ2+Σc [n ][k ]

,d [n ]+1≤n

2ΣΣ≤

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

2≤ΣΣ

(3)

了语音、乡村和爵士乐、电影配乐等不同类型的音频信号作为测试序列,包括单声道、立体声、多声道等声场特征。采用对比方式进行压缩效率评价,即选择国际上通用的无损音频编码产品作为测试对比,对相同的测试序列进行无损编码,比较各自的压缩效率。

4.1混合模式下性能比较

有损无损混合模式下,选择MPEG-4SLS 标准与

AVS 无损编码标准进行比较,主要分为A+B(对应SLS 的Non-Core 编码模式)和A+Delta(对应SLS 的Core 模式)的比较。

图9是Non-Core 编码模式下的比较结果。在A+B模式(Non-Core 模式)条件下,随着编码码率的提高,

3.3.4预处理器

编码预处理分为两步:(1)残差能量归一化;(2)输

出残差样值符号。第一步指的是:将输入残差样值序列中最前边的几个样值进行下移降幅操作,以便整个序列保持较小的动态范围,从而提高后续熵编码的效率。第二步指的是根据残差d [i ]的符号输出残差样值符号。

AVS 无损音频的压缩效率优于MPEG-4的SLS 。

3.3.5熵编码

熵编码器处理过程如图7所示,预测残差先进行

数据分段,划分为sub 段,之后计算每段样值的均值,再对均值进行量化,将均值索引编码和残差值样值的高比特位(MSB )进行算术编码,算术编码使用的概率表通过索引均值的反向量化和概率模板生成,经过算术编码的编码码流在和LSB 进行合并形成熵编码码流。

预测残差数据

分段

MSB LSB 分流

MSB 位元索引编码

码输出

算术编码

流码流

算术码流

编码器

并概率表生成

概率模板

LSB 位元流

图10是Core 编码模式下的比较结果。在A+Delta无损扩展(Core 模式)条件下,在编码码率大于96kb/s时,AVS 无损音频压缩率优于SLS 无损。

均值计算

量化

反向

均值量化索引

图7熵编码器

熵解码器的处理过程如图8所示,(1)反向量化;(2)概率模板;(3)概率表生成

算术解码器对残差的

MSB 进行算术解码。解码后的MSB 比特与输入码流中的LSB 比特合并形成预测残差信号。

输入码流码流

分流算术编码码流

LSB MSB

算术解码器生成

索引解码反向量化

MSB 预测残差LSB 合并

4.2独立模式下性能比较

独立无损编码(B 模式),选择AVS 无损编码器与

概率模板

MPEG-4标准的ALS 和一些国际上比较流行的无损编码技术进行比较。选定的无损编码Monkey ′s Audio [7]

图8熵解码器

电声技术2010年第34卷第12期

讂輱輪

igital Si g nal Processing

(参数:extra high/normal),TAK [8](参数:Normal ),ALS

数字信号处理

AVS 无损音频编解码技术

频标准建议,并被中国蓝光(CBHD )标准工作组采用。

参考文献

RM21(参数:Rice/BGMC1024sample ),FLAC [9](参数:Normal ),WavPack [10](参数:Default )等。

各编码器的压缩效率列于表1中,结果表明,AVS 无损编码器的压缩性能与其他无损编码器相比,在相当的编码参数设置下,压缩比处于前列。跟MPEG-4的ALS 标准相比,在帧长度为1024个样点条件下,相同的LPC 阶数,AVS 无损编码压缩效率优于ALS 采用

[1]REZNIK Y A. Coding of prediction residual in MPEG-4standard for lossless audio coding ,acoustics ,speech and signal processing ,2004[C]//Proceedings(ICASSP 04)of IEEE Internaltional Conference. 2004,3:1024-1027.

[2]ROBINSON T. SHORTEN :Simple lossless and near-lossless

waveform compression ,Tech.Rep ,CUED/FINFENG/TR.156[R].Cambridge :UK Cambridge University ,1994.

[3]高文,黄铁军. 信源编码标准AVS 及其在数字电视中的应

用[J].电视技术,2003(11):4-6.

BGMC 编码的模式。

表1

编码器名称

编码平均压缩率

平均压缩率/%

32kHz/16bit 44.1kHz/16bit 96kHz/24bit

192kHz/24bit

50.7751.4452.2951.9552.2352.4953.3154.39

47.0247.9847.9548.0948.3248.6049.3850.64

47.1946.3747.9747.5749.0847.8951.6851.38

35.5735.2235.0135.5436.3135.9140.3346.03

Monkey EH AVS Lossless

TAK ALS (BGMC )Monkey Normal ALS FLAC WavPack

[4]黄铁军,高文. AVS 标准制定背景与知识产权状况[J].电视

技术,2005(7):4-7.

[5]王明伟. AVS 中的音视频编码压缩技术[J].电视技术,2006

(6):13-16.

[6]AVS 工作组. AVS lossless Committee Draft (CD )document

(N1738)[EB/OL].(2010-09-16)[2010-11-10].ftp ://159.226.

42.57. [7]

ASHLAND M T. Monkey ′s Audio compression program[EB/OL].(2003-02-10)[2010-11-02].saudio.com. [8]

BECKER T. TAK :(T )om ′s lossless (A )udio (K )ompressor. )[EB/OL].(2006-01-18)[2010-10-20].www.thbeck.de. [9]Xiph Org Foundation ,COALSON J. FLAC open source audio

compression[EB/OL].(2006-03-12)[2010-10-18].http ://www.xihp.org.

[10]BRYANT D. WavPack Audio Compression[EB/OL].(2005-03-10)[2010-10-25].http ://www.wavpack.com.[责任编辑]史丽丽

[收稿日期]2010-11-01

http ://www.monkey-

5

结论

AVS 无损音频编解码系统实现了从有损到无损

的伸缩编码方案,具有灵活、可扩展和高性能的特点。特别是在压缩效率方面,在编码条件相当的情况下,AVS 无损音频编解码器的压缩性能优于现行国际标准和多数流行无损编码产品。该系统算法复杂度低,易于在硬件平台实现,并且支持有损无损混合模式和独立无损编码模式,具有较好的灵活性,将是无损音频编码技术方面一种新的选择。该系统已经成为中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )的音

(上接第56页)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

该音准指示仪的外观如图5所示。

[2]柏静,韦岗. 一种基于线性预测与自相关函数的语音基音

周期检测新算法[J].电声技术,2005(8):43-46.

[3]张永亮,李凌,张先庭. 基于折线削波电平的自相关函数法

检测基音[J].电声技术,2009,33(1):52-54.

[4]朱明武,李永新,卜雄洙. 测试信号处理[M].北京:北京航空

航天大学出版社,2006.

[5]赵晓群,王光艳. 汉语语音基音轨迹的形态学滤波和平滑

[J].信号处理,2003,19(4):354-357.

参考文献

[6]陈学煌. 复杂声音信号基频检测和处理的一种方法及实例

[J].应用声学,2007,26(6):341-346. [责任编辑]史丽丽

[收稿日期]2010-08-16

[1]鲍长春,樊昌信. 基于归一化互相关函数的基音检测算法

[J].通信学报,1998,19(10):27-30.

輪电声技术2010年第34卷第12期讂輲

igital Si g nal Processing

文章编号:1002-8684(2010)12-0060-05

数字信号处理

AVS 无损音频编解码技术

从有损到无损的音频编解码框架

杨新辉1,舒海燕2,曲天书3,张

涛4,窦维蓓

5

论文··

(1. 中科开元信息技术(北京)有限公司,北京100080;2. 新加坡科研局资讯通信研究院,新加坡138632,新加坡;

3. 北京大学机器感知与智能教育部重点实验室,北京100871;4. 天津大学电子信息工程学院,天津300072;

5. 清华大学电子工程系,北京100084)

【摘

要】无损音频编码技术是用于数字音频数据存档,高质量音频编码的一种重要技术,提出了一种兼容有损编

解码器的无损音频编解码系统设计。包括通过有损编码残差进行无损扩展和独立的无损编解码两部分。系统采用了声道去相关、整型提升小波、线性预测、残差处理和算术熵编码等技术。在相当复杂度条件下,达到与国际主流无损音频编码技术相当的压缩性能。

【关键词】音频;无损压缩;声道去相关;算术编码;提升小波【中图分类号】TN912

【文献标识码】A

From Lossy to Lossless :A Framework of Audio Codec

YANG Xinhui 1,SHU Haiyan 2,QU Tianshu 3,ZHANG Tao 4,DOU Weibei 5

(1. CASKY eTech Co. ,Ltd. ,Beijing 100080,China ;2. Institute for Infocomm Research A*STARSingapore ,Singapore 138632,

Singapore ;3. Key Laboratory of Machine Perception (Minister of Education ),Peking University ,Beijing 100871,China ;

4. School of Electornics and Information Engineering ,Tianjin University ,Tianjin 300072,China ;

5. Department of Electronic Engineering ,Tsinghua University ,Beijing 100084,China )

【Abstract 】Lossless audio technology is a kind of important audio coding technology which is used to archive

digital audio data and encode high quality audio. Lossless audio codec system with lossy codec is described. It

includes lossless extension through lossy coding residual and independent lossless codec. Channel decorrelation ,in-teger lifting wavelet ,linear prediction ,residuals handling and arithmetic entropy coding are adopted. In very com-plex conditions ,the compression performance is achieved to internation mainstream lossless audio coding technolgy.

【Key words 】audio ;lossless compression ;channel decorrelation ;arithmetical coding ;lifting wavelet

1

引言

随着音视频应用的普及,用户对视听产品中的音

复成原始音频;(2)支持多种采样率:32~192kHz ;(3)支持多声道:单声道,立体声,多声道;(4)高压缩效率:在相当的编码复杂度下实现较高压缩率;(5)较低的复杂度:算法解码复杂较低,解码速度快,易于行业实现;(6)支持有损无损混合编解码模式:独立无损模式和有损无损混合模式;(7)个别技术满足随机访问要求:48kHz 采样率下,达到23ms 的随机访问精度。

频质量的要求日益提高,有损编码技术因其具有较高压缩比,仍然是音频编码技术的主流,但因有损编码过程中会产生音质的下降,无法满足人们对高质量音频回放和无损存档需求,因此无损音频编解码需求应运而生,并在近年来获得更多的关注。特别是大容量存储器和蓝光光盘技术的成熟应用,为无损音频编码技术[1-2]应用提供了广阔市场。

目前,国际上普遍应用的几种无损编码技术包括两种模式:有损无损混合模式和独立无损模式。如采用有损无损混合模式的MPEG-4SLS 标准;采用独立无损模式的MPEG-4ALS 标准,Monkey ′s Audio ,FLAC ,

2008年,中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )[3-5]颁布了“信息技术—先进音视频编码第3部分:音频”标准建议,以下简称

AVS-P3。AVS-P3的核心是高保真有损音频压缩编码技术,研究AVS-P3的无损扩展技术,扩展其应用领域就显得非常实际。另外,考虑到无损音频数据存档等纯无损数字音频技术的应用需求,研究独立的纯无损音频压缩技术也同样重要。2010年,AVS 工作组专门成立了“无损音频编码专题组”,通过技术提案征集、技术

TAK 和WAVPack 等。这些技术普遍满足较高的技术指标要求:(1)数据无损:无损编码数据可以被完全恢

輪电声技术2010年第34卷第12期讂輮

数字信号处理

AVS 无损音频编解码技术

评估、性能评测和技术整合等过程,形成了“从有损到无损的音频编解码系统”标准技术提案[6]。以下简称“AVS 无损音频”。

频定点解码器。

输入音频信号AVS 有损

编码器

Digital Si g nal Processin

G

核心码流

定点核心无损补偿模式

无损编码器

码输出流码流复用器

2AVS 无损音频编解码技术概述

AVS 无损音频编解码技术既是兼容AVS 有损编解码器的无损扩展技术,又具有低复杂度、高压缩效率的独立纯无损编解码功能,具有较好的灵活性、可扩展性和高效性。AVS 无损音频技术在设计时,充分考虑有损编解码器的特点和码流结构,根据具体应用需求,无损编解码框架可以支持独立的无损编解码和有损无损混合编解码两种模式供用户选择。

图1

缓冲器纯无损模式

无损编码码流

AVS 无损音频编码框架

编码过程为:在选用纯无损模式时,原始音频输入直接传送到AVS 无损编码器进行编码;在混合模式时,原始音频数据先输入到AVS 有损编码器进行编码,编码后的数据送入定点核心解码器解码,用于生成残差信号,之后对残差信号进行无损编码,在码流复用器中将有损编码数据和无损编码数据进行打包处理,合成有损无损混合码流。

2.1有损/无损混合模式

为了获得更好的灵活性和后向兼容性,在有损编

码基础上扩展无损编码,采用如下两种方法:

第一种,通过有损残差实现无损扩展。有损数据来自有损压缩后的解码器输出,原始数据与有损数据之间的残差使用无损编码器进行残差编码,在无损编码码流中,每帧数据既包含有损编码数据A ,又包含残差编码数据Delta ,即A+Delta模式。

第二种,分别用有损编码器和无损编码器对原始音频数据进行编码,在无损编码码流中,每帧数据既有有损编码数据A ,又有无损编码数据B ,即A+B模式。

以上两种无损扩展方法分别具有不同的特点,A+

2.4从有损到无损的解码框架

解码是编码的反向过程,从有损到无损的音频解

码系统包括:码流解复用器、定点有损核心解码器和无损解码器,如图2所示。

核心解码音频(有损)纯无损模式

解码器无损补偿模式

核心码流

无损编码码流

流输入解码流复用器

无损解码音频

无损解码器

图2AVS 有损解码器的无损扩展

Delta 模式能够在混合条件下获得较好压缩比,类似于MPEG-4的可伸缩无损编码标准SLS (Scalable Lossless Coding ),但编码复杂度相对较高;A+B模式具有较好的灵活性,解码复杂度低,但在压缩性能上与A+Delta模式相比平均要差5%左右。两种压缩方法均可以对有损数据实现后向兼容,即:有损解码器可以解码无损扩展码流中有损编码数据A 。

解码过程为:首先,码流解复用器解析输入的AVS 无损扩展音频码流,分离有损编码和纯无损编码两部分码流;其次,有损码流进入定点核心解码器解码,获得有损音频数据A ;无损编码码流则进入无损解码器进行解码,依据编码模式,输出A+Delta模式中的Delta 或A+B模式中的B 。根据码流结构定义以及输出需求,无损扩展解码器可以直接输出无损解码音频B ,或者将无损解码器输出的Delta 与核心定点解码音频A 一起整合输出无损解码音频(A+Delta残差模式)。

在AVS 无损编/解码扩展中,核心技术是无损编码器和无损解码器,下面从技术要点和实现原理上重点介绍AVS 无损音频编/解码器。

2.2独立纯无损模式

在没有或不需要支持有损编解码器的情况下,

AVS 无损编码系统将独立工作于纯无损编码模式,被称为B 模式,类似于A+B模式中的A=0。相对于A+B和

A+Delta两种混合模式,单纯无损编码的B 模式的压缩效率明显高,而且计算复杂度也明显低于混合模式。

3

3.1

AVS 无损音频编解码模块介绍

AVS 无损音频编码器

AVS 无损编码器包括对多声道信号的去相关处理

2.3从有损到无损的编码框架

AVS 无损音频编码系统包括有损编码器、有损定点解码器、无损编码器和码流复用器。如图1所示,它是纯无损模式和有损无损混合模式(对应图1中的无损补偿模式)并存的扩展框架。其中无损编码器是独立的B 模式无损编码器,定点核心解码器是有损音

模块、整型提升小波分解、线性预测器、LPC 系数量化和熵编码这几个关键模块,如图3所示。

无损编码过程为:对输入到无损编码器的原始数据首先通过声道去相关模块进行多声道下混处理。对

电声技术2010年第34卷第12期

讂輯輪

igital Si g nal Processing

输入信号声道

重建

整型提升小波分解

小波边信息

数字信号处理

AVS 无损音频编解码技术

(5)熵编码器:对归一化处理后的预测残差进行熵编码。

线性预测器(LPC )

预处理器

熵编码器

编码码流

LSB 和符号位

3.3.1声道去相关

在去相关模块中,AVS 无损编码器对两声道以上

LPC 系数计算和量化

量化LPC 系数

的多声道数据,根据声道组合不同,通过Mid/Side方法进行编码:可以选择对原始声道进行编码,也可以选择利用和声道和差声道进行编码。

图3AVS 无损音频编码器

下混声道,采用整型提升小波进行子带分解(时-频映射),各子带信号分别采用传统的线性预测器进行预测,生成预测残差信号。预测残差信号首先经过预处理器的归一化处理,产生归一化输出信号、LSB 信号以及信号符号位。归一化的各子带预测输出信号经过熵编码器进行熵编码,生成编码码流。

无损编码器的输出码流,即无损编码码流,由熵编码器的编码码流、LSB 信号、符号位、量化后的LPC 系数以及小波边信息组成。

Mid =(L +R )/2Side =(L -R )

(1)

将多声道数据中,根据声道间数据相关性和声道对组合采用方法进行去相关处理,并且在单帧内,比较原始声道和和声声道进行相关性判断,选择最优编码声道对组合。

3.3.2整型提升小波

小波变换对音频信号进行分带处理,生成的窄带

信号(细节信号和近似信号)再进一步采用LPC 处理,以提高编码器的压缩性能。考虑到浮点数运算的截断误差问题,该模块用整型提升小波来实现。

图5~6分别展示了整型提升小波的编码和解码处理过程。图中,P 为预测算子,U 为更新算子。

x [2n ]

x [n ]

量化LPC 系数小波边信息

分裂

3.2AVS 无损音频解码器

无损解码端处理是编码的反向过程,如图4所示。

输出信号声道

重建

整型提升小波重构

线性预测器(LPC )

后处理器熵解码器

LSB 和符号位

编码码流

P 1

U 1

xd [n ]

xs [n ]

P 2

U 2

ca [n ]

x [2n+1]

xs [n ]

P 2

cd [n ]

图5

x [2n ]

x [n ]

隔合

整型提升小波编码

图4无损解码器

无损解码器的输入包括:编码码流、LSB 信号、符号位信号、量化LPC 系数以及小波边信息。熵解码器对编码码流进行熵解码,然后通过后处理器,同LSB 和符号位,一起组合生成预测残差。线性预测器根据量化的LPC 系数对预测残差进行重建,生成各子带信号。利用整型提升小波对子带信号和小波边信息进行重构,得到相应的原始无损信号。最后,再通过声道去相关重建,生成相应声道的无损输出信号。

P 1

U 1

xd [n ]

U 2

ca [n ]

x [2n+1]

cd [n ]

图6整型提升小波解码

3.3.3线性预测器(LPC )

为确保音频信号能够在不同的运算平台上无损重

建,线性预测器以整数运算实现。LPC 偏相关系数可由

Levinson-Durbin 算法[2]算出。

对于长度为N 的输入序列x ,LPC 生成残差序列d 的过程为

3.3AVS 无损音频编码技术主要模块构成

AVS 无损音频编码器由以下5部分构成:(1)声道去相关:根据声道间的相关性利用和差编码进行去相关处理;

(2)整型提升小波分解:基于整型提升小波对输入音频信号分带,并生成边信息;

(3)线性预测器(LPC ):使用量化后的LPC 系数计算预测残差;

(4)预处理器:对预测残差信号进行归一化处理,同时输出相应的LSB 信号和符号位;

d [n ]=

x [n ],n =0≤

n ≤ΣΣ19

≤Σ·2+Σc [n ][k ]x [n-k ]Σ

,x [n ]-1≤n

2Σ≤Σ

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

≤Σ20

2≤ΣΣ

(2)

輪电声技术2010年第34卷第12期讂輰

数字信号处理

AVS 无损音频编解码技术

当level =0时,式中的x 为原始输入信号,当level =

Digital Si g nal Processin

G

1时,x 则为小波模块输出的ca ,cd 信号。

由残差序列d 重构LPC 输入序列x 的过程为

4AVS 无损音频编码性能评价

为了评测AVS 编解码技术的压缩效率,笔者选取

x [n ]=

d [n ],n =0≤

n ≤ΣΣ19

≤Σ·x [n-k ]Σ2+Σc [n ][k ]

,d [n ]+1≤n

2ΣΣ≤

≤Σlpc_order

Σ19

≤≤·2+Σc [lpc_order][k ]x [n-k ]Σ

,lpc_order≤n

2≤ΣΣ

(3)

了语音、乡村和爵士乐、电影配乐等不同类型的音频信号作为测试序列,包括单声道、立体声、多声道等声场特征。采用对比方式进行压缩效率评价,即选择国际上通用的无损音频编码产品作为测试对比,对相同的测试序列进行无损编码,比较各自的压缩效率。

4.1混合模式下性能比较

有损无损混合模式下,选择MPEG-4SLS 标准与

AVS 无损编码标准进行比较,主要分为A+B(对应SLS 的Non-Core 编码模式)和A+Delta(对应SLS 的Core 模式)的比较。

图9是Non-Core 编码模式下的比较结果。在A+B模式(Non-Core 模式)条件下,随着编码码率的提高,

3.3.4预处理器

编码预处理分为两步:(1)残差能量归一化;(2)输

出残差样值符号。第一步指的是:将输入残差样值序列中最前边的几个样值进行下移降幅操作,以便整个序列保持较小的动态范围,从而提高后续熵编码的效率。第二步指的是根据残差d [i ]的符号输出残差样值符号。

AVS 无损音频的压缩效率优于MPEG-4的SLS 。

3.3.5熵编码

熵编码器处理过程如图7所示,预测残差先进行

数据分段,划分为sub 段,之后计算每段样值的均值,再对均值进行量化,将均值索引编码和残差值样值的高比特位(MSB )进行算术编码,算术编码使用的概率表通过索引均值的反向量化和概率模板生成,经过算术编码的编码码流在和LSB 进行合并形成熵编码码流。

预测残差数据

分段

MSB LSB 分流

MSB 位元索引编码

码输出

算术编码

流码流

算术码流

编码器

并概率表生成

概率模板

LSB 位元流

图10是Core 编码模式下的比较结果。在A+Delta无损扩展(Core 模式)条件下,在编码码率大于96kb/s时,AVS 无损音频压缩率优于SLS 无损。

均值计算

量化

反向

均值量化索引

图7熵编码器

熵解码器的处理过程如图8所示,(1)反向量化;(2)概率模板;(3)概率表生成

算术解码器对残差的

MSB 进行算术解码。解码后的MSB 比特与输入码流中的LSB 比特合并形成预测残差信号。

输入码流码流

分流算术编码码流

LSB MSB

算术解码器生成

索引解码反向量化

MSB 预测残差LSB 合并

4.2独立模式下性能比较

独立无损编码(B 模式),选择AVS 无损编码器与

概率模板

MPEG-4标准的ALS 和一些国际上比较流行的无损编码技术进行比较。选定的无损编码Monkey ′s Audio [7]

图8熵解码器

电声技术2010年第34卷第12期

讂輱輪

igital Si g nal Processing

(参数:extra high/normal),TAK [8](参数:Normal ),ALS

数字信号处理

AVS 无损音频编解码技术

频标准建议,并被中国蓝光(CBHD )标准工作组采用。

参考文献

RM21(参数:Rice/BGMC1024sample ),FLAC [9](参数:Normal ),WavPack [10](参数:Default )等。

各编码器的压缩效率列于表1中,结果表明,AVS 无损编码器的压缩性能与其他无损编码器相比,在相当的编码参数设置下,压缩比处于前列。跟MPEG-4的ALS 标准相比,在帧长度为1024个样点条件下,相同的LPC 阶数,AVS 无损编码压缩效率优于ALS 采用

[1]REZNIK Y A. Coding of prediction residual in MPEG-4standard for lossless audio coding ,acoustics ,speech and signal processing ,2004[C]//Proceedings(ICASSP 04)of IEEE Internaltional Conference. 2004,3:1024-1027.

[2]ROBINSON T. SHORTEN :Simple lossless and near-lossless

waveform compression ,Tech.Rep ,CUED/FINFENG/TR.156[R].Cambridge :UK Cambridge University ,1994.

[3]高文,黄铁军. 信源编码标准AVS 及其在数字电视中的应

用[J].电视技术,2003(11):4-6.

BGMC 编码的模式。

表1

编码器名称

编码平均压缩率

平均压缩率/%

32kHz/16bit 44.1kHz/16bit 96kHz/24bit

192kHz/24bit

50.7751.4452.2951.9552.2352.4953.3154.39

47.0247.9847.9548.0948.3248.6049.3850.64

47.1946.3747.9747.5749.0847.8951.6851.38

35.5735.2235.0135.5436.3135.9140.3346.03

Monkey EH AVS Lossless

TAK ALS (BGMC )Monkey Normal ALS FLAC WavPack

[4]黄铁军,高文. AVS 标准制定背景与知识产权状况[J].电视

技术,2005(7):4-7.

[5]王明伟. AVS 中的音视频编码压缩技术[J].电视技术,2006

(6):13-16.

[6]AVS 工作组. AVS lossless Committee Draft (CD )document

(N1738)[EB/OL].(2010-09-16)[2010-11-10].ftp ://159.226.

42.57. [7]

ASHLAND M T. Monkey ′s Audio compression program[EB/OL].(2003-02-10)[2010-11-02].saudio.com. [8]

BECKER T. TAK :(T )om ′s lossless (A )udio (K )ompressor. )[EB/OL].(2006-01-18)[2010-10-20].www.thbeck.de. [9]Xiph Org Foundation ,COALSON J. FLAC open source audio

compression[EB/OL].(2006-03-12)[2010-10-18].http ://www.xihp.org.

[10]BRYANT D. WavPack Audio Compression[EB/OL].(2005-03-10)[2010-10-25].http ://www.wavpack.com.[责任编辑]史丽丽

[收稿日期]2010-11-01

http ://www.monkey-

5

结论

AVS 无损音频编解码系统实现了从有损到无损

的伸缩编码方案,具有灵活、可扩展和高性能的特点。特别是在压缩效率方面,在编码条件相当的情况下,AVS 无损音频编解码器的压缩性能优于现行国际标准和多数流行无损编码产品。该系统算法复杂度低,易于在硬件平台实现,并且支持有损无损混合模式和独立无损编码模式,具有较好的灵活性,将是无损音频编码技术方面一种新的选择。该系统已经成为中国工业与信息化部“数字音视频编解码技术标准工作组”(AVS )的音

(上接第56页)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

该音准指示仪的外观如图5所示。

[2]柏静,韦岗. 一种基于线性预测与自相关函数的语音基音

周期检测新算法[J].电声技术,2005(8):43-46.

[3]张永亮,李凌,张先庭. 基于折线削波电平的自相关函数法

检测基音[J].电声技术,2009,33(1):52-54.

[4]朱明武,李永新,卜雄洙. 测试信号处理[M].北京:北京航空

航天大学出版社,2006.

[5]赵晓群,王光艳. 汉语语音基音轨迹的形态学滤波和平滑

[J].信号处理,2003,19(4):354-357.

参考文献

[6]陈学煌. 复杂声音信号基频检测和处理的一种方法及实例

[J].应用声学,2007,26(6):341-346. [责任编辑]史丽丽

[收稿日期]2010-08-16

[1]鲍长春,樊昌信. 基于归一化互相关函数的基音检测算法

[J].通信学报,1998,19(10):27-30.

輪电声技术2010年第34卷第12期讂輲


相关内容

  • 多媒体视频格式
  • 1.AVI格式 它的英文全称为Audio Video Interleaved,即音频视频交错格式.它于1992年被Microsoft公司推出,随Windows3.1一起被人们所认识和熟知.所谓"音频视频交错",就是可以将视频和音频交织在一起进行同步播放.这种视频格式的优点是图像质 ...

  • 信息论与编码_论文
  • 信息论与编码之数据压缩 摘要: 在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程.例如,如果我们将"compression"编码为"comp"那么这篇文章可以用较少的数据位表示.一种 ...

  • 常用软件音频文件类型
  • 常用软件 音频文件类型 音频文件是计算机存储声音的文件.在计算机及各种手持设备中,有许多种类的音频文件,承担着不同环境下存储声音信息的任务.这些音频文件大体上可以分为无损格式和有损格式等两大类. 1.无损格式 无损格式是指无压缩,或单纯采用计算机数据压缩技术存储的音频文件.这些音频文件在解压后,还原 ...

  • 汽车音乐的分类及特点
  • 汽车音乐的分类及特点 汽车音乐是近年来发展最快的一种音乐形式,也叫车载音乐. 顾名思义,汽车音乐就是大家在开车的时候听的音乐.随着时代的进步,新的汽车时代已经来临.现在的汽车已经遍布中国的大大小小每个家庭.汽车是一个流动的私人空间,而音乐总是能让人感动.它赋予我们生活中另一个生命.汽车和音乐这样的组 ...

  • 采用ITU-T标准的商用音频压缩编码系统研究
  • 提要声音信号的存储与传输,从模拟信号到数字信号经历了一个革命性的发展.随着多媒体处理技术的发展,数字音频压缩编码技术得到了广泛应用.从1972年开始ITU-T为音频信号压缩编码制定的一系列标准,成为当前移动通讯.数字卫星系统.网络广播等领域广泛采用的音频压缩编码技术和标准. 关键词:声音信号;音频压 ...

  • 音频编码技术及广播电台数字编码压缩传输系统建设
  • 摘 要 随着广播电视数字化技术的迅猛发展,数字音频压缩编码技术已在广电领域得到广泛应用.本文介绍了音频编码的分类.原理.现行主流标准以及我国自主研发的DRA数字音频编码标准.同时以广播电台为实例,对播出音频信号的数字编码压缩传输系统进行了简要介绍. 关键词 数字化:音频编码:DRA:压缩传输 中图分 ...

  • 多媒体考试题库-有答案
  • 多媒体应用技术练习题 一. 单选题(每小题2分,共20分) 1.我们的家用电脑既能听音乐,又能看影碟,这是利用了计算机的( C ) A.人工智能技术 B.自动控制技术 C.多媒体技术 D.信息管理技术 2.下列哪个文件格式即可以存储静态图象,又可以存储动态图象( C ) A..jpg B..mid ...

  • 多媒体素材的加工处理与集成
  • 重庆市中学骨干教师培训(三峡学院) 多媒体素材的加工处理与集成 万州区教科所 高建中 本讲摘要  一.多媒体技术基础  二.多媒体素材的加工与处理技术  三.多媒体素材的集成技术(课件制作)  四.多媒体教学软件的评价 多媒体技术基础 一.多媒体技术基础  多媒体:多种媒体(Multime ...

  • 图像编码--霍夫曼编码
  • 编号: 题 目 名 称 图像编码--霍夫曼编码 学 生 姓 名 学 号 学 院 信息科学与工程学院 专 业 年 级 2009级通信一班 指 导 教 师 职 称 老师 填 写 时 间 2012年10月27日 摘 要 进入21世纪,人类已步入信息社会,新信息技术革命使人类被日益增多的多媒体信息所包围,这 ...