小波域心理听觉模型

第39卷第ll期哈尔滨工业大学学报VoL39N饥112OO7年11月JOURNALOFHARBININS’n’兀JTEOFTECHNOLOGYNov.200r7

小波域心理听觉模型

谭建国,张文军

(上海交通大学图像通信与信息处理研究所,上海200030,E—mail:tjg@sjtu.edu.cn)

摘要:提出一个简单直接的将频域心理听觉模型转换到小波域,进行小波包滤波器分解音频编码的新方

法.该方法利用离散傅里叶变换左右频带的对称性,将频域的掩蔽域值频谱作为一个信号,利用傅里叶反变

换和离散小波包变换转换到每一个小波子带,根据掩蔽信号在小波域的能量来控制子带中音频信号的量化

步长,利用该方法实现小波包音频编码.

关键词:音频编码;小波包分解;心理听觉模型;傅里叶反变换

中图分类号:TN911.2l文献标识码:A文章编号:0367—6234(2007)1l一1837一04

Psycho-acousticmodelinthewaVeletdomain

7rANJian—guo,ZHANGWen-jun

(I珊t.0fImageCommuIlication&InfonIlationProcessing,ShaTlg}laiJiaotoIlguniversity,shangIlai200030,chi∞,

E-mail:堍@sjtu.edu.cn)

Abstract:A8impleanddirectalgorithmtoconVertthepsycho—acousticmodel舶mthefbquencydomaint0waveletdomainispresentedtoperfbrmtheDiscleteWaveletPacket7I'ransfo咖.7rhisalgorithmusesthesym・metryofri曲thambandfhquencyspectmmandlefthanbandfrequencyspectmmintheprocessofDFT(Dis—creteFourierTransfo彻),andmakesthemaskingthresholdinthefkquencydomainasasignal.TheinVerseD兀’andDwPT(DiscretewaveletPacketTI.ansfonll)areusedtoconvertthemaskingsignalintothewaveletdomain.Thewaveletcoemcients’quantizationstepsizeofaudiosigrIalisdeteHninedaccordingtothemaskingsignaleneIgyinthewaveletpacketSubband,andthenwaVeletpacketaudiocodingisrealized.

Key、Vords:audiocoding;waveletpacketdecomposition;psycho—acousticmodel;inVeI弓eDFr

利用小波分解来实现音频压缩的过程中,将频设每个子带中在小波域量化噪声映射到频域只影域的心理听觉模型转换到小波域是重点,也是难响当前子带及其相邻子带,将每个子带的掩蔽域值点.1993年Sinha和7re而∥o利用小波进行音频压从频域转换到小波域最大需用量化误差方差,然后缩,心理听觉模型采用了将量化误差经过小波反变对小波域子带信号进行量化,但是每个小波域子带换和傅里叶变换转换到频域,经过反复迭代计算,的量化噪声不仅影响当前子带及相邻子带,而且会保证音频信号在小波域的量化失真转换到频域的在整个频带中扩展,预回声就是这样产生的.本文结果低于心理听觉掩蔽域值,该方法复杂,且不易提出将频域心理听觉模型直接转换到小波域中,然操作.Philippe和kver口。假定音频信号每一个子带后利用小波域的心理听觉模型对各个子带的小波中量化噪声是白噪声,利用当量合成滤波器将量化系数进行量化和编码的新方法,该方法计算简单,噪声转换到频域,保证量化失真低于掩蔽域值,该而且可以在单通道低于每秒64000bits的情况下,算法也采用了迭代搜索的方法,计算较复杂.M.实现近透明的的音频编码.

Rosazurerapl等在Philippe和kver的基础上,假1小波音频的编解码器结构

收稿日期:2004—10—09.

作者简介:谭建国(1975一),男,博士研究生;文中的音频编码器输入是以16位编码,采样

张文军(1963一),男,教授,博士生导师频率是44100Hz单通道音频信号.采用近似内

哈尔滨工业大学学报第39卷

耳中临界带宽的小波包分析滤波器来分解信号.

在音频编码中,帧越长,压缩比越大,但是帧越长,

越容易产生预回声现象.所以本文根据参考文

献…的分段熵来判决,将音频信号分解成1024

和2048个样本等不同的帧,以避免音频编码中

遇到的预回声现象.为了让小波包分解后的小波

系数的个数同每帧的样本个数相同,采用周期性

的小波包分解,但是周期性常造成帧与帧之间边

界出现块效应HJ,本文在相邻的两帧之间交叠64

个样本,加平方根汉宁窗.根据第2部分的算法,

将心理听觉模型从频域直接转化到小波域,利用

小波域的需用域值对各个子带中的小波系数进行

均匀量化,将量化后的值进行算术编码,然后同量

化的边信息复用打包.在解码过程中,解复用后得

到各个子带编码的码流和边信息,然后进行算术

解码,经反量化后得到重建的音频信号.本文的编

解码器结构如图1~2所示,小波包分析滤波器结

构采用文献[1]中的结构,如图3所示.

一删复醪I比例因子I广1喜蛹№

-『————————1笆篓鎏H兰茬磊磊卜U产生一辫凰竺I罄冁譬恫胃理听觉H掩蔽幅度卅FFllIl≮篇

模型Il相位lll”“

图1编码器结构

重建

堡::H鲨卜

图2解码器结构

睁誊

图3小波包分析滤波器结构

心理听觉模型在频域的掩蔽域值

采用改进的文献[5]提供的心理听觉模型,

地方如下所示:为了估计每一个临界带的掩蔽域值,首先对输入音频帧戈进行FFrI'变换,得到幅度谱A。(∞)和相位谱P^ose(n,);输人帧的功率谱为P(∞)=A:(∞).经过F订变换后,相当于将音频帧并的频谱归一化到[一百,+耵],每一条频线对应的频率为厂=半式中:只是音频信号的采样频率;三是音频帧的长度;Ii}是频线的位置,(O≤后≤们一1.将频率单位换算成bark单位,其中变量肘是频率,对应的bark值.每一个bark值对应一个临界带宽.M∽=13arctan(0.0076’力+3.5arctan【(丢)].计算每一个临界带宽中的信号能量:蚰f曰j=∑Pi(∞).%=帆式中:弘、6九分别是第i个临界带中频线的最低和最高索引;Bi是第i个临界带的能量.根据人耳的心理听觉效应,每一个子带的能量都要向其他子带扩展,这就是心理听觉模型中的频域能量扩展效应.设每个子带的能量为l,子带之间的能量扩展矩阵为SⅢ,扩展后每个子带中的能量Ci=S嘣・BJ.当一个子带内噪声的能量大于或等于纯音的能量时,纯音就会被噪声所掩蔽;当纯音的能量远远大于噪声能量,纯音就可以将噪声掩蔽.在第i个临界带宽中,要使纯音隐蔽掉噪声,c;中纯音的能量应该大于等于(18+i)dB;要是噪声掩蔽纯音,ci中噪声的能量应该大于等于6dB.为了确定在第i个子带中是噪声掩蔽纯音还measurement)来进行测量.第i个子带中的谱平度为该子带中各条谱线功率谱的几何平均纯音的系数a=IIlin(是)・dB.当|s肼=S肌扭一,这时子带中的信号将完第i个子带扩展的掩蔽域值正为每个子带内的总能量Ci减去噪声和纯音掩蔽抵消的能量.正=10109lo(。‘)一(D/1∞.是纯音掩蔽噪声,采用谱平度S删扭(spectralnatness值和算术平均值的商.式中:Js聊l%一=一60全是纯音信号;.sFM=0,这时子带中将完全是噪声信号.在i个子带中噪声和纯音掩蔽抵消的掩蔽能量为仉=a(18+i)+(1一a)・6.2它是MPEG音频编码第2类心理听觉模型,改进

第11期谭建国,等:小波域心理听觉模型

近似模拟在没有任何噪声情况下的人耳静式中:矾=e1T.

态听觉掩蔽域值A研∽=3.64杪1000)加一一£一l

6.5em6杪1000—3・3)2+10—3(∥1000)4.s(耽)=∑(一1)‘・s(I|}).七=0

将静态听觉域值转化到每个子带中作为该子由于s(后)是实数,5(耽)也为实数,所以带的静态掩蔽域值A观.比较I和A啦,取它们Real(耽)=S(耽),且Im口g(耽)=0.的最大值作为该子带的掩蔽域值.然后将子带的综上所述,要将掩蔽域值的谱信号转换成时域掩蔽域值扩展到截至频率是F。/2的每条频线上,信号,只有Real(∥2)是未知量.由于傅里叶变换即从O到耽一l的每条频线上,可得到每条频线的正交陛,不能利用已知的不同谱线的实部和虚部的掩蔽域值I丁(e”)I.来求得未知的Real(L/2).现在考虑音频信号的性3将频域的掩蔽域值转化到小波域质,来附加条件.假定Real(∥2)=0,利用傅里叶

反变换得到的时域信号实部的结果影响不大.

傅里叶变换是频域变换,小波变换是时间尺设信号s是音频信号纠生时域中的掩蔽信号,度变换.傅里叶变换所得的系数只具有频域信息,将音频信号z和掩蔽信号s利用图3中的小波包小波变换后的系数既具有时间信息,又具有尺度滤波器同时进行离散小波包分解,相当于将每个信息,所以频域得到的掩蔽域值不能直接用到小子带所允许的最大失真能量分配给了对应的子波域.本文方法将频域的掩蔽域值转化到小波域.带,来保证音频信号近透明的质量.

本文算法的思想是将第2部分计算的频域掩

蔽域值功率谱转换成幅度谱,进行傅里叶反变换4实验及结果分析

后,变成了心理听觉模型可以掩蔽掉的时域信号,为了对所提供的音频编码器质量进行评估,采将该信号同音频帧信号一道进行小波包分解,得到用主观和客观两种评估方法.评估的音频原材料采每个小波包子带中可以掩蔽掉的信号,然后计算每用MPEG音频专家组提供的标准音频材料∞J,它们个子带中可以掩蔽掉信号的能量作为最大需用量具有CD质量,而且是立体声信号,通过下采样抽化误差的方差,对每个子带采用均匀量化,保证量样成单通道信号.所提供的6个音频材料中,有3化误差的方差不大于最大需用量化误差方差.个是独奏乐器信号,1个是男低音信号,另外3个

掩蔽域值的幅度谱为是语音信号.本文所选用的小波滤波器是消失矩分A^(e”)l=√l死(e”)l,Jj}=o…L/2—1.别为4,6,8,10,12,14,16的正交紧支Daubechies式中:l瓦(eb)l是第l|}条谱线对应的掩蔽域值;小波dbⅣ,其中Ⅳ=4,6,8,10,12,14,16.A。(eb)I是第五条谱线对应的幅度谱.1)客观质量评估

掩蔽域值第后条谱线对应的相位角为咖。,同采用平均分段信噪比进行客观质量评估.通第2部分中音频信号第七条谱线对应的相位谱过计算每一帧的信噪比,然后将每个音频信号所P^口se(∞)相同,其中后=0…耽一1.可求得有帧平均分段信噪比来对音频质量进行评估.由0…耽一1中任意一条谱线后的实部Real(局)和于感知音频编码掩蔽了大量的掩蔽失真,所以平虚部Imag(J|}),由傅里叶变换的对称性,(耽+均分段信噪比也只能作为判断声音质量的一个指1)…£一1中任意一条谱线n的实部和虚部可表标,但是并不能保证大的平均分段信噪比就一定示为具有好的音频质量.对于具有相同心理听觉模型

,r、的同一音频信号,高分段.S懈将对应好的音频质

Real(n)=Reall、n一{}),Z,量.表1给出不同小波滤波器情况下,平均每个样

,r、

Imag(n)=一Imagl(11)本编码的产生小波系数和边信息对应的位数.表

、n一詈1.二,2给出不同小波滤波器情况下,每一个测试音频

到目前为止,只有第耽条谱线的实部对应的平均分段信噪比.

Real(L/2)和虚部Imag(∥2)未知.假设掩蔽域值通过比较表1中不同小波滤波器每个样本对频谱在时域中对应的信号是s=[s(1),s(2),…,应的小波系数和边信息编码需要的位数,可以看s(£)]’,对它进行傅里叶变换,第耽条谱线对应出滤波器的长度长,编码需要的位数相对较多;通的值为过表2看出,滤波器的长度长,对应的平均分段信

s(耽)=∑s(.j})。哆一.£二1.L噪比较高,也就是对应重建音频信号的质量好.相对于其他小波滤波器,db4滤波器编码编出的

・1840・啥尔滨工业大学学报第39卷音频质避相对较藏,相对压缩比较大.中所提供的小波域心理听觉模型是否能够实现透

2)主观听力评估明或近透明音频编码.在主观测试中,本文采用了势了评镭魇提供的音频编码器的质量,采用消失矩是4的公秘beehies小波,也郄d磁,它对应双盲测的方法,让听众从原始和重建信号中选出的滤波器的长度为8.

相对音频质量较好的信号。目的是用来验证本文

表l平均爨个样本编弼对症的位数{小渡系数/透信意;

具体的溅试方法是让瞬众昕完原始音频信号之毙是50%时,说暖编磁器编凄的音频质量楚透后,再听两个测试信号,其中一个是原始音频信号,明的.由表3可以看出本文所提供的音频编码器对另一个是编解码后的音频信号,听众从两个测试信db4小波滤波器分解的音频信号进行编码,利用号中魏粥感知质爨最好的音频信号。共有25人参lS彤鞠踅G新提供翡测试音频原材料,可以获褥透加了测试,年龄在25~35岁.最后将25人给出的透明的音频质量.通过表2可以看出其他几个小波结果进行统计,编解码后的音频信号被认为是重建滤波器也可以获得近透明的音频质量。通过表l静音频信号,被认为是好的音频毒现的次数占总酶可缓蓊凄,本文提供酶音颡编码器,选择适当的小测试次数的百分比如表3所示,当重建的音频信号波滤波器可以在单通道低于每秒64000bits的情况被选为好的音频信号出现的次数占所有测试次数下获得透明和近透明的音频编码.

袭3裁罴d瓣夺渡滤波撩分簿获褥酶圭窥音频测试结果

M.wavelet

5结论[2]姗uPE攒l出lll【s奴|ow矗啪蚋砌。则llgP,sAJM乙MARMNF,删Rpackel

ml娜

本文通过利用不同的小波滤波器进行客观音骶哪S删lAudioPIDcess,1999,7:3IO一322.

频质量测试和主观音频质量评估,最后的结果表[3]zUIiERARM,FERRERAsFLAmwal学。甜帆for髓本文提供的小波包滤波器可以编毒经过重建詹l勰璐l西z塔psyell。.鼬。璐ticl痰&matio珏tolllew酗ele£南一近透明质量的音频码流.通过选择合适的小波滤娃lain[J]。II蜀糯1l潞si黟1韪lPnx螂,力∞l,8l:519—53l。[4]zURERAR,REYEsR,CANDEASV,以口正U¥eof波器,可以在单通道低于每秒64000bits的情况thesymme矗蹦extenSi雠forimprovi甥atime-v8_ry{ng下,获褥迓透骥的费频质量。wavelel-pac融奄as甜翮dioe胡er[j】.1EEE强ansSi酽参考文献:11alP眦ess,2003,13:457—469.

[5]lS0/IEc14496—3:200l(E)[s】.

【l】&瓣瓣轰D,羽!wFlKA。k料b建一f8le扭黼¥辨fen£雒建io[6j|S∥lEcsQA鹾一s。娃nd铷al匆As8ess热e瞳醚蹴ri越

compressionusingadaptedwavele协[J].IEEEfIh嬲[S/oL].http://www.协t.uni—h8Ilnover.de/pmjec∥si舭alPmcess,1993,4l(12):3463—3479.mpe∥粕dio/8qa珏∥.(编辑赵丽莹)

小波域心理听觉模型

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):

被引用次数:谭建国, 张文军, TAN Jian-guo, ZHANG Wen-jun上海交通大学,图像通信与信息处理研究所,上海,200030哈尔滨工业大学学报JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY2007,39(11)0次

参考文献(6条)

1.SINHA D.TEWFIK A Low bit_ rate transparent audio compression using adapted wavelets 1993(12)

2.PHILIPE P.SAINT-MARTIN F.LEVER M Wavelet packet filterbanks for low time delay audio coding 1999

3.ZURERA R M.FERRERAS F L A new algorithm for translating psycho-acoustic information to the waveletdomain 2001

4.ZURERA R.REYES R.CANDEAS V Use of the symmetrical extension for improving a time-varying wavelet-packet-based audio coder 2003

5.ISO/IEC 14496-3:2001(E)

6.ISO/IEC SQAM-Sound Quality Assessment Material

相似文献(7条)

1.期刊论文 何冬梅.高文.He Dongmei.Gao Wen 基于小波包分解复杂度可分级的音频编码算法 -高技术通讯2000,10(11)

提出了一种基于小波包分解的复杂度可分级的音频编码算法.该算法对信号进行复杂度可分级的不完全小波包分解,并充分利用人耳的听觉特性和不同子带间小波系数的相关性对系数进行零树编码.不仅可在低码率上获得透明质量的重构信号,而且具有复杂度可分级编、解码和多码率可分级编码的功能,可在具有不同计算能力的计算机上实时实现音频编码和解码.

2.学位论文 聂铭玮 基于小波包分解算法的MPEG-4音频压缩编码的改进与实现 2009

MPEG音频编码标准是当前国际上通用的三大商用音频编码标准之一。尤其是1999年被定为国际标准的MPEG-4音频编码方案普遍应用在因特网上的交互式多媒体应用、高清数字电视和数字电影录制等领域。MPEG-4音频编码方案的优越之处在于,它不仅支持自然声音,而且支持合成声音,力图尽量多地覆盖现有的音频应用并充分考虑到可扩展性需求。

MPEG-4音频编码标准针对不同的编码对象制定了相应的编码方案。其中适用于中高质量的通用音频编码方式之一:MPEG-4AAC是MPEG-4一系列音频编码方案之中应用比较广泛的。MPEG-4AAC编码方案建立在通用心理声学模型基础上,其标准的时频变换模块采用的是直接正向“修正的离散余弦变换(MDCT)”,本文在介绍MPEG-4音频编码标准之后,重点讨论了MPEG-4AAC编码流程,并提出了一种基于临界频带匹配的广度优先小波包算法,采用此算法来替换MDCT,构成新的时频变换模块。与小波变换不同,小波包变换不仅可以对信号低频部分进行分解,还可以进一步分解信号的高频部分,实现高频部分的精细分割。所以小波包变换能够对含有许多中频和高频信息的非平稳信号进行更好的时频局部化分析。小波包变换的一大优势是可以实现不完全小波包的分解,通过不同信号的特性来选取适合信号的最佳小波包基。本文算法降低了计算复杂度,能够更好的适用于音频压缩编码的应用领域。最后,将本文算法应用于MPEG-4AAC音频编码流程中并进行了实现。

同小波编码算法相比,本文的编码方案能够使对声音信号频带的划分尽量符合临界频带,从而有利于提高信号的编码质量;而且本文算法可以根据计算复杂度来调节小波包分解的深度,使得音频编码更加灵活。这些优势会在网络和实时数字多媒体迅速普及的时代发挥很好的作用。

3.期刊论文 张良智.郑应文 基于改进小波包变换的一种音频编码算法 -上海交通大学学报2002,36(z1)

对音频编码中基于自适应小波包分解在前人基础上作了进一步的探讨,对最优小波包的选择进行了优化,根据应兼顾实时计算复杂度和音频信号能量集中在低频的特点,提出一改进的自适应小波包分解算法,并采用基于心理声学模型的零树编码,使该系统对语音信号有较高的压缩比,同时能保持良好的实时性和客观恢复信噪比.

4.会议论文 张良智.郑应文 基于改进小波包变换的一种音频编码算法 2002

对音频编码中基于自适应小波包分解在前人基础上作了进一步的探讨,对最优小波包的选择进行了优化,根据应兼顾实时计算复杂度和音频信号能量集中在低频的特点,提出一改进自适应小波包分解算法,并采用基于心理声学模型的零树编码,使该系统对语音信号有较高的压缩比,同时能保持良好的实时性和客观恢复信噪比.

5.学位论文 张文娟 MPEG第三层音频编码改进算法的研究 2004

该文分析了MPEG第三层标准算法,并在此基础上重点研究了对标准算法中的时频变换和心理声学模型两部分的改进.在时频变换部分,引入小波包变换实现频带的划分,划分后的频带更接近临界频带,使其在低频获得较好的频率分辨率和在高频获得较好的时间分辨率,从而提高了压缩率.在心理声学模型部分建立了小波域中的心理声学模型,它直接在小波域上计算掩蔽门限,不需在心理声学模型中另做时频分析,使得小波包变换既完成了时频分析又完成了心理声学模型的计算,从而简化了算法.改进算法用c语言实现,并在Matlab环境中完成了算法仿真.改进后的算法与标准算法相比在音质、压缩率和计算复杂度等方面都获得了一定程度的改进.

6.期刊论文 何冬梅.高文.HE Dong-Mei.GAO Wen 基于小波包和心理声学模型的音频编码算法 -计算机研究与发展2000,37(3)

文中提出了一种新的适用于实时多媒体应用领域的音频编码算法.该算法首先对音频信号进行小波包分解,然后在小波域中计算掩蔽阈值,最后根据从心理声学模型得到的信号-掩蔽比来对各子带小波系数进行动态比特分配、量化和编码.实验结果表明该算法将 CD 音频信号压缩到 64 Kbps 时,恢复信

7.学位论文 谭建国 正弦/小波包混合感知音频编码技术研究 2006

低比特率音频编码可以减少传输音频信号对信道带宽的要求,流畅地实现网络传输,还可以节约存储空间,降低存储的成本,具有重要的实用价值.MPEG音频编码标准采用了频域的量化和编码算法,将音频信号分成短的编码块,假定每个编码块为稳态信号,然后将每个编码块转换到频域进行量化和编码;对于存在瞬态信号的编码块,将编码块分成更短的编码块,转化到频域,进行量化和编码.由于MPEG音频编码标准中编码块长度短,编码过程中,边信息在整个比特流中所占的比重较大;在MP3编码比特流中,边信息所占的比重约为11.5﹪.本文中研究了利用正弦/小波包混合感知音频编码技术来实现在低比特率对音频信号的编解码:小波包音频编码器利用了小波的时频局部化特性,实现对稳态和瞬态音频信号的描述,因此可以选用较长的编码块,边信息在比特流中的比重较小,在低比特率下可以实现对音频信号的高质量编码;本文中编码器编码比特流中,边信息所占的比重为3.89﹪.由于小波包滤波器组频域分辨率低,在纯音分量占丰导地位的音频信号中,采用小波滤波器组不能对占频信号做最简洁地描述.对于这种信号,木文中先采用正弦分量提取,然后将剩余的残羞信号利用小波进行描述.

本文研究工作有四部分,第一部分对小波包域心理听觉模型进行了研究.

首先研究了人耳心理听觉的掩蔽原理,人耳心理听觉时频域掩蔽现象;然后根据文中音频编码器的需要,改进了MPEG音频编码标准中的频域心理听觉模型;最后利用频域和小波域的对称性,提出了新的直接转化算法,将频域得到的心理听觉掩蔽阈值转化到小波域的各个子带中.测试结果表明:采用各个子带的最大许用量化能量失真来对相应子带中的小波变换系数进行量化反量化后重建,所获得重建音频信号的质量略好于MP3音频编解码器重建音频信号的质量.

第二部分研究了语音和音频信号中正弦分量的提取,提出了PPMMSE算法,从语音和音频信号中提取出正弦分量.

首先计算分析信号的功率谱,确定功率谱曲线最大峰值处对应的频率,然后在以该频率为中心的小区间内,采用最小均方误差法提取正弦分量,将提取的正弦分量从分析信号中去除;然后再计算残差信号的功率谱,找到功率谱最大峰值处对应的频率,确定出将要提取正弦分量的频率,振幅和初相位;依次类推从分析信号块内提取出所有的正弦分量.相对于峰值拾取算法,本文所提出的算法不仅适用于稳态信号,而且适用于瞬态信号,得到参数的精度较高;十日对于最小均方误差算法,该算法得到参数的精度高,计算复杂度远远小于采用最小均方误差算法需要的计算复杂度.

第三部分研究了小波包音频编码中滤波器和小波变换系数的量化和码率控制.

首先研究了信号多分辨率描述的原理以及快速算法实现;然后根据人耳的临界带选择了小波包分解树结构.提出了采用DB20和DB5两种小波自适应切换分别来实现对稳态和瞬态音频编码块的描述;最后研究了小波变换系数的量化算法;对小波变换系数采用了全局均匀矢量量化,和局部子带小波变换系数放大,来实现恒比特率的音频编码.采用内外环技术来控制比特率,在内环控制音频编码的比特率,在外环,通过调整放大凶子来控制各个子带的量化能量失真.

第四部分中,对正弦/小波包混合音频编解码器系统进行了研究.

改进了正弦/小波包混合音频编解码器框图.在该框图中,采用PPMMSE算法从音频信号中提取正弦分量,融入了内外环码率控制模块,频域心理听觉模型转化到小波域模块,和自适应小波切换模块;研究了音频编码比特流的语法结构,最后对音频编解码器进行主客观质量评定,结果表明:对于大多数测试信号单通道在64kb/s进行编码,本文所提供的音频编解码器获得重建音频信号的质量好于MP3音频编解码器扶得重建音频信号的质量;编码器计算复杂度略大于MP3占频编码器的计算复杂度.

本文的创新点如下:

●提出了新的直接转化算法,将改进后频域得到的心胛听觉掩蔽阈值直接转化为小波域相应了带变换系数的最大许用量化误差能量失真. ●提出了PPMMSE算法,从分析语音和音频信号中提取正弦分量;并将该算法应用到正弦/小波包混合感知音频编码器中.

●提出了采用DB20和DB5两种小波自适应切换分别来实现对稳态和瞬态占频编码块信号的描述.

●改进了正弦/小波包混合音频编解码器框图,在该框图中,采用PPMMSE算法从音频信号中提取正弦分量,融入了内外环码率控制模块,频域心理听觉模型转化到小波域模块,和自适应小波切换模块.

本文链接:http://d.g.wanfangdata.com.cn/Periodical_hebgydxxb200711039.aspx

授权使用:无锡市图书馆(wxstsg),授权号:1373876d-a92b-4f79-ba4c-9e610114e72a

下载时间:2011年1月4日

第39卷第ll期哈尔滨工业大学学报VoL39N饥112OO7年11月JOURNALOFHARBININS’n’兀JTEOFTECHNOLOGYNov.200r7

小波域心理听觉模型

谭建国,张文军

(上海交通大学图像通信与信息处理研究所,上海200030,E—mail:tjg@sjtu.edu.cn)

摘要:提出一个简单直接的将频域心理听觉模型转换到小波域,进行小波包滤波器分解音频编码的新方

法.该方法利用离散傅里叶变换左右频带的对称性,将频域的掩蔽域值频谱作为一个信号,利用傅里叶反变

换和离散小波包变换转换到每一个小波子带,根据掩蔽信号在小波域的能量来控制子带中音频信号的量化

步长,利用该方法实现小波包音频编码.

关键词:音频编码;小波包分解;心理听觉模型;傅里叶反变换

中图分类号:TN911.2l文献标识码:A文章编号:0367—6234(2007)1l一1837一04

Psycho-acousticmodelinthewaVeletdomain

7rANJian—guo,ZHANGWen-jun

(I珊t.0fImageCommuIlication&InfonIlationProcessing,ShaTlg}laiJiaotoIlguniversity,shangIlai200030,chi∞,

E-mail:堍@sjtu.edu.cn)

Abstract:A8impleanddirectalgorithmtoconVertthepsycho—acousticmodel舶mthefbquencydomaint0waveletdomainispresentedtoperfbrmtheDiscleteWaveletPacket7I'ransfo咖.7rhisalgorithmusesthesym・metryofri曲thambandfhquencyspectmmandlefthanbandfrequencyspectmmintheprocessofDFT(Dis—creteFourierTransfo彻),andmakesthemaskingthresholdinthefkquencydomainasasignal.TheinVerseD兀’andDwPT(DiscretewaveletPacketTI.ansfonll)areusedtoconvertthemaskingsignalintothewaveletdomain.Thewaveletcoemcients’quantizationstepsizeofaudiosigrIalisdeteHninedaccordingtothemaskingsignaleneIgyinthewaveletpacketSubband,andthenwaVeletpacketaudiocodingisrealized.

Key、Vords:audiocoding;waveletpacketdecomposition;psycho—acousticmodel;inVeI弓eDFr

利用小波分解来实现音频压缩的过程中,将频设每个子带中在小波域量化噪声映射到频域只影域的心理听觉模型转换到小波域是重点,也是难响当前子带及其相邻子带,将每个子带的掩蔽域值点.1993年Sinha和7re而∥o利用小波进行音频压从频域转换到小波域最大需用量化误差方差,然后缩,心理听觉模型采用了将量化误差经过小波反变对小波域子带信号进行量化,但是每个小波域子带换和傅里叶变换转换到频域,经过反复迭代计算,的量化噪声不仅影响当前子带及相邻子带,而且会保证音频信号在小波域的量化失真转换到频域的在整个频带中扩展,预回声就是这样产生的.本文结果低于心理听觉掩蔽域值,该方法复杂,且不易提出将频域心理听觉模型直接转换到小波域中,然操作.Philippe和kver口。假定音频信号每一个子带后利用小波域的心理听觉模型对各个子带的小波中量化噪声是白噪声,利用当量合成滤波器将量化系数进行量化和编码的新方法,该方法计算简单,噪声转换到频域,保证量化失真低于掩蔽域值,该而且可以在单通道低于每秒64000bits的情况下,算法也采用了迭代搜索的方法,计算较复杂.M.实现近透明的的音频编码.

Rosazurerapl等在Philippe和kver的基础上,假1小波音频的编解码器结构

收稿日期:2004—10—09.

作者简介:谭建国(1975一),男,博士研究生;文中的音频编码器输入是以16位编码,采样

张文军(1963一),男,教授,博士生导师频率是44100Hz单通道音频信号.采用近似内

哈尔滨工业大学学报第39卷

耳中临界带宽的小波包分析滤波器来分解信号.

在音频编码中,帧越长,压缩比越大,但是帧越长,

越容易产生预回声现象.所以本文根据参考文

献…的分段熵来判决,将音频信号分解成1024

和2048个样本等不同的帧,以避免音频编码中

遇到的预回声现象.为了让小波包分解后的小波

系数的个数同每帧的样本个数相同,采用周期性

的小波包分解,但是周期性常造成帧与帧之间边

界出现块效应HJ,本文在相邻的两帧之间交叠64

个样本,加平方根汉宁窗.根据第2部分的算法,

将心理听觉模型从频域直接转化到小波域,利用

小波域的需用域值对各个子带中的小波系数进行

均匀量化,将量化后的值进行算术编码,然后同量

化的边信息复用打包.在解码过程中,解复用后得

到各个子带编码的码流和边信息,然后进行算术

解码,经反量化后得到重建的音频信号.本文的编

解码器结构如图1~2所示,小波包分析滤波器结

构采用文献[1]中的结构,如图3所示.

一删复醪I比例因子I广1喜蛹№

-『————————1笆篓鎏H兰茬磊磊卜U产生一辫凰竺I罄冁譬恫胃理听觉H掩蔽幅度卅FFllIl≮篇

模型Il相位lll”“

图1编码器结构

重建

堡::H鲨卜

图2解码器结构

睁誊

图3小波包分析滤波器结构

心理听觉模型在频域的掩蔽域值

采用改进的文献[5]提供的心理听觉模型,

地方如下所示:为了估计每一个临界带的掩蔽域值,首先对输入音频帧戈进行FFrI'变换,得到幅度谱A。(∞)和相位谱P^ose(n,);输人帧的功率谱为P(∞)=A:(∞).经过F订变换后,相当于将音频帧并的频谱归一化到[一百,+耵],每一条频线对应的频率为厂=半式中:只是音频信号的采样频率;三是音频帧的长度;Ii}是频线的位置,(O≤后≤们一1.将频率单位换算成bark单位,其中变量肘是频率,对应的bark值.每一个bark值对应一个临界带宽.M∽=13arctan(0.0076’力+3.5arctan【(丢)].计算每一个临界带宽中的信号能量:蚰f曰j=∑Pi(∞).%=帆式中:弘、6九分别是第i个临界带中频线的最低和最高索引;Bi是第i个临界带的能量.根据人耳的心理听觉效应,每一个子带的能量都要向其他子带扩展,这就是心理听觉模型中的频域能量扩展效应.设每个子带的能量为l,子带之间的能量扩展矩阵为SⅢ,扩展后每个子带中的能量Ci=S嘣・BJ.当一个子带内噪声的能量大于或等于纯音的能量时,纯音就会被噪声所掩蔽;当纯音的能量远远大于噪声能量,纯音就可以将噪声掩蔽.在第i个临界带宽中,要使纯音隐蔽掉噪声,c;中纯音的能量应该大于等于(18+i)dB;要是噪声掩蔽纯音,ci中噪声的能量应该大于等于6dB.为了确定在第i个子带中是噪声掩蔽纯音还measurement)来进行测量.第i个子带中的谱平度为该子带中各条谱线功率谱的几何平均纯音的系数a=IIlin(是)・dB.当|s肼=S肌扭一,这时子带中的信号将完第i个子带扩展的掩蔽域值正为每个子带内的总能量Ci减去噪声和纯音掩蔽抵消的能量.正=10109lo(。‘)一(D/1∞.是纯音掩蔽噪声,采用谱平度S删扭(spectralnatness值和算术平均值的商.式中:Js聊l%一=一60全是纯音信号;.sFM=0,这时子带中将完全是噪声信号.在i个子带中噪声和纯音掩蔽抵消的掩蔽能量为仉=a(18+i)+(1一a)・6.2它是MPEG音频编码第2类心理听觉模型,改进

第11期谭建国,等:小波域心理听觉模型

近似模拟在没有任何噪声情况下的人耳静式中:矾=e1T.

态听觉掩蔽域值A研∽=3.64杪1000)加一一£一l

6.5em6杪1000—3・3)2+10—3(∥1000)4.s(耽)=∑(一1)‘・s(I|}).七=0

将静态听觉域值转化到每个子带中作为该子由于s(后)是实数,5(耽)也为实数,所以带的静态掩蔽域值A观.比较I和A啦,取它们Real(耽)=S(耽),且Im口g(耽)=0.的最大值作为该子带的掩蔽域值.然后将子带的综上所述,要将掩蔽域值的谱信号转换成时域掩蔽域值扩展到截至频率是F。/2的每条频线上,信号,只有Real(∥2)是未知量.由于傅里叶变换即从O到耽一l的每条频线上,可得到每条频线的正交陛,不能利用已知的不同谱线的实部和虚部的掩蔽域值I丁(e”)I.来求得未知的Real(L/2).现在考虑音频信号的性3将频域的掩蔽域值转化到小波域质,来附加条件.假定Real(∥2)=0,利用傅里叶

反变换得到的时域信号实部的结果影响不大.

傅里叶变换是频域变换,小波变换是时间尺设信号s是音频信号纠生时域中的掩蔽信号,度变换.傅里叶变换所得的系数只具有频域信息,将音频信号z和掩蔽信号s利用图3中的小波包小波变换后的系数既具有时间信息,又具有尺度滤波器同时进行离散小波包分解,相当于将每个信息,所以频域得到的掩蔽域值不能直接用到小子带所允许的最大失真能量分配给了对应的子波域.本文方法将频域的掩蔽域值转化到小波域.带,来保证音频信号近透明的质量.

本文算法的思想是将第2部分计算的频域掩

蔽域值功率谱转换成幅度谱,进行傅里叶反变换4实验及结果分析

后,变成了心理听觉模型可以掩蔽掉的时域信号,为了对所提供的音频编码器质量进行评估,采将该信号同音频帧信号一道进行小波包分解,得到用主观和客观两种评估方法.评估的音频原材料采每个小波包子带中可以掩蔽掉的信号,然后计算每用MPEG音频专家组提供的标准音频材料∞J,它们个子带中可以掩蔽掉信号的能量作为最大需用量具有CD质量,而且是立体声信号,通过下采样抽化误差的方差,对每个子带采用均匀量化,保证量样成单通道信号.所提供的6个音频材料中,有3化误差的方差不大于最大需用量化误差方差.个是独奏乐器信号,1个是男低音信号,另外3个

掩蔽域值的幅度谱为是语音信号.本文所选用的小波滤波器是消失矩分A^(e”)l=√l死(e”)l,Jj}=o…L/2—1.别为4,6,8,10,12,14,16的正交紧支Daubechies式中:l瓦(eb)l是第l|}条谱线对应的掩蔽域值;小波dbⅣ,其中Ⅳ=4,6,8,10,12,14,16.A。(eb)I是第五条谱线对应的幅度谱.1)客观质量评估

掩蔽域值第后条谱线对应的相位角为咖。,同采用平均分段信噪比进行客观质量评估.通第2部分中音频信号第七条谱线对应的相位谱过计算每一帧的信噪比,然后将每个音频信号所P^口se(∞)相同,其中后=0…耽一1.可求得有帧平均分段信噪比来对音频质量进行评估.由0…耽一1中任意一条谱线后的实部Real(局)和于感知音频编码掩蔽了大量的掩蔽失真,所以平虚部Imag(J|}),由傅里叶变换的对称性,(耽+均分段信噪比也只能作为判断声音质量的一个指1)…£一1中任意一条谱线n的实部和虚部可表标,但是并不能保证大的平均分段信噪比就一定示为具有好的音频质量.对于具有相同心理听觉模型

,r、的同一音频信号,高分段.S懈将对应好的音频质

Real(n)=Reall、n一{}),Z,量.表1给出不同小波滤波器情况下,平均每个样

,r、

Imag(n)=一Imagl(11)本编码的产生小波系数和边信息对应的位数.表

、n一詈1.二,2给出不同小波滤波器情况下,每一个测试音频

到目前为止,只有第耽条谱线的实部对应的平均分段信噪比.

Real(L/2)和虚部Imag(∥2)未知.假设掩蔽域值通过比较表1中不同小波滤波器每个样本对频谱在时域中对应的信号是s=[s(1),s(2),…,应的小波系数和边信息编码需要的位数,可以看s(£)]’,对它进行傅里叶变换,第耽条谱线对应出滤波器的长度长,编码需要的位数相对较多;通的值为过表2看出,滤波器的长度长,对应的平均分段信

s(耽)=∑s(.j})。哆一.£二1.L噪比较高,也就是对应重建音频信号的质量好.相对于其他小波滤波器,db4滤波器编码编出的

・1840・啥尔滨工业大学学报第39卷音频质避相对较藏,相对压缩比较大.中所提供的小波域心理听觉模型是否能够实现透

2)主观听力评估明或近透明音频编码.在主观测试中,本文采用了势了评镭魇提供的音频编码器的质量,采用消失矩是4的公秘beehies小波,也郄d磁,它对应双盲测的方法,让听众从原始和重建信号中选出的滤波器的长度为8.

相对音频质量较好的信号。目的是用来验证本文

表l平均爨个样本编弼对症的位数{小渡系数/透信意;

具体的溅试方法是让瞬众昕完原始音频信号之毙是50%时,说暖编磁器编凄的音频质量楚透后,再听两个测试信号,其中一个是原始音频信号,明的.由表3可以看出本文所提供的音频编码器对另一个是编解码后的音频信号,听众从两个测试信db4小波滤波器分解的音频信号进行编码,利用号中魏粥感知质爨最好的音频信号。共有25人参lS彤鞠踅G新提供翡测试音频原材料,可以获褥透加了测试,年龄在25~35岁.最后将25人给出的透明的音频质量.通过表2可以看出其他几个小波结果进行统计,编解码后的音频信号被认为是重建滤波器也可以获得近透明的音频质量。通过表l静音频信号,被认为是好的音频毒现的次数占总酶可缓蓊凄,本文提供酶音颡编码器,选择适当的小测试次数的百分比如表3所示,当重建的音频信号波滤波器可以在单通道低于每秒64000bits的情况被选为好的音频信号出现的次数占所有测试次数下获得透明和近透明的音频编码.

袭3裁罴d瓣夺渡滤波撩分簿获褥酶圭窥音频测试结果

M.wavelet

5结论[2]姗uPE攒l出lll【s奴|ow矗啪蚋砌。则llgP,sAJM乙MARMNF,删Rpackel

ml娜

本文通过利用不同的小波滤波器进行客观音骶哪S删lAudioPIDcess,1999,7:3IO一322.

频质量测试和主观音频质量评估,最后的结果表[3]zUIiERARM,FERRERAsFLAmwal学。甜帆for髓本文提供的小波包滤波器可以编毒经过重建詹l勰璐l西z塔psyell。.鼬。璐ticl痰&matio珏tolllew酗ele£南一近透明质量的音频码流.通过选择合适的小波滤娃lain[J]。II蜀糯1l潞si黟1韪lPnx螂,力∞l,8l:519—53l。[4]zURERAR,REYEsR,CANDEASV,以口正U¥eof波器,可以在单通道低于每秒64000bits的情况thesymme矗蹦extenSi雠forimprovi甥atime-v8_ry{ng下,获褥迓透骥的费频质量。wavelel-pac融奄as甜翮dioe胡er[j】.1EEE强ansSi酽参考文献:11alP眦ess,2003,13:457—469.

[5]lS0/IEc14496—3:200l(E)[s】.

【l】&瓣瓣轰D,羽!wFlKA。k料b建一f8le扭黼¥辨fen£雒建io[6j|S∥lEcsQA鹾一s。娃nd铷al匆As8ess热e瞳醚蹴ri越

compressionusingadaptedwavele协[J].IEEEfIh嬲[S/oL].http://www.协t.uni—h8Ilnover.de/pmjec∥si舭alPmcess,1993,4l(12):3463—3479.mpe∥粕dio/8qa珏∥.(编辑赵丽莹)

小波域心理听觉模型

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):

被引用次数:谭建国, 张文军, TAN Jian-guo, ZHANG Wen-jun上海交通大学,图像通信与信息处理研究所,上海,200030哈尔滨工业大学学报JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY2007,39(11)0次

参考文献(6条)

1.SINHA D.TEWFIK A Low bit_ rate transparent audio compression using adapted wavelets 1993(12)

2.PHILIPE P.SAINT-MARTIN F.LEVER M Wavelet packet filterbanks for low time delay audio coding 1999

3.ZURERA R M.FERRERAS F L A new algorithm for translating psycho-acoustic information to the waveletdomain 2001

4.ZURERA R.REYES R.CANDEAS V Use of the symmetrical extension for improving a time-varying wavelet-packet-based audio coder 2003

5.ISO/IEC 14496-3:2001(E)

6.ISO/IEC SQAM-Sound Quality Assessment Material

相似文献(7条)

1.期刊论文 何冬梅.高文.He Dongmei.Gao Wen 基于小波包分解复杂度可分级的音频编码算法 -高技术通讯2000,10(11)

提出了一种基于小波包分解的复杂度可分级的音频编码算法.该算法对信号进行复杂度可分级的不完全小波包分解,并充分利用人耳的听觉特性和不同子带间小波系数的相关性对系数进行零树编码.不仅可在低码率上获得透明质量的重构信号,而且具有复杂度可分级编、解码和多码率可分级编码的功能,可在具有不同计算能力的计算机上实时实现音频编码和解码.

2.学位论文 聂铭玮 基于小波包分解算法的MPEG-4音频压缩编码的改进与实现 2009

MPEG音频编码标准是当前国际上通用的三大商用音频编码标准之一。尤其是1999年被定为国际标准的MPEG-4音频编码方案普遍应用在因特网上的交互式多媒体应用、高清数字电视和数字电影录制等领域。MPEG-4音频编码方案的优越之处在于,它不仅支持自然声音,而且支持合成声音,力图尽量多地覆盖现有的音频应用并充分考虑到可扩展性需求。

MPEG-4音频编码标准针对不同的编码对象制定了相应的编码方案。其中适用于中高质量的通用音频编码方式之一:MPEG-4AAC是MPEG-4一系列音频编码方案之中应用比较广泛的。MPEG-4AAC编码方案建立在通用心理声学模型基础上,其标准的时频变换模块采用的是直接正向“修正的离散余弦变换(MDCT)”,本文在介绍MPEG-4音频编码标准之后,重点讨论了MPEG-4AAC编码流程,并提出了一种基于临界频带匹配的广度优先小波包算法,采用此算法来替换MDCT,构成新的时频变换模块。与小波变换不同,小波包变换不仅可以对信号低频部分进行分解,还可以进一步分解信号的高频部分,实现高频部分的精细分割。所以小波包变换能够对含有许多中频和高频信息的非平稳信号进行更好的时频局部化分析。小波包变换的一大优势是可以实现不完全小波包的分解,通过不同信号的特性来选取适合信号的最佳小波包基。本文算法降低了计算复杂度,能够更好的适用于音频压缩编码的应用领域。最后,将本文算法应用于MPEG-4AAC音频编码流程中并进行了实现。

同小波编码算法相比,本文的编码方案能够使对声音信号频带的划分尽量符合临界频带,从而有利于提高信号的编码质量;而且本文算法可以根据计算复杂度来调节小波包分解的深度,使得音频编码更加灵活。这些优势会在网络和实时数字多媒体迅速普及的时代发挥很好的作用。

3.期刊论文 张良智.郑应文 基于改进小波包变换的一种音频编码算法 -上海交通大学学报2002,36(z1)

对音频编码中基于自适应小波包分解在前人基础上作了进一步的探讨,对最优小波包的选择进行了优化,根据应兼顾实时计算复杂度和音频信号能量集中在低频的特点,提出一改进的自适应小波包分解算法,并采用基于心理声学模型的零树编码,使该系统对语音信号有较高的压缩比,同时能保持良好的实时性和客观恢复信噪比.

4.会议论文 张良智.郑应文 基于改进小波包变换的一种音频编码算法 2002

对音频编码中基于自适应小波包分解在前人基础上作了进一步的探讨,对最优小波包的选择进行了优化,根据应兼顾实时计算复杂度和音频信号能量集中在低频的特点,提出一改进自适应小波包分解算法,并采用基于心理声学模型的零树编码,使该系统对语音信号有较高的压缩比,同时能保持良好的实时性和客观恢复信噪比.

5.学位论文 张文娟 MPEG第三层音频编码改进算法的研究 2004

该文分析了MPEG第三层标准算法,并在此基础上重点研究了对标准算法中的时频变换和心理声学模型两部分的改进.在时频变换部分,引入小波包变换实现频带的划分,划分后的频带更接近临界频带,使其在低频获得较好的频率分辨率和在高频获得较好的时间分辨率,从而提高了压缩率.在心理声学模型部分建立了小波域中的心理声学模型,它直接在小波域上计算掩蔽门限,不需在心理声学模型中另做时频分析,使得小波包变换既完成了时频分析又完成了心理声学模型的计算,从而简化了算法.改进算法用c语言实现,并在Matlab环境中完成了算法仿真.改进后的算法与标准算法相比在音质、压缩率和计算复杂度等方面都获得了一定程度的改进.

6.期刊论文 何冬梅.高文.HE Dong-Mei.GAO Wen 基于小波包和心理声学模型的音频编码算法 -计算机研究与发展2000,37(3)

文中提出了一种新的适用于实时多媒体应用领域的音频编码算法.该算法首先对音频信号进行小波包分解,然后在小波域中计算掩蔽阈值,最后根据从心理声学模型得到的信号-掩蔽比来对各子带小波系数进行动态比特分配、量化和编码.实验结果表明该算法将 CD 音频信号压缩到 64 Kbps 时,恢复信

7.学位论文 谭建国 正弦/小波包混合感知音频编码技术研究 2006

低比特率音频编码可以减少传输音频信号对信道带宽的要求,流畅地实现网络传输,还可以节约存储空间,降低存储的成本,具有重要的实用价值.MPEG音频编码标准采用了频域的量化和编码算法,将音频信号分成短的编码块,假定每个编码块为稳态信号,然后将每个编码块转换到频域进行量化和编码;对于存在瞬态信号的编码块,将编码块分成更短的编码块,转化到频域,进行量化和编码.由于MPEG音频编码标准中编码块长度短,编码过程中,边信息在整个比特流中所占的比重较大;在MP3编码比特流中,边信息所占的比重约为11.5﹪.本文中研究了利用正弦/小波包混合感知音频编码技术来实现在低比特率对音频信号的编解码:小波包音频编码器利用了小波的时频局部化特性,实现对稳态和瞬态音频信号的描述,因此可以选用较长的编码块,边信息在比特流中的比重较小,在低比特率下可以实现对音频信号的高质量编码;本文中编码器编码比特流中,边信息所占的比重为3.89﹪.由于小波包滤波器组频域分辨率低,在纯音分量占丰导地位的音频信号中,采用小波滤波器组不能对占频信号做最简洁地描述.对于这种信号,木文中先采用正弦分量提取,然后将剩余的残羞信号利用小波进行描述.

本文研究工作有四部分,第一部分对小波包域心理听觉模型进行了研究.

首先研究了人耳心理听觉的掩蔽原理,人耳心理听觉时频域掩蔽现象;然后根据文中音频编码器的需要,改进了MPEG音频编码标准中的频域心理听觉模型;最后利用频域和小波域的对称性,提出了新的直接转化算法,将频域得到的心理听觉掩蔽阈值转化到小波域的各个子带中.测试结果表明:采用各个子带的最大许用量化能量失真来对相应子带中的小波变换系数进行量化反量化后重建,所获得重建音频信号的质量略好于MP3音频编解码器重建音频信号的质量.

第二部分研究了语音和音频信号中正弦分量的提取,提出了PPMMSE算法,从语音和音频信号中提取出正弦分量.

首先计算分析信号的功率谱,确定功率谱曲线最大峰值处对应的频率,然后在以该频率为中心的小区间内,采用最小均方误差法提取正弦分量,将提取的正弦分量从分析信号中去除;然后再计算残差信号的功率谱,找到功率谱最大峰值处对应的频率,确定出将要提取正弦分量的频率,振幅和初相位;依次类推从分析信号块内提取出所有的正弦分量.相对于峰值拾取算法,本文所提出的算法不仅适用于稳态信号,而且适用于瞬态信号,得到参数的精度较高;十日对于最小均方误差算法,该算法得到参数的精度高,计算复杂度远远小于采用最小均方误差算法需要的计算复杂度.

第三部分研究了小波包音频编码中滤波器和小波变换系数的量化和码率控制.

首先研究了信号多分辨率描述的原理以及快速算法实现;然后根据人耳的临界带选择了小波包分解树结构.提出了采用DB20和DB5两种小波自适应切换分别来实现对稳态和瞬态音频编码块的描述;最后研究了小波变换系数的量化算法;对小波变换系数采用了全局均匀矢量量化,和局部子带小波变换系数放大,来实现恒比特率的音频编码.采用内外环技术来控制比特率,在内环控制音频编码的比特率,在外环,通过调整放大凶子来控制各个子带的量化能量失真.

第四部分中,对正弦/小波包混合音频编解码器系统进行了研究.

改进了正弦/小波包混合音频编解码器框图.在该框图中,采用PPMMSE算法从音频信号中提取正弦分量,融入了内外环码率控制模块,频域心理听觉模型转化到小波域模块,和自适应小波切换模块;研究了音频编码比特流的语法结构,最后对音频编解码器进行主客观质量评定,结果表明:对于大多数测试信号单通道在64kb/s进行编码,本文所提供的音频编解码器获得重建音频信号的质量好于MP3音频编解码器扶得重建音频信号的质量;编码器计算复杂度略大于MP3占频编码器的计算复杂度.

本文的创新点如下:

●提出了新的直接转化算法,将改进后频域得到的心胛听觉掩蔽阈值直接转化为小波域相应了带变换系数的最大许用量化误差能量失真. ●提出了PPMMSE算法,从分析语音和音频信号中提取正弦分量;并将该算法应用到正弦/小波包混合感知音频编码器中.

●提出了采用DB20和DB5两种小波自适应切换分别来实现对稳态和瞬态占频编码块信号的描述.

●改进了正弦/小波包混合音频编解码器框图,在该框图中,采用PPMMSE算法从音频信号中提取正弦分量,融入了内外环码率控制模块,频域心理听觉模型转化到小波域模块,和自适应小波切换模块.

本文链接:http://d.g.wanfangdata.com.cn/Periodical_hebgydxxb200711039.aspx

授权使用:无锡市图书馆(wxstsg),授权号:1373876d-a92b-4f79-ba4c-9e610114e72a

下载时间:2011年1月4日


相关内容

  • 机器人听觉定位跟踪声源的研究与进展
  • 第33卷第3期2009年5月 文章编号:1007-791X(2009)03-0199-07 燕山大学学报 JournalofYanshanUniversity Vol.33No.3May 2009 机器人听觉定位跟踪声源的研究与进展 李从清1,2,*,孙立新1,戴士杰1,3,李洙梁1 (1.河北工业 ...

  • 2014考研心理学大纲
  • 翔高启弘 Ⅰ.考试性质 心理学专业基础综合考试是为高等院校和科研院所招收心理学学科的硕士研究生而设置的具有选拔性质的全国统一入学考试科目,其目的是科学.公平.有效地测试考生掌握心理学学科大学本科阶段专业基础知识.基本理论.基本方法的水平和分析问题.解决问题的能力,评价的标准是高等学校心理学学科优秀本 ...

  • 概念整合理论对通感的阐释
  • 第24卷第5期安徽工业大学学报(社会科学版)Vol.24,No.5 2007年9月JournalofAnhuiUniversityofTechnology(SocialSciences)September,2007 概念整合理论对通感的阐释 蒋红艳,周启强 (湖南科技大学外国语学院,湖南湘潭4112 ...

  • 教育创新理论(下)[创造性思维理论]答案1
  • 教育创新理论(下)<创造性思维理论>答案 一.单选题(共 10 小题,每题 3 分) 1.高级皮层中枢对阅读的理解过程不仅靠( )还要视觉系统的参与. A.味觉系统 B.语觉系统 C.知觉系统 2.形象思维:运用(A )进行分解.组合.联想.想象以及运用表象进行抽象.概括等心理加工方式 ...

  • 教育技术常用到的专业术语汇总
  • 人工智能:(Artificial Intelligence )研究模拟和延伸人脑功能的综合性学科.中心课题是用计算模拟人脑的感觉.知觉.记忆.思维.学习.行为等自然智能. 人际传播:(Interpersonal Communication )个人与个人或个人与集体间不通过传播机构进行的传播.包括交谈 ...

  • 设计专业词汇
  • 设计的分类与方法学(英语) 1 设计 Design 2 现代设计 Modern Design 3 工艺美术设计 Craft Design 4 工业设计 Industrial Design 5 广义工业设计 Genealized Industrial Design 6 狭义工业设计 Narrow In ...

  • 认知心理学试题库(不分套删除重复)
  • 认知心理学试题库 一.单选题(每题1分,共10分) 1( )是由有关知觉对象的一般知识开始的加工,由此可以形成期望或对知觉态度的假设,这种期望或假设制约着加工的所有阶段或水平. A.自下而上加工 B.局部加工 C.整体加工 D.自上而下加工 答案:D 2( )注意模型能够较好地解释"鸡尾酒 ...

  • 中国心理学大师
  • 韩世辉 北京大学心理学系教授, 博导.认知神经科学教研室主任,北京大学脑与认知科学研究中心骨干科学家. 探索大脑各种认知功能的认知和神经机制是多年研究工作的目标.主要利用实验心理学.神经心理学的实验方法和认知神经科学的多种脑成像技术,研究视知觉.注意.记忆及意识的神经机制.欢迎具有心理学.生命科学. ...

  • 驾驶疲劳对情绪的影响
  • ・・248ChineseJournalofClinicalPsychologyVol.14No.32006 驾驶疲劳对情绪的影响 宋国萍,张侃 (中国科学院心理所工程心理学实验室,北京100101) [摘要]目的:探讨驾驶疲劳对于情绪的影响.方法:采用组间对照,对照组为12名充分休息的出租车司机,实 ...