机器人听觉定位跟踪声源的研究与进展

第33卷第3期2009年5月

文章编号:1007-791X(2009)03-0199-07

燕山大学学报

JournalofYanshanUniversity

Vol.33No.3May

2009

机器人听觉定位跟踪声源的研究与进展

李从清1,2,*,孙立新1,戴士杰1,3,李洙梁1

(1.河北工业大学机械工程学院,天津300130;2.天津城市建设学院能源与机械工程系,天津300384;

3.哈尔滨工业大学机器人技术与系统国家重点实验室,黑龙江哈尔滨150080)摘

要:从基于麦克风阵列和基于人耳听觉机理两个方面综述了当前机器人听觉定位跟踪声源目标的研究动态

和发展方向。首先回顾了机器人听觉定位声源的研究历史;其次讨论了两种系统的优缺点;最后指出了未来机器人听觉定位跟踪声源的发展趋势。基于麦克风阵列的声源定位系统,盲波束形成技术是未来进一步研究内容。而基于人耳听觉机理的声源定位系统,运用计算听觉场景分析建立声源定位模型将是未来热点研究内容。关键词:机器人听觉;声源定位;麦克风阵列;计算听觉场景分析中图分类号:TP242.6,

TN912.3

文献标识码:A

0引言

机器人的听觉,与它的视觉相比,仍然是处在

耳定位声源系统的研究进展情况;讨论了两种定位系统各自的优缺点;最后指出了未来机器人听觉定位声源的研究方向和发展趋势。

初期阶段研究的课题。可是,近些年来机器人听觉的研究已经成为机器人研究领域的重要课题。听觉是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。由于声音具有绕过障碍物的特性,在机器人多信息采集系统中,听觉可以与机器人视觉相配合弥补其视觉有限性及不能穿过非透光障碍物的局限性[1]。

先前机器人导航主要使用测距传感器(如声纳),而跟踪主要依靠视觉[2]。这种形式在视觉场景内被广泛作为定位目标的方式。但是像人和大部分动物那样,视觉场被限制在小于180°的范围内。在真实世界中,听觉能带来360°的“听觉场景”。它能定位不在视觉场景内的声音目标,即定位由物体遮挡造成的模糊目标或在拐角处的声音目标。因此,研究机器人听觉定位跟踪声源目标具有重要的理论意义和实际价值。

本文首先论述了国内外基于麦克风阵列的机器人听觉定位跟踪声源系统的研究现状;介绍了当前国内外前沿研究课题的基于人耳听觉机理的双

收稿日期:2009-03-25

1基于麦克风阵列的声源定位系统

麦克风阵列是指由若干麦克风按照一定的方

式布置在空间不同位置上组成的阵列。麦克风阵列具有很强的空间选择性,而且不需要移动麦克风就可以获得声源信号,同时还可以在一定范围内实现声源的自适应检测、定位和跟踪。

麦克风阵列声源定位是指用麦克风阵列采集声音信号,通过对多道声音信号进行分析和处理在空间中定出一个或多个声源的平面或空间坐标,得到声源的位置。现有声源定位技术可分为3类[3-4]。第一类是基于最大输出功率的可控波束形成技术。它的基本思想是将各阵元采集来的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得麦克风阵列的输出信号功率最大。在传统的波束形成器中,权值取决于各阵元上信号的相位延迟,相位延迟与声达时间延迟(delayofarrival,DOA)有关,因此称为延时求和波束形成器(delay-and-sumbeamformer,DASBF)。第

基金项目:河北省自然科学基金资助项目(F2007000118);机器人技术与系统国家重点实验室开放基金

研究资助项目(SKLRS200716);河北省教育厅基金资助项目(2007315)

作者简介:*李从清(1962-),男,天津人,博士研究生,副教授,主要研究方向为机器人听觉系统,Email:[email protected]

200燕山大学学报2009

二类是基于高分辨率谱估计技术。高分辨率谱估计主要有自回归(autoregression,AR)模型、最大熵(maximumentropy,ME)法、最小方差估计(minimumvarianceestimation,MVE)法和特征值分解方法(multiplesignalclassification,MUSIC;estimatingsignalparametersviarotationalinvari-ancetechniques,ESPRIT)等方法。该定位的方法一般都具有很高的定位精度,但这类方法的计算量往往都比前类大的多。第三类是基于声达时间差(timedifferenceofarrival,TDOA)的定位技术。基于麦克风阵列声源定位研究国内外开发出多种不同系统。

1999年日本会津大学

[5]

开发了一种声视联合的机器人定位跟踪系统。该系统包括一个声音活动探测的概率声音定位子系统和使用视觉摄象机的人脸跟踪子系统。它能联合这些子系统弥补话者位置的偏差以及能有效地拒绝从不希望方向进入的不需要的声音或噪音。声源定位跟踪采用波达延迟方法。但该系统不能从几个人混合的声音中提取目标的声音,由声音和视觉系统产生各种信息也未进行融合。

2006年日本HONDA研究院[9]开发研制了通过联合室内麦克风阵列和嵌入机器人头部的麦克风阵来实时跟踪多声源的系统。室内麦克风阵列(in-roommicrophonearray,IRMA)系统由嵌入墙内的64通道(ch)麦克风组成。在2维平面上,IRMA系统基于加权延时-累加波束成形法定位多声源位置。嵌入机器人头部麦克风阵列robot-embeddedmicrophonearray,REMA)系统用旋转台上嵌入机器人头部的8个麦克风来定位多声源方位角,其方位角通过使用粒子滤波来实时跟踪。

在REMA系统中,采用自适应波束成形器法(MUSIC)[10]定位声源。因为自适应波束成形器能适应一些环境的变化,所以它比非自适应系统,像双耳听觉系统

[11]

开发了一种装配有实

时声音定位系统以及障碍探测声纳系统的移动机器人。声音定位方法是基于人类听觉系统的“优先效应[6]”处理回波和混响的一种模型。定位系统由3个麦克风构成的等腰三角形阵列组成。首先进行自由回声起始触发(echo-freeonset)探测,然后进行麦克风之间的时间差计算及声源方位角估计。在普通室内和40dB噪声下,对正弦波声和拍手声进行定位。借助于声纳系统它能不断地绕过障碍物边缘位置向声源方向移动而最终指向声源。机器人还能在室外逐渐地接近室内不可见的声源。该系统最大优点是它能消除由双耳定位所产生的前后混淆性。但是这种系统很难正确定位语音源,因为语音通常有许多频率成分,而每个频率成分的起始触发可能是尖峰的或平缓的。

2003年意大利里雅斯特大学和帕多瓦大学

[7]

和基于几何源分离(geometric

sourceseparation,GSS)的麦克风阵列[12],具有更好的声源定位和分离性能。此外它能通过利用预测脉冲回响实时定位。对于IRMA算法,系统采用加权时延-累计波束成形(weighteddelay-and-sumbeamforming,WDS-BF)方法计声源的方向和位置。

2007年加拿大魁北克的珊不勒凯大学机电学院

[14]

[13]

。这种算法能估

联合研制了智能声视联合多代理监视跟踪系统。它由几个机器人组成,都配有麦克风阵列和视频摄象机。声音系统用于对脚步声之类的声源进行轨迹跟踪,用途可作为博物馆等公共场所的人流记录系统,或监测在某作品前人们停留的时间长短。声音定位方法采用了波束成形技术,在4个麦克风阵列上运用神经网络,根据行者的脚步声实施定位计算。首先算出声源的大致方向,然后通过波束成形算法增强目标声源方向的信号而抑制其它方向的信号,而最终获得目标声源方向主瓣。不足点是由几个机器人提供的传感数据没能很好地进行融合以建立准确的步行者的轨迹。

2006年韩国理工学院

[8]

开发研制了避障机器人。机器人具有鲁棒的

定位性能和通过使用波束成形和粒子滤波能跟踪几个同时声源。系统使用8个麦克风阵列定位跟踪声源,它是先前研究工作

[15-16]

的扩展。系统由3

个部分组成:麦克风阵列;基于可控方向的波束成形器的无记忆定位算法;粒子滤波跟踪器。

麦克风采集到的信号传输给波束成形器(空间滤波),波束成形器投向所有可能存在声源的方向,以寻找最大的输出能量方向。由波束成形器确定的初始方位作为后序处理阶段的输入,这一阶段使用粒子滤波来同时跟踪所有的声源。该定位系统的输出既可被用作引导机器人指向声源,也可用作声源

智能机器人研究中心

第3期李从清等机器人听觉定位跟踪声源的研究与进展201

分离算法的一部分。该系统解决了用两个麦克风定位前后(front-back)模糊性以及当声源在两麦克风连线上时定位精度低等问题。

2007年早稻田大学[17]提出了一种精确的不需要严格的HRTF的声音分离方法。该方法的实施采用由机器人头部作为声音障碍所引起的声音强度差以及安装在机器人头部上的特殊排列的方向性麦克风来完成。在机器人头部的每一侧安装一对麦克风,一个朝前而另一个垂直朝外。这种麦克风排列能产生含有完全不同干扰语音的两线目标语音。目标语音的提取通过使用三层信号处理在这两线中发现共同成分来完成。

2007年日本京都大学[18]开发了一种能使机器人在日常生活环境中选择和跟踪某个目标的系统。对于声源定位,提出了一种联合互功率谱(CSP)分析和最大期望(EM)的方法。该方法通过使用两个麦克风就能定位几个运动的声源,而不需要脉冲响应数据。

近些年,国内学者对声源定位的研究非常活跃,多数是基于麦克风阵列的声源定位理论研究。

2003年陈华伟等

[19]

差,又考虑到各阵元接收信号的幅度差,从而实现对声源的二维(或三维)定位。根据声源的方位信息,可以使用波束形成技术获得一个或多个波束指向感兴趣的声源,从而更好地去噪,完成对该声源信号的提取和分离。

2004年陈可,汪增福[22]提出一种使用声压幅度比进行声源定位的方法。该方法从阵列各拾音器所接收的电压信号幅度与相应拾音器到待测声源距离之间关系出发,给出了以声压幅度比为参量的约束条件表达式,建立了利用这些约束条件进行声源定位的算法。在10000次测量中,系统检测到的声源位置与声源的实际位置之间的偏差很小,其中最大水平偏向角误差在±2°之间,最大俯仰角误差在±1°度之间。

2004年马晓红等[23]提出一种改进的多帧互功率谱时延估计法。由于互功率谱时延加权函数随信噪比变化,该方法将由一帧互功率谱加权函数峰值决定的时延估计值,改进为由多帧互功率谱加权后的峰值来定出时延估计值。该方法在强噪声和强混响环境下,始终具有比较尖锐的峰值和比较高的正确率。因此,时延估计具有较高的精度,其性能优于单帧互功率谱法。

2005年李承智等[24]针对传统的自适应特征值分解时延估计算法收敛时间慢、对初值敏感以及不能有效跟踪时延变化等问题,提出了一种改进的自适应特征值分解时延估计算法。该方法通过每隔一段时间重新设置信道冲击响应的初值,有效改善了对时延变化的估计。另外,他们通过引入一个基于相关运算的语音检测算法,提高了定位系统的抗噪

提出了基于平方相干函数

的频域自适应最大似然时延估计新算法。该法构造了一种新的广义相位数据最大似然加权函数。算法由两个频域自适应滤波器估计信号的平方相干函数构成,先对相位数据进行加权处理,然后拟合相位数据曲线,得到两倍的时延估计值。该算法的时延估计方差比频域自适应最大似然时延估计的方差约减小了两倍。

2004年林静然等

[20]

提出一种改进的基于麦克

声能力。

2006年河北工业大学[25]完成的面向反恐领域基于多源信息融合的机器人感知系统研究是集成视觉传感器、听觉传感器和嗅觉传感器于一体的多感官信息融合技术的跟踪系统。听觉系统采用等腰三角形分布的3个麦克风阵列,通过计算各麦克风之间的时间延迟和几何关系来判断声源的方位和距离。

风阵列的近场声源定位和语音分离算法。它结合双波束二维定位和近场最小方差波束形成技术在阵列近场范围内实现声源定位和语音分离。使用双波束进行二维定位能解决2D-MUSIC运算量过大和实现困难的问题。在双波束二维定位的基础上,使用基于麦克风阵列近场模型的最小方差波束形成技术进行语音分离,它比常规的最小方差波束形成技术更适用于近场内的语音分离。

2004年邵怀宗等[21]基于麦克风均匀线阵和均匀圆阵,采用改进的MUSIC算法对近场声源进行定位。既考虑到麦克风阵列各阵元接收信号的相位

2基于人耳听觉机理的声源定位系统

近些年来,基于人耳听觉机理的声源定位的研

202燕山大学学报2009

究越来越引起世界各国学者们的广泛关注。人耳听觉系统能够同时定位和分离多个声源,这种特性经常被称作“鸡尾酒会效应”。通过这一效应一个人在嘈杂声音的环境中能集中一个特定的声音或语音。从人类听觉生理和心理特性出发,研究人在声音或语音识别过程中的规律,被称为听觉场景分析(auditorysceneanalysis,ASA),而用计算机模仿人类听觉生理和心理机制建立听觉模型的研究范畴称为计算听觉场景分析

[26]

定位模型不仅基于双耳时间差ITD,而且也基于双耳强度差IID。系统使用了24通道的带通滤波来分析声音的输入信号,并打算模拟人耳听觉的临界频带。像语音这样的宽带信号的混合可能有大量的声谱重叠,即这种不同的声源通常在频率上不能很好地分离开。其结果在互功率谱中的峰值不再可靠地表示各个声源的ITD。因此在多个声源之间的声谱重叠会造成定位上的主要困难。为了解决声谱重叠的问题,Bodden模型包含两个计算阶段。第一,在每个频带内的互相关函数从内部延迟轴变换到偏角轴。这种变换在监测训练阶段完成。第二训练阶段为每一临界频带提供加权系数。为了进一步加强多源定位的可靠性,系统在短时间窗内进行平均运算。但是当多个声源偏角间分离不太远时,该模型很难将它们分开。为了解决声源偏角模糊性问题,D.L.Wang和G.J.Brown等

[33-34]

(computationalaudi-

torysceneanalysis,CASA)。

人耳听觉系统通常分为听觉外周系统和听觉中枢系统。听觉外周系统主要由外耳、中耳、耳蜗以及听觉神经组成。听觉中枢系统主要由耳蜗核、上橄榄复合体、下丘、内侧膝状体以及听觉皮层组成。上橄榄复合体(superiorolivecomplex,SOC)是与听信号传导有关的脑干听觉初级中枢,分为内侧上橄榄(medialsuperiorolive,MSO)、外侧上橄榄(lateralsuperiorolive,LSO)、斜方体核(nu-cleusoftrapezoidbody,NTB)和橄榄周核(PON)。内侧上橄榄和外侧上橄榄被认为与双耳间声信号的加工和声音的空间定位有关。一般认为,声音的空间定位主要依靠声源的时相差和强度差确定。上橄榄核复合体对以上两项指标进行判断和分析,再传入下丘或听觉皮质进行更高级的整合,从而完成声源的空间定位

[27]

提出了

“骨骼”互相关声谱计算方法。该方法基本思想是用较窄宽度的高斯函数取代在互相关谱响应中的峰值。具体地,在互相关谱内的每一个局部峰被减小到一个脉冲相同的高度,然后由此引起的脉冲序列与高斯函数卷积,它们的宽度与相应滤波频道的中心频率成反比,由此得出的累加的“骨骼”互相关谱峰就相当地尖锐化,由此就比较清楚地表示了多声源的偏角。

2001年日本京都大学[35]研制了能实时跟踪多话者,被称为SIG的仿人形机器人。系统采用多模态联合的方式实时跟踪多个说话者。听觉系统采用两个麦克风作为两个“耳朵”获取声音信息,通过基音周期的提取进行语音的定位和分离,利用视觉改善声源分离

[36]

1948年Jeffress提出“巧合假说”[28],以后出1983年现了许多双耳定位模型[29-30]。基于此假说,Lyon[31]是较早将人的听觉机制运用到声源定位上,提出了将声源定位与声源分离联合起来的计算系统。系统先从一个混合声音的耳蜗谱开始,耳蜗谱基本上是将耳蜗滤波与听觉神经的机械到神经之间传递联合起来的一种表达方式。随后计算左右耳蜗谱响应之间的互相关函数,然后对所有频道互相关响应进行累加,得出一个累加的互相关谱,其中最为突出的峰值就表示这些特殊声源的时间延迟ITD。

1993年Bodden

[32]

。Nakadai等人

[37]

还提出了主

动听觉的模型,它通过集成听觉、视觉和电机控制来改善声源的跟踪。主动听觉有两个优点:一是利用谐波结构特性精确提取峰值,二是通过Demp-ster-Shafer理论解决声源定位的不确定性。实验证明,采用集成听觉、视觉和电机控制的主动听觉可以在任何环境下跟踪声源。

实施了比较系统的多声源

2006年N.Roman和D.L.Wang

[38]

提出双

定位研究。基于一个可理解的双耳模型,提出了人耳听觉系统的高层次的模拟。系统采用的双耳处理器遵循Jeffress模型的扩展,特别地它联合了对侧抑制模型并且适合于头相关传输函数(HRTF)。其

耳听觉定位跟踪多运动声源系统。在系统中采用了一种新的跟踪算法。算法联合所有可靠频道间的概率以便在目标空间中产生似然函数。似然函数描述了在一个特定的时间序列内的机动声源的方位角。最后利用隐马尔可夫模型(hiddenmarkovmodels,

第3期李从清等机器人听觉定位跟踪声源的研究与进展203

HMMs)来形成连续地跟踪和自动地探测机动声源的数量。系统由4个阶段组成:1)利用听觉外围模型来分析左右耳混合声音。对于每一频道,在相邻时间帧内计算两耳信号间的归一化互相关函数。在互相关函数内峰值对应的时延作为ITD估计的一个候选。在高频段会出现多个峰值,这会产生定位的模糊性,通过利用IID信息来解决;2)频道选择。这一阶段选择那些主要由一个声源占据的可靠频道,而同时排除那些比较混沌的声源。这里利用互相关函数的峰值的高度作为一种频道可靠性的测量;3)多通道位置信息的联合。常规的方法是累计所有频道的互相关函数。累计互相关函数的一个峰指出了一个积极的声源,而峰的高度表示它的可能性。而在该系统中他们考虑了ITD-IID估计的统计分布;4)在连续的HMM框架内形成方位角跟踪。他们提出一种允许在子空间之间相跳跃HMM模型,在每个子空间中,全部声源数量中仅一个子集是积极的。这种框架从先前阶段的源运动动态性模态和各个子空间之间的跳跃概率模态中联合了可能性模态。最后通过Viterbi解码算法获得理想的方位角跟踪。

综观上述分析,机器人听觉定位跟踪声源的研究主要分为基于麦克风阵列和基于人耳听觉机理的声源定位系统研究。基于麦克风阵列的声源定位系统具有算法多样、技术成熟、历史悠久、定位准确、抗干扰能力强等优点。但是,该方法也具有计算量大,实时性差等不足,尤其是当麦克风数量很大时不足显得更加突出。随着DSP硬件的发展,这些问题逐渐会得到解决。基于人耳听觉机理的声源定位系统研究是当前国际上前沿研究课题。它是从人的听觉生理和心理特性出发,研究人在声音识别过程中的规律,寻找人听觉表达的各种线索,建立数学模型用计算机来实现它,即计算听觉场景分析(CASA)所要研究的内容。该方法符合人的听觉机理,是智能科学研究的成果。由于人耳听觉机理尚未完全被人类认识,所以该系统研究还处在低级阶段。

现。尽管取得了一些令人鼓舞的成果,但是机器人距离实现智能化还有很长的路要走。随着脑科学、认知科学和人工智能等学科研究的发展,机器人听觉能力必将产生突破性的进展。

未来机器人听觉定位跟踪声源的研究方向主要有以下几个方面:

1)基于麦克风阵列的波束形成技术定位跟踪声源的研究仍然是未来研究主流。近来人们提出许多盲波束形成算法,它们的共同特点是在于不需要阵列校验、波达方向、训练序列、干扰和噪声的空间自相关矩阵等的先验知识。目前盲波束形成主要有基于常模量(CM)的算法,基于高阶累计量的方法以及基于周期平稳的算法;

2)基于人耳听觉机理的声源定位是未来研究热点。它要涉及到听觉心理学、听觉生理学和神经科学等多种学科研究领域。

参考文献

[1]HuangJ,OhnishiN,SugieN.Buildingearsforrobots:soundlocalizationandseparation[J].ArtificialLifeandRobotics,1997,1(4):157-163.

[2]WermterS,WeberC,ElshawM,etal..Towardsmultimodalneuralrobotlearning[J].RoboticsandAutonomousSystemsJour-nal,2004,47(2-3):171-175.

[3]林志斌,徐柏龄.基于传声器阵列的声源定位[J].电声技术,2004,(5):19-23.

[4]朱广信,陈彪,金蓉.基于传声器阵列的声源定位[J].电声技术,2003,(1):34-37.

[5]JieHuang,TadawuteSupaongprapa,IkutakaTerakura,etal..Amodel-basedsoundlocalizationsystemanditsapplicationtorobotnavigation[J].RoboticsandAutonomousSystems,1999,27(4):199-209.

[6]王坚,蒋涛,曾凡钢.听觉科学概论[M].北京:中国科学技术出版社,2005.

[7]MumoloE,NolichM,MenegattiE,etal..Amultiagentsystemforaudio-videotrackingofawalkingpersoninastructuredenvi-ronment[C]//ProceedingsofWorkshoponMultiagentRoboticSystemstrendsandindustrialapplications,Padova,Italy,2003.[8]ChoiJong-Suk,KimMunsang,KimHyun-Don.Probabilisticspe-akerlocalizationinnoisyenvironmentsbyaudio-visualintegration[C]//Proceedingsofthe2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems,Beijing,China,2006:4704-4709.

3结论与发展趋势

机器人听觉定位跟踪声源系统研究是当前国

际上的前沿课题。它是机器人实现智能化必不可少的一部分,是智能科学研究成果在机器人上的体

204燕山大学学报2009

[9]KazuhiroNakadai,HirofumiNakajima,MasamitsuMurase.Real-timetrackingofmultiplesoundsourcesbyintegrationofin-roomandrobot-embeddedmicrophonearrays[C]//Proceedingsofthe2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems,Beijing,China,2006:852-859.

[10]AsanoF,GotoM,ItouK.Real-timesoundsourcelocalizationandseparationsystemanditsapplicationtoautomaticspeechrec-ognition[C]//ProceedingsofInternationalConferenceonSpeechProcessing(Eurospeech2001),Aalborg,Ed.,2001:1013-1016.[11]NakadaiK,MatsuuraD,OkunoGH,etal..ImprovementofthreesimultaneousspeechrecognitionbyusingAVintegrationandscatteringtheoryforhumanoidrobots[J].SpeechCommunication,2004,44(1-4):97-112.

[12]Shun'ichiYamamoto,KazuhiroNakadai,HiroshiTsujino.Im-provementofrobotauditionbyinterfacingsoundsourceseparationandautomaticspeechrecognitionwithmissingfeaturetheory

//

Proceedingsofthe2004IEEEInternationalConferenceonRobo-tics&Automation,NewOrleans,LA,USA,2004:1517-1523.[13]KazuhiroNakadai,HirofumiNakajima,KentaroYamada,etal..Soundsourcetrackingwithdirectivitypatternestimationusinga64chmicrophonearray[C]//2005IEEE/RSJInternationalCon-ferenceonIntelligentRobotsandSystems(IROS2005),EdmontonCA,2005:1690-1696.

[14]ValinJM,MichaudF,RouatJ.Robustlocalizationandtrackingofsimultaneousmovingsoundsourcesusingbeamformingandparticlefiltering[J].RoboticsandAutonomousSystemsJournal,2007,55(3):216-228.

[15]ValinJM,MichaudF,HadjouB,etal..Localizationofsimultaneousmovingsoundsourcesformobilerobotusingafre-quency-domainsteeredbeamformerapproach[C]//ProceedingsofIEEEInternationalConferenceonRoboticsandAutomation(ICRA),2004:1033-1038.

[16]JeanMarcValin,FrancisMichaud.Robustsoundsourcelocali-zationusingamicrophonearrayonamobilerobot[C]//Proceed-ingsofIEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS),2003:1228-1233.

[17]NaoyaMochiki,TetsujiOgawa,TetsunoriKobayashi.Earsofrobot:threesimultaneousspeechsegregationandrecognitionusingrobot-mountedmicrophones[J].IEICETransactionsonInforma-tionandSystems,2007,E90-D(9):1465-1468.

[18]KimHyun-Don,KazunoriKomatani,TetsuyaOgata,etal..

Auditoryandvisualintegrationbasedlocalizationandtrackingofhumansindailylifeenvironments[C]//Proceedingofthe2007IEEE/RSJ,InternationalConferenceonIntelligentRobotsandSys-tems,SanDiego,CA,USA,2007:2021-2027.

[19]陈华伟,赵俊渭,郭业才.一种频域自适应最大似然时延估计算法[J].系统工程与电子技术,2003,25(11):1355-1361.[20]林静然,彭启琮,邵怀宗.基于麦克风阵列的双波束近场定位

及语音分离[J].仪器仪表学报,2004,25(4):1000-1002.[21]邵怀宗,林静然,彭启琮,等.基于麦克风阵列的声源定位研

究[J].云南民族大学学报(自然科学版),2004,13(4):256-258.[22]陈可,汪增福.基于声压幅度比的声源定位[J].计算机仿真,2004,21(11):85-88.

[23]马晓红,陆晓燕,殷福亮.改进的互功率谱相位时延估计方法

[J].电子与信息学报,2004,26(1):53-59.

[24]李承智,曲天书,吴玺宏.一种改进的AEDA声源定位及跟

踪算法[J].北京大学学报(自然科学版),2005,41(5):809-814.[25]郭兰申.面向反恐领域基于多源信息融合的机器人感知系统

研究[D].天津:河北工业大学,2006.

[26]BregmanAS.Auditorysceneanalysis:theperceptualorganizationofsound[M].Cambridge,MA:TheMITPress,1990.[27]赵明光,马惠芳,王唯析,等.上橄榄核簇与听觉[J].解剖科学进展,2000,6(3):210-214.

[28]JeffressLA.Aplacetheoryofsoundlocalization[J].JCompPhysiolPsychol,1948,41(1):35-39.

[29]BreebaartJ,VanderParS,KohlrauschA.Binauralprocessingmodelbasedoncontralateralinhibition.I.Modelstructure[J].JournaloftheAcousticalSocietyAmerica,2001,110(2):1074-1088.

[30]ColburnHS.Theoryofbinauralinteractionbasedonauditory-nervedata.II.Detectionoftonesinnoise[J].JournaloftheAcous-ticalSocietyofAmerica,1977,61(2):525-533.

[31]LyonRF.Acomputationalmodelofbinaurallocalizationandseparation[C]//ProceedingoftheInternationalConferenceonAcoustics,SpeechandSignalProcessing,1983:1148-1151.[32]BoddenM.Modelinghumansound-sourcelocalizationandthecocktailpartyeffect[J].ActaAcoustic,1993,(1):43-55.[33]PalomakiKJ,BrownGJ,WangDL.Abinauralprocessorformissingdataspeechrecognitioninthepresenceofnoiseandsmall-roomreverbration[J].SpeechCommunication,2004,43(4):361-378.

[34]RomanN,WangDL,BrownGJ.Speechsegregationbasedonsoundlocalization[J].JournalofAcousticSocietyofAmerica,2003,114(4):2236-2252.

[35]KazuhiroNakadai,Ken-ichiHidai,HiroshiMizoguchi,etal..Real-timemultiplespeakertrackingbymulti-modalintegrationformobilerobots[C]//ProceedingsofEuropeanConferenceonSpeechProcessing(Eurospeech2001),Aalborg,Denmark,2001:1193-1196.[36]NakagawaY,OkunoHG,KitanoH.Usingvisiontoimprove

soundsourceseparation[C]//ProceedingsofthesixteenthnationalconferenceonArtificialintelligenceandtheeleventhInnovativeapplicationsofartificialintelligenceconferenceinnovativeapplic-ationsofartificialintelligence,Orlando,Florida,USA,1999:768-775.

第3期李从清等机器人听觉定位跟踪声源的研究与进展205

[37]KazuhiroNakadai,TinoLourens,HiroshiGOkuno,etal..Activeauditionforhumanoid[C]//ProceedingsoftheSeventeenthNa-tionalConferenceonArtificialIntelligenceandTwelfthConfer-enceonInnovativeApplicationsofArtificialIntelligence,2000:832-839.

[38]RomanN,WangDL.Binauraltrackingofmultiplemovingsources[R].OSU-CISRC-4/06-TR44,DepartmentofComputerScienceandEngineering,TheOhioStateUniversity,Columbus,Ohio,USA,2006.

Researchandadvanceforrobotauditiontolocalizeandtracksoundsources

LICong-qing1,2,SUNLi-xin1,DAIShi-jie1,3,LIZhu-liang1

(1.SchoolofMechanicalEngineering,HebeiUniversityofTechnology,Tianjin300130,China;2.DepartmentofEnergySourceandMechanicalEngineering,TianjinInstituteofUrbanConstruction,Tianjin300384,China;3.StateKeyLaboratoryofRobotics

andSystem,HarbinInstituteofTechnology,Harbin,Heilongjiang150080,China)

Abstract:Thetrendsofresearchandthedirectionofdevelopmentforrobotauditiontolocalizeandtracksoundsourcesaresum-marizedfromtwoaspectsbasedonthemicrophonearraysandthehumanauditorymechanism.Firstly,thehistoryforrobotauditiontolocalizeandtracksoundsourcesisreviewed.Secondly,theadvantagesanddisadavantagesofthesesystemsarediscussed.Finally,thedevelopmentforrobotauditiontolocalizeandtracksoundsourcesispointedout.Forsoundlocalizationsystembasedonthemicrophonearrays,blindbeamformingtechniquewillbestudiedfurtherinthefutureandforsoundlocalizationsystembasedonthehumanauditorymechanism,itwillbehotissueinthefuturetoestablishthemodleofsoundlocalizationbyapplyingcom-putationalauditorysceneanalysis.

Keywords:robotaudition;soundlocalization;microphonearrays;computationalauditorysceneanalysis

(上接第198页)

Depthestimatingalgorithmandprecisionanalysisofbifocalimagingwithoutprincipalpointcalibrating

WUPei-liang,KONGLing-fu,LIXian-shan

(CollegeofInformationScienceandEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China)

Abstract:Thebifocuslenscouldproduceimagesatthetwoindependentfocallengthrespectivelyandrecoverytheobject'sdepthinformationaccordingtothetwobifocalimages,whichistheprincipleofdepthestimatingusingbifocallens.Atfirsttheprincipleofbifocalimagingandit'sprecisioninfluencedbycalibratingprecisionofprincipalpointareanalyzed,andtwoinvariantsofprin-cipalpointarefoundinthetwobifocalimages.Andthenbasedonthetwoinvariantsanovelbifocusdepth-estimatingalgorithmisproposedtosteerclearoftheprincipalpointcalibrationandimprovethedepthestimatingprecision.Experimentalcomparisonsbetweenthenovelalgorithmandthetraditionalalgorithmillustratethatthenovelalgorithmsiscorrectandfeasible.Keywords:bifocalimaging;depthrecovery;principalpoint;uncalibrated

第33卷第3期2009年5月

文章编号:1007-791X(2009)03-0199-07

燕山大学学报

JournalofYanshanUniversity

Vol.33No.3May

2009

机器人听觉定位跟踪声源的研究与进展

李从清1,2,*,孙立新1,戴士杰1,3,李洙梁1

(1.河北工业大学机械工程学院,天津300130;2.天津城市建设学院能源与机械工程系,天津300384;

3.哈尔滨工业大学机器人技术与系统国家重点实验室,黑龙江哈尔滨150080)摘

要:从基于麦克风阵列和基于人耳听觉机理两个方面综述了当前机器人听觉定位跟踪声源目标的研究动态

和发展方向。首先回顾了机器人听觉定位声源的研究历史;其次讨论了两种系统的优缺点;最后指出了未来机器人听觉定位跟踪声源的发展趋势。基于麦克风阵列的声源定位系统,盲波束形成技术是未来进一步研究内容。而基于人耳听觉机理的声源定位系统,运用计算听觉场景分析建立声源定位模型将是未来热点研究内容。关键词:机器人听觉;声源定位;麦克风阵列;计算听觉场景分析中图分类号:TP242.6,

TN912.3

文献标识码:A

0引言

机器人的听觉,与它的视觉相比,仍然是处在

耳定位声源系统的研究进展情况;讨论了两种定位系统各自的优缺点;最后指出了未来机器人听觉定位声源的研究方向和发展趋势。

初期阶段研究的课题。可是,近些年来机器人听觉的研究已经成为机器人研究领域的重要课题。听觉是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。由于声音具有绕过障碍物的特性,在机器人多信息采集系统中,听觉可以与机器人视觉相配合弥补其视觉有限性及不能穿过非透光障碍物的局限性[1]。

先前机器人导航主要使用测距传感器(如声纳),而跟踪主要依靠视觉[2]。这种形式在视觉场景内被广泛作为定位目标的方式。但是像人和大部分动物那样,视觉场被限制在小于180°的范围内。在真实世界中,听觉能带来360°的“听觉场景”。它能定位不在视觉场景内的声音目标,即定位由物体遮挡造成的模糊目标或在拐角处的声音目标。因此,研究机器人听觉定位跟踪声源目标具有重要的理论意义和实际价值。

本文首先论述了国内外基于麦克风阵列的机器人听觉定位跟踪声源系统的研究现状;介绍了当前国内外前沿研究课题的基于人耳听觉机理的双

收稿日期:2009-03-25

1基于麦克风阵列的声源定位系统

麦克风阵列是指由若干麦克风按照一定的方

式布置在空间不同位置上组成的阵列。麦克风阵列具有很强的空间选择性,而且不需要移动麦克风就可以获得声源信号,同时还可以在一定范围内实现声源的自适应检测、定位和跟踪。

麦克风阵列声源定位是指用麦克风阵列采集声音信号,通过对多道声音信号进行分析和处理在空间中定出一个或多个声源的平面或空间坐标,得到声源的位置。现有声源定位技术可分为3类[3-4]。第一类是基于最大输出功率的可控波束形成技术。它的基本思想是将各阵元采集来的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得麦克风阵列的输出信号功率最大。在传统的波束形成器中,权值取决于各阵元上信号的相位延迟,相位延迟与声达时间延迟(delayofarrival,DOA)有关,因此称为延时求和波束形成器(delay-and-sumbeamformer,DASBF)。第

基金项目:河北省自然科学基金资助项目(F2007000118);机器人技术与系统国家重点实验室开放基金

研究资助项目(SKLRS200716);河北省教育厅基金资助项目(2007315)

作者简介:*李从清(1962-),男,天津人,博士研究生,副教授,主要研究方向为机器人听觉系统,Email:[email protected]

200燕山大学学报2009

二类是基于高分辨率谱估计技术。高分辨率谱估计主要有自回归(autoregression,AR)模型、最大熵(maximumentropy,ME)法、最小方差估计(minimumvarianceestimation,MVE)法和特征值分解方法(multiplesignalclassification,MUSIC;estimatingsignalparametersviarotationalinvari-ancetechniques,ESPRIT)等方法。该定位的方法一般都具有很高的定位精度,但这类方法的计算量往往都比前类大的多。第三类是基于声达时间差(timedifferenceofarrival,TDOA)的定位技术。基于麦克风阵列声源定位研究国内外开发出多种不同系统。

1999年日本会津大学

[5]

开发了一种声视联合的机器人定位跟踪系统。该系统包括一个声音活动探测的概率声音定位子系统和使用视觉摄象机的人脸跟踪子系统。它能联合这些子系统弥补话者位置的偏差以及能有效地拒绝从不希望方向进入的不需要的声音或噪音。声源定位跟踪采用波达延迟方法。但该系统不能从几个人混合的声音中提取目标的声音,由声音和视觉系统产生各种信息也未进行融合。

2006年日本HONDA研究院[9]开发研制了通过联合室内麦克风阵列和嵌入机器人头部的麦克风阵来实时跟踪多声源的系统。室内麦克风阵列(in-roommicrophonearray,IRMA)系统由嵌入墙内的64通道(ch)麦克风组成。在2维平面上,IRMA系统基于加权延时-累加波束成形法定位多声源位置。嵌入机器人头部麦克风阵列robot-embeddedmicrophonearray,REMA)系统用旋转台上嵌入机器人头部的8个麦克风来定位多声源方位角,其方位角通过使用粒子滤波来实时跟踪。

在REMA系统中,采用自适应波束成形器法(MUSIC)[10]定位声源。因为自适应波束成形器能适应一些环境的变化,所以它比非自适应系统,像双耳听觉系统

[11]

开发了一种装配有实

时声音定位系统以及障碍探测声纳系统的移动机器人。声音定位方法是基于人类听觉系统的“优先效应[6]”处理回波和混响的一种模型。定位系统由3个麦克风构成的等腰三角形阵列组成。首先进行自由回声起始触发(echo-freeonset)探测,然后进行麦克风之间的时间差计算及声源方位角估计。在普通室内和40dB噪声下,对正弦波声和拍手声进行定位。借助于声纳系统它能不断地绕过障碍物边缘位置向声源方向移动而最终指向声源。机器人还能在室外逐渐地接近室内不可见的声源。该系统最大优点是它能消除由双耳定位所产生的前后混淆性。但是这种系统很难正确定位语音源,因为语音通常有许多频率成分,而每个频率成分的起始触发可能是尖峰的或平缓的。

2003年意大利里雅斯特大学和帕多瓦大学

[7]

和基于几何源分离(geometric

sourceseparation,GSS)的麦克风阵列[12],具有更好的声源定位和分离性能。此外它能通过利用预测脉冲回响实时定位。对于IRMA算法,系统采用加权时延-累计波束成形(weighteddelay-and-sumbeamforming,WDS-BF)方法计声源的方向和位置。

2007年加拿大魁北克的珊不勒凯大学机电学院

[14]

[13]

。这种算法能估

联合研制了智能声视联合多代理监视跟踪系统。它由几个机器人组成,都配有麦克风阵列和视频摄象机。声音系统用于对脚步声之类的声源进行轨迹跟踪,用途可作为博物馆等公共场所的人流记录系统,或监测在某作品前人们停留的时间长短。声音定位方法采用了波束成形技术,在4个麦克风阵列上运用神经网络,根据行者的脚步声实施定位计算。首先算出声源的大致方向,然后通过波束成形算法增强目标声源方向的信号而抑制其它方向的信号,而最终获得目标声源方向主瓣。不足点是由几个机器人提供的传感数据没能很好地进行融合以建立准确的步行者的轨迹。

2006年韩国理工学院

[8]

开发研制了避障机器人。机器人具有鲁棒的

定位性能和通过使用波束成形和粒子滤波能跟踪几个同时声源。系统使用8个麦克风阵列定位跟踪声源,它是先前研究工作

[15-16]

的扩展。系统由3

个部分组成:麦克风阵列;基于可控方向的波束成形器的无记忆定位算法;粒子滤波跟踪器。

麦克风采集到的信号传输给波束成形器(空间滤波),波束成形器投向所有可能存在声源的方向,以寻找最大的输出能量方向。由波束成形器确定的初始方位作为后序处理阶段的输入,这一阶段使用粒子滤波来同时跟踪所有的声源。该定位系统的输出既可被用作引导机器人指向声源,也可用作声源

智能机器人研究中心

第3期李从清等机器人听觉定位跟踪声源的研究与进展201

分离算法的一部分。该系统解决了用两个麦克风定位前后(front-back)模糊性以及当声源在两麦克风连线上时定位精度低等问题。

2007年早稻田大学[17]提出了一种精确的不需要严格的HRTF的声音分离方法。该方法的实施采用由机器人头部作为声音障碍所引起的声音强度差以及安装在机器人头部上的特殊排列的方向性麦克风来完成。在机器人头部的每一侧安装一对麦克风,一个朝前而另一个垂直朝外。这种麦克风排列能产生含有完全不同干扰语音的两线目标语音。目标语音的提取通过使用三层信号处理在这两线中发现共同成分来完成。

2007年日本京都大学[18]开发了一种能使机器人在日常生活环境中选择和跟踪某个目标的系统。对于声源定位,提出了一种联合互功率谱(CSP)分析和最大期望(EM)的方法。该方法通过使用两个麦克风就能定位几个运动的声源,而不需要脉冲响应数据。

近些年,国内学者对声源定位的研究非常活跃,多数是基于麦克风阵列的声源定位理论研究。

2003年陈华伟等

[19]

差,又考虑到各阵元接收信号的幅度差,从而实现对声源的二维(或三维)定位。根据声源的方位信息,可以使用波束形成技术获得一个或多个波束指向感兴趣的声源,从而更好地去噪,完成对该声源信号的提取和分离。

2004年陈可,汪增福[22]提出一种使用声压幅度比进行声源定位的方法。该方法从阵列各拾音器所接收的电压信号幅度与相应拾音器到待测声源距离之间关系出发,给出了以声压幅度比为参量的约束条件表达式,建立了利用这些约束条件进行声源定位的算法。在10000次测量中,系统检测到的声源位置与声源的实际位置之间的偏差很小,其中最大水平偏向角误差在±2°之间,最大俯仰角误差在±1°度之间。

2004年马晓红等[23]提出一种改进的多帧互功率谱时延估计法。由于互功率谱时延加权函数随信噪比变化,该方法将由一帧互功率谱加权函数峰值决定的时延估计值,改进为由多帧互功率谱加权后的峰值来定出时延估计值。该方法在强噪声和强混响环境下,始终具有比较尖锐的峰值和比较高的正确率。因此,时延估计具有较高的精度,其性能优于单帧互功率谱法。

2005年李承智等[24]针对传统的自适应特征值分解时延估计算法收敛时间慢、对初值敏感以及不能有效跟踪时延变化等问题,提出了一种改进的自适应特征值分解时延估计算法。该方法通过每隔一段时间重新设置信道冲击响应的初值,有效改善了对时延变化的估计。另外,他们通过引入一个基于相关运算的语音检测算法,提高了定位系统的抗噪

提出了基于平方相干函数

的频域自适应最大似然时延估计新算法。该法构造了一种新的广义相位数据最大似然加权函数。算法由两个频域自适应滤波器估计信号的平方相干函数构成,先对相位数据进行加权处理,然后拟合相位数据曲线,得到两倍的时延估计值。该算法的时延估计方差比频域自适应最大似然时延估计的方差约减小了两倍。

2004年林静然等

[20]

提出一种改进的基于麦克

声能力。

2006年河北工业大学[25]完成的面向反恐领域基于多源信息融合的机器人感知系统研究是集成视觉传感器、听觉传感器和嗅觉传感器于一体的多感官信息融合技术的跟踪系统。听觉系统采用等腰三角形分布的3个麦克风阵列,通过计算各麦克风之间的时间延迟和几何关系来判断声源的方位和距离。

风阵列的近场声源定位和语音分离算法。它结合双波束二维定位和近场最小方差波束形成技术在阵列近场范围内实现声源定位和语音分离。使用双波束进行二维定位能解决2D-MUSIC运算量过大和实现困难的问题。在双波束二维定位的基础上,使用基于麦克风阵列近场模型的最小方差波束形成技术进行语音分离,它比常规的最小方差波束形成技术更适用于近场内的语音分离。

2004年邵怀宗等[21]基于麦克风均匀线阵和均匀圆阵,采用改进的MUSIC算法对近场声源进行定位。既考虑到麦克风阵列各阵元接收信号的相位

2基于人耳听觉机理的声源定位系统

近些年来,基于人耳听觉机理的声源定位的研

202燕山大学学报2009

究越来越引起世界各国学者们的广泛关注。人耳听觉系统能够同时定位和分离多个声源,这种特性经常被称作“鸡尾酒会效应”。通过这一效应一个人在嘈杂声音的环境中能集中一个特定的声音或语音。从人类听觉生理和心理特性出发,研究人在声音或语音识别过程中的规律,被称为听觉场景分析(auditorysceneanalysis,ASA),而用计算机模仿人类听觉生理和心理机制建立听觉模型的研究范畴称为计算听觉场景分析

[26]

定位模型不仅基于双耳时间差ITD,而且也基于双耳强度差IID。系统使用了24通道的带通滤波来分析声音的输入信号,并打算模拟人耳听觉的临界频带。像语音这样的宽带信号的混合可能有大量的声谱重叠,即这种不同的声源通常在频率上不能很好地分离开。其结果在互功率谱中的峰值不再可靠地表示各个声源的ITD。因此在多个声源之间的声谱重叠会造成定位上的主要困难。为了解决声谱重叠的问题,Bodden模型包含两个计算阶段。第一,在每个频带内的互相关函数从内部延迟轴变换到偏角轴。这种变换在监测训练阶段完成。第二训练阶段为每一临界频带提供加权系数。为了进一步加强多源定位的可靠性,系统在短时间窗内进行平均运算。但是当多个声源偏角间分离不太远时,该模型很难将它们分开。为了解决声源偏角模糊性问题,D.L.Wang和G.J.Brown等

[33-34]

(computationalaudi-

torysceneanalysis,CASA)。

人耳听觉系统通常分为听觉外周系统和听觉中枢系统。听觉外周系统主要由外耳、中耳、耳蜗以及听觉神经组成。听觉中枢系统主要由耳蜗核、上橄榄复合体、下丘、内侧膝状体以及听觉皮层组成。上橄榄复合体(superiorolivecomplex,SOC)是与听信号传导有关的脑干听觉初级中枢,分为内侧上橄榄(medialsuperiorolive,MSO)、外侧上橄榄(lateralsuperiorolive,LSO)、斜方体核(nu-cleusoftrapezoidbody,NTB)和橄榄周核(PON)。内侧上橄榄和外侧上橄榄被认为与双耳间声信号的加工和声音的空间定位有关。一般认为,声音的空间定位主要依靠声源的时相差和强度差确定。上橄榄核复合体对以上两项指标进行判断和分析,再传入下丘或听觉皮质进行更高级的整合,从而完成声源的空间定位

[27]

提出了

“骨骼”互相关声谱计算方法。该方法基本思想是用较窄宽度的高斯函数取代在互相关谱响应中的峰值。具体地,在互相关谱内的每一个局部峰被减小到一个脉冲相同的高度,然后由此引起的脉冲序列与高斯函数卷积,它们的宽度与相应滤波频道的中心频率成反比,由此得出的累加的“骨骼”互相关谱峰就相当地尖锐化,由此就比较清楚地表示了多声源的偏角。

2001年日本京都大学[35]研制了能实时跟踪多话者,被称为SIG的仿人形机器人。系统采用多模态联合的方式实时跟踪多个说话者。听觉系统采用两个麦克风作为两个“耳朵”获取声音信息,通过基音周期的提取进行语音的定位和分离,利用视觉改善声源分离

[36]

1948年Jeffress提出“巧合假说”[28],以后出1983年现了许多双耳定位模型[29-30]。基于此假说,Lyon[31]是较早将人的听觉机制运用到声源定位上,提出了将声源定位与声源分离联合起来的计算系统。系统先从一个混合声音的耳蜗谱开始,耳蜗谱基本上是将耳蜗滤波与听觉神经的机械到神经之间传递联合起来的一种表达方式。随后计算左右耳蜗谱响应之间的互相关函数,然后对所有频道互相关响应进行累加,得出一个累加的互相关谱,其中最为突出的峰值就表示这些特殊声源的时间延迟ITD。

1993年Bodden

[32]

。Nakadai等人

[37]

还提出了主

动听觉的模型,它通过集成听觉、视觉和电机控制来改善声源的跟踪。主动听觉有两个优点:一是利用谐波结构特性精确提取峰值,二是通过Demp-ster-Shafer理论解决声源定位的不确定性。实验证明,采用集成听觉、视觉和电机控制的主动听觉可以在任何环境下跟踪声源。

实施了比较系统的多声源

2006年N.Roman和D.L.Wang

[38]

提出双

定位研究。基于一个可理解的双耳模型,提出了人耳听觉系统的高层次的模拟。系统采用的双耳处理器遵循Jeffress模型的扩展,特别地它联合了对侧抑制模型并且适合于头相关传输函数(HRTF)。其

耳听觉定位跟踪多运动声源系统。在系统中采用了一种新的跟踪算法。算法联合所有可靠频道间的概率以便在目标空间中产生似然函数。似然函数描述了在一个特定的时间序列内的机动声源的方位角。最后利用隐马尔可夫模型(hiddenmarkovmodels,

第3期李从清等机器人听觉定位跟踪声源的研究与进展203

HMMs)来形成连续地跟踪和自动地探测机动声源的数量。系统由4个阶段组成:1)利用听觉外围模型来分析左右耳混合声音。对于每一频道,在相邻时间帧内计算两耳信号间的归一化互相关函数。在互相关函数内峰值对应的时延作为ITD估计的一个候选。在高频段会出现多个峰值,这会产生定位的模糊性,通过利用IID信息来解决;2)频道选择。这一阶段选择那些主要由一个声源占据的可靠频道,而同时排除那些比较混沌的声源。这里利用互相关函数的峰值的高度作为一种频道可靠性的测量;3)多通道位置信息的联合。常规的方法是累计所有频道的互相关函数。累计互相关函数的一个峰指出了一个积极的声源,而峰的高度表示它的可能性。而在该系统中他们考虑了ITD-IID估计的统计分布;4)在连续的HMM框架内形成方位角跟踪。他们提出一种允许在子空间之间相跳跃HMM模型,在每个子空间中,全部声源数量中仅一个子集是积极的。这种框架从先前阶段的源运动动态性模态和各个子空间之间的跳跃概率模态中联合了可能性模态。最后通过Viterbi解码算法获得理想的方位角跟踪。

综观上述分析,机器人听觉定位跟踪声源的研究主要分为基于麦克风阵列和基于人耳听觉机理的声源定位系统研究。基于麦克风阵列的声源定位系统具有算法多样、技术成熟、历史悠久、定位准确、抗干扰能力强等优点。但是,该方法也具有计算量大,实时性差等不足,尤其是当麦克风数量很大时不足显得更加突出。随着DSP硬件的发展,这些问题逐渐会得到解决。基于人耳听觉机理的声源定位系统研究是当前国际上前沿研究课题。它是从人的听觉生理和心理特性出发,研究人在声音识别过程中的规律,寻找人听觉表达的各种线索,建立数学模型用计算机来实现它,即计算听觉场景分析(CASA)所要研究的内容。该方法符合人的听觉机理,是智能科学研究的成果。由于人耳听觉机理尚未完全被人类认识,所以该系统研究还处在低级阶段。

现。尽管取得了一些令人鼓舞的成果,但是机器人距离实现智能化还有很长的路要走。随着脑科学、认知科学和人工智能等学科研究的发展,机器人听觉能力必将产生突破性的进展。

未来机器人听觉定位跟踪声源的研究方向主要有以下几个方面:

1)基于麦克风阵列的波束形成技术定位跟踪声源的研究仍然是未来研究主流。近来人们提出许多盲波束形成算法,它们的共同特点是在于不需要阵列校验、波达方向、训练序列、干扰和噪声的空间自相关矩阵等的先验知识。目前盲波束形成主要有基于常模量(CM)的算法,基于高阶累计量的方法以及基于周期平稳的算法;

2)基于人耳听觉机理的声源定位是未来研究热点。它要涉及到听觉心理学、听觉生理学和神经科学等多种学科研究领域。

参考文献

[1]HuangJ,OhnishiN,SugieN.Buildingearsforrobots:soundlocalizationandseparation[J].ArtificialLifeandRobotics,1997,1(4):157-163.

[2]WermterS,WeberC,ElshawM,etal..Towardsmultimodalneuralrobotlearning[J].RoboticsandAutonomousSystemsJour-nal,2004,47(2-3):171-175.

[3]林志斌,徐柏龄.基于传声器阵列的声源定位[J].电声技术,2004,(5):19-23.

[4]朱广信,陈彪,金蓉.基于传声器阵列的声源定位[J].电声技术,2003,(1):34-37.

[5]JieHuang,TadawuteSupaongprapa,IkutakaTerakura,etal..Amodel-basedsoundlocalizationsystemanditsapplicationtorobotnavigation[J].RoboticsandAutonomousSystems,1999,27(4):199-209.

[6]王坚,蒋涛,曾凡钢.听觉科学概论[M].北京:中国科学技术出版社,2005.

[7]MumoloE,NolichM,MenegattiE,etal..Amultiagentsystemforaudio-videotrackingofawalkingpersoninastructuredenvi-ronment[C]//ProceedingsofWorkshoponMultiagentRoboticSystemstrendsandindustrialapplications,Padova,Italy,2003.[8]ChoiJong-Suk,KimMunsang,KimHyun-Don.Probabilisticspe-akerlocalizationinnoisyenvironmentsbyaudio-visualintegration[C]//Proceedingsofthe2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems,Beijing,China,2006:4704-4709.

3结论与发展趋势

机器人听觉定位跟踪声源系统研究是当前国

际上的前沿课题。它是机器人实现智能化必不可少的一部分,是智能科学研究成果在机器人上的体

204燕山大学学报2009

[9]KazuhiroNakadai,HirofumiNakajima,MasamitsuMurase.Real-timetrackingofmultiplesoundsourcesbyintegrationofin-roomandrobot-embeddedmicrophonearrays[C]//Proceedingsofthe2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems,Beijing,China,2006:852-859.

[10]AsanoF,GotoM,ItouK.Real-timesoundsourcelocalizationandseparationsystemanditsapplicationtoautomaticspeechrec-ognition[C]//ProceedingsofInternationalConferenceonSpeechProcessing(Eurospeech2001),Aalborg,Ed.,2001:1013-1016.[11]NakadaiK,MatsuuraD,OkunoGH,etal..ImprovementofthreesimultaneousspeechrecognitionbyusingAVintegrationandscatteringtheoryforhumanoidrobots[J].SpeechCommunication,2004,44(1-4):97-112.

[12]Shun'ichiYamamoto,KazuhiroNakadai,HiroshiTsujino.Im-provementofrobotauditionbyinterfacingsoundsourceseparationandautomaticspeechrecognitionwithmissingfeaturetheory

//

Proceedingsofthe2004IEEEInternationalConferenceonRobo-tics&Automation,NewOrleans,LA,USA,2004:1517-1523.[13]KazuhiroNakadai,HirofumiNakajima,KentaroYamada,etal..Soundsourcetrackingwithdirectivitypatternestimationusinga64chmicrophonearray[C]//2005IEEE/RSJInternationalCon-ferenceonIntelligentRobotsandSystems(IROS2005),EdmontonCA,2005:1690-1696.

[14]ValinJM,MichaudF,RouatJ.Robustlocalizationandtrackingofsimultaneousmovingsoundsourcesusingbeamformingandparticlefiltering[J].RoboticsandAutonomousSystemsJournal,2007,55(3):216-228.

[15]ValinJM,MichaudF,HadjouB,etal..Localizationofsimultaneousmovingsoundsourcesformobilerobotusingafre-quency-domainsteeredbeamformerapproach[C]//ProceedingsofIEEEInternationalConferenceonRoboticsandAutomation(ICRA),2004:1033-1038.

[16]JeanMarcValin,FrancisMichaud.Robustsoundsourcelocali-zationusingamicrophonearrayonamobilerobot[C]//Proceed-ingsofIEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS),2003:1228-1233.

[17]NaoyaMochiki,TetsujiOgawa,TetsunoriKobayashi.Earsofrobot:threesimultaneousspeechsegregationandrecognitionusingrobot-mountedmicrophones[J].IEICETransactionsonInforma-tionandSystems,2007,E90-D(9):1465-1468.

[18]KimHyun-Don,KazunoriKomatani,TetsuyaOgata,etal..

Auditoryandvisualintegrationbasedlocalizationandtrackingofhumansindailylifeenvironments[C]//Proceedingofthe2007IEEE/RSJ,InternationalConferenceonIntelligentRobotsandSys-tems,SanDiego,CA,USA,2007:2021-2027.

[19]陈华伟,赵俊渭,郭业才.一种频域自适应最大似然时延估计算法[J].系统工程与电子技术,2003,25(11):1355-1361.[20]林静然,彭启琮,邵怀宗.基于麦克风阵列的双波束近场定位

及语音分离[J].仪器仪表学报,2004,25(4):1000-1002.[21]邵怀宗,林静然,彭启琮,等.基于麦克风阵列的声源定位研

究[J].云南民族大学学报(自然科学版),2004,13(4):256-258.[22]陈可,汪增福.基于声压幅度比的声源定位[J].计算机仿真,2004,21(11):85-88.

[23]马晓红,陆晓燕,殷福亮.改进的互功率谱相位时延估计方法

[J].电子与信息学报,2004,26(1):53-59.

[24]李承智,曲天书,吴玺宏.一种改进的AEDA声源定位及跟

踪算法[J].北京大学学报(自然科学版),2005,41(5):809-814.[25]郭兰申.面向反恐领域基于多源信息融合的机器人感知系统

研究[D].天津:河北工业大学,2006.

[26]BregmanAS.Auditorysceneanalysis:theperceptualorganizationofsound[M].Cambridge,MA:TheMITPress,1990.[27]赵明光,马惠芳,王唯析,等.上橄榄核簇与听觉[J].解剖科学进展,2000,6(3):210-214.

[28]JeffressLA.Aplacetheoryofsoundlocalization[J].JCompPhysiolPsychol,1948,41(1):35-39.

[29]BreebaartJ,VanderParS,KohlrauschA.Binauralprocessingmodelbasedoncontralateralinhibition.I.Modelstructure[J].JournaloftheAcousticalSocietyAmerica,2001,110(2):1074-1088.

[30]ColburnHS.Theoryofbinauralinteractionbasedonauditory-nervedata.II.Detectionoftonesinnoise[J].JournaloftheAcous-ticalSocietyofAmerica,1977,61(2):525-533.

[31]LyonRF.Acomputationalmodelofbinaurallocalizationandseparation[C]//ProceedingoftheInternationalConferenceonAcoustics,SpeechandSignalProcessing,1983:1148-1151.[32]BoddenM.Modelinghumansound-sourcelocalizationandthecocktailpartyeffect[J].ActaAcoustic,1993,(1):43-55.[33]PalomakiKJ,BrownGJ,WangDL.Abinauralprocessorformissingdataspeechrecognitioninthepresenceofnoiseandsmall-roomreverbration[J].SpeechCommunication,2004,43(4):361-378.

[34]RomanN,WangDL,BrownGJ.Speechsegregationbasedonsoundlocalization[J].JournalofAcousticSocietyofAmerica,2003,114(4):2236-2252.

[35]KazuhiroNakadai,Ken-ichiHidai,HiroshiMizoguchi,etal..Real-timemultiplespeakertrackingbymulti-modalintegrationformobilerobots[C]//ProceedingsofEuropeanConferenceonSpeechProcessing(Eurospeech2001),Aalborg,Denmark,2001:1193-1196.[36]NakagawaY,OkunoHG,KitanoH.Usingvisiontoimprove

soundsourceseparation[C]//ProceedingsofthesixteenthnationalconferenceonArtificialintelligenceandtheeleventhInnovativeapplicationsofartificialintelligenceconferenceinnovativeapplic-ationsofartificialintelligence,Orlando,Florida,USA,1999:768-775.

第3期李从清等机器人听觉定位跟踪声源的研究与进展205

[37]KazuhiroNakadai,TinoLourens,HiroshiGOkuno,etal..Activeauditionforhumanoid[C]//ProceedingsoftheSeventeenthNa-tionalConferenceonArtificialIntelligenceandTwelfthConfer-enceonInnovativeApplicationsofArtificialIntelligence,2000:832-839.

[38]RomanN,WangDL.Binauraltrackingofmultiplemovingsources[R].OSU-CISRC-4/06-TR44,DepartmentofComputerScienceandEngineering,TheOhioStateUniversity,Columbus,Ohio,USA,2006.

Researchandadvanceforrobotauditiontolocalizeandtracksoundsources

LICong-qing1,2,SUNLi-xin1,DAIShi-jie1,3,LIZhu-liang1

(1.SchoolofMechanicalEngineering,HebeiUniversityofTechnology,Tianjin300130,China;2.DepartmentofEnergySourceandMechanicalEngineering,TianjinInstituteofUrbanConstruction,Tianjin300384,China;3.StateKeyLaboratoryofRobotics

andSystem,HarbinInstituteofTechnology,Harbin,Heilongjiang150080,China)

Abstract:Thetrendsofresearchandthedirectionofdevelopmentforrobotauditiontolocalizeandtracksoundsourcesaresum-marizedfromtwoaspectsbasedonthemicrophonearraysandthehumanauditorymechanism.Firstly,thehistoryforrobotauditiontolocalizeandtracksoundsourcesisreviewed.Secondly,theadvantagesanddisadavantagesofthesesystemsarediscussed.Finally,thedevelopmentforrobotauditiontolocalizeandtracksoundsourcesispointedout.Forsoundlocalizationsystembasedonthemicrophonearrays,blindbeamformingtechniquewillbestudiedfurtherinthefutureandforsoundlocalizationsystembasedonthehumanauditorymechanism,itwillbehotissueinthefuturetoestablishthemodleofsoundlocalizationbyapplyingcom-putationalauditorysceneanalysis.

Keywords:robotaudition;soundlocalization;microphonearrays;computationalauditorysceneanalysis

(上接第198页)

Depthestimatingalgorithmandprecisionanalysisofbifocalimagingwithoutprincipalpointcalibrating

WUPei-liang,KONGLing-fu,LIXian-shan

(CollegeofInformationScienceandEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China)

Abstract:Thebifocuslenscouldproduceimagesatthetwoindependentfocallengthrespectivelyandrecoverytheobject'sdepthinformationaccordingtothetwobifocalimages,whichistheprincipleofdepthestimatingusingbifocallens.Atfirsttheprincipleofbifocalimagingandit'sprecisioninfluencedbycalibratingprecisionofprincipalpointareanalyzed,andtwoinvariantsofprin-cipalpointarefoundinthetwobifocalimages.Andthenbasedonthetwoinvariantsanovelbifocusdepth-estimatingalgorithmisproposedtosteerclearoftheprincipalpointcalibrationandimprovethedepthestimatingprecision.Experimentalcomparisonsbetweenthenovelalgorithmandthetraditionalalgorithmillustratethatthenovelalgorithmsiscorrectandfeasible.Keywords:bifocalimaging;depthrecovery;principalpoint;uncalibrated


相关内容

  • 噪声源识别技术的进展
  • 第32卷第5期2009年5月 合肥工业大学学报(自然科学版) JOURNALOFHEFEIUNIVERSITY0FTECHNOL(X:Y V01.32No.5 May 2009 噪声源识别技术的进展 陈心昭 (合肥工业大学噪声振动工程研究所,安徽合肥230009) 摘要:实现声源控制的前提是正确识别 ...

  • 改进的互功率谱相位时延估计方法
  • 第26卷第1期电子与信息学报vol26N01 2004年1月JournaIofEkchonics&In协rmationTechnologyJan2004 改进的互功率谱相位时延估计方法・ 马晓红陆晓燕殷福亮 (大连理工大学电子与信息工程学院大连116024) 摘要:互功率谱相位是一种常用的时 ...

  • FMRI成像技术
  • FMRI 人们越来越执著于对客观.确凿的大脑真相的追寻,现在有了一种非常优秀的大脑成像技术,那就是功能磁共振成像(FMRI).空间编码是磁共振成像的关键技术. 自上世纪90年代初问世至2007年底,这种技术已出现在12000多篇科学论文中,而且这个数字至今还在以每周30至40篇的速度增长.人们之所以 ...

  • 物理 声现象
  • 第二章 声现象 第一节 声音的产生与传播 考点梳理 1.一切正在发声的物体都在______:_______停止,其发声也就停止.声音的传播需要 ________,声音可以在固体.________和________中传播,但真空________传声. 2.声音向外传播时以_______的形式传播,声传 ...

  • 智能机器人概论论文
  • 智能机器人概论课程小论文 NAO机器人的系统典型组成简析 学院:制造科学与工程学院 班级:2012级测控技术与仪器1班 姓名:张娟 学号:[1**********]55 电话:[1**********] NAO机器人的系统典型组成简析 NAO 是法国 Aldebaran Robotics 公司设计的 ...

  • 多声源下基于耳蜗基底膜的声源定位
  • 摘 要:传统麦克风声源定位在噪声环境下无法精确的定位出声源,而人耳却能准确的辨别出来.根据人耳这一特性,提出一种在多声源环境下基于耳蜗基底膜的声源定位.该方法利用多麦克风进行声音信号的采集[1-2],然后采用基底膜滤波器对声源信号进行滤波,这里采用GC-4滤波器进行滤波,最后再进行声源定位.实验结果 ...

  • [声现象]知识点
  • 第三章 声现象知识点总结 一.声音的产生: 1.声音是由__________产生的:(人靠声带振动发声.蜜蜂靠翅膀下的小黑点振动发声,风声是 空气振动发声,管制乐器靠里面的空气柱振动发声,弦乐器靠弦振动发声,鼓靠鼓面振动发声,钟靠钟振动发声,等等): 2.振动停止,发声停止:但声音并没立即消失(因为 ...

  • 专用延时器与混响器的调控技巧
  • 专用延时器与混响器的调控技巧 延时器与混响器是模拟室内声场声音信号特性的专用设备.在录音节目制作中,延时器和混响器可以在模拟的艺术声场中传递时间.空间.方位.距离等重要信息,并且可以制作某些特殊效果.延时器与混响器工作性质属于心理声学范畴,其调控技巧属于音响美学范畴.可以这样说,延时器和混响器是炮制 ...

  • 声音音质评价专业术语
  • 声音音质评价专业术语 1.声音亮---在音质评价中,有时又称作明朗度或明亮度.整个音域范围内低音.中音.高音能量充足,并有丰富的谐音和高频上限谐音衰变过程较慢.同时,混响声比例合适,失真小.瞬态响应好.给人一种亲切.活跃感. 2.声音暗---这是缺少高频和中高频的一种反映,尤其是在5000~6000 ...