说话人识别
技术的方法与展望
申朝文1 何家峰2 蔡继祖3 广东工业大学信息工程学院 510006
取能够区分不同说话人个体特征的参数序列。而模式分类的任务则包含了两个方面,一是在训练时用反映说话人身份特征的参数序列,为每个说话人建立相应的说话人模型;二是在测试或识别时根据所得到的待识别语音信号的特征参数序列,由系统对这些参数和已知说话人模型之间的相似程度进行评估,并根据评估的结果判断输入语音信号的归属。
说话人识别系统的框架如图1所示,建立和应用说话人识别系统分为两
域上的幅度(能量)、平均过零率等。
第二类特征为变换域特征矢量,即对一帧语音信号进行某种变换以后产生相应的矢量。而变换域特征参数通常有以下几种:
(1)线性预测系数及其派生。线性预测系数是能够有效地表征语音的全极点模型的参数,由该参数派生了其他的参数,如LPC倒谱系数、LPC残差、声道面积比函数等。
(2)语音频谱导出的参数。由于语
说话人识别技术是一项根据语音[1]
波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。在人类生活的这样一个信息高度交互的社会里,判定人的身份是一个十分重要的问题。基于声纹识别的技术为我们提供了一种更加方便和可靠的方法,已经引起了国内外学术界和企业界的极大关注。
个部分:训练部分和识别部分。
2 说话人识别关键技术及方法
说话人识别有两个关键技术,一是特征提取,二是模式识别。下面分别进行介绍。
2.1 特征提取
特征提取的任务是提取并选择对说话人具有可分性强、稳定性高的声学或语言特征。目前说话人识别系统主要依靠语音的低层次声学特征来进行识别,这些特征可以分成两类。
第一类为时域特征矢量,通常由一帧语音信号的各个时域采样直接构成一个特征矢量,常用的特征参数有时
图1说话人系统识别框图
1 说话人识别系统介绍
说话人识别系统由特征提取和模式分类[2]两个主要部分组成。特征提取的任务是从输入的说话人语音信号中提
音的短时谱中包含有激励源和声道特征,因而可以反映说话人生理上的差异。主要包括:基音轮廓、共振峰、语音强度及其变化轨迹等。
(3)反映听觉特性的参数。人耳对不同频率的声音的感知特征是不同的,因而人们模拟人耳的这种特性提出了反映听觉特性的参数,如Mel频率倒谱系数、感知线性预测系数等。
总之,好的特征,应能够有效地区分不同的说话人,且在同一说话人语音发生变化时保持相对的稳定;具有较好的抗噪性能。
2.2 模式识别
测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称的说话人的模型进行匹配和匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。目前
]
可分以下几类方法[3:
很大。
(4)多项式分类器方法。有较高的精度,但模型存储和计算量都比较大。
第二类:基于参数模型的方法参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。常采用的模型有:高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
(1)高斯混合模型。它本质上是一种多维概率密度函数,可以看作是混合高斯密度的隐马尔可夫模型,其用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分布状况。用在说话人识别时,每个说话人对应一个GMM。性能较好,方法简单,是目前最好的说话人识别算法之一。但是由于GMM 算法的训练准则是使似然度最大,而非分类错误最小,因此不能产生识别性能最佳模型。可在识别算法中采用一些基于最小分类错误的训练方法,如MCE算法,可使识别效果更佳。
(2)隐马尔可夫模型。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量。缺点是训练时计算量较大。
第三类:基于神经网络模型的方法
神经网络具有很强的聚类能力和静态分类能力,可将它用于特征提取和说话人的分类判决。由于神经网络具有高度的并行性,它可以进行快速判决并具有容错能力,某些节点的损伤不会影响判决结果,所以在识别判决方面具有一定的优越性。利用竞争型网络,在训练阶段采用有监督学习方法,根据训练样本不断地修正权值,使得网络具有较好的抗噪音干扰能力。测试阶段采用无监督学习方法,并在测试过程中同时学习,使网络能够适应测试对象的实时变化,即参考参量可以不断更新,在这一点上,正好符合说话人识别系统的要求。但其训练量很大,且模型的可推广性不好。
除了以上方法以外,最近有许多学者将离散小波变换、模糊逻辑、加权、自适应等方法与以上方法相结合进行说话人识别,也取得了广泛应用。
第一类:概率统计法
(1) 矢量量化模型作为一种非参数模型,是目前文本无关的说话人识别方法的评估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间序列。矢量量化模型就是从这些矢量中寻找到少数具有代表性的典型矢量进而构的说话人模型。这种方法的识别效果比较好,判断速度快,算法复杂度也不高,和HMM方法配合起来可以收到更好的效果。
(2)支持向量机(SVM)。新近发展
[4]
3 说话人识别技术未来的研究方向
目前,说话人识别的研究[5]主要集中在以下几个方面:如何增强特征矢量的鲁棒性和辨识能力;如何提取在复杂噪声环境和信道条件下依然有效的特征参数;如何选择分类器和决策规则;以及怎样将新算法、新思路或其他领域和学科的成果与传统的识别方法结合起来,以改进系统的性能。与文本有关的说话人识别系统已经应用到许多身份检查场所,在这些场所很难保证语言的纯净,往往会受许多噪音的干扰,所以信道的分析与补偿仍然是一个重要的研究方向。与文本无关的说话人识别系统是当前的研究热点之一,它对特征提取的要求更高,因为它不能根据文本表征个体因素的能力不同而进行选择,所以,如何形成对人的有效而且可靠的表征是研究的难点。
起来的支持向量机方法,在说话人识别中获得了比较广泛的应用。该方法试图用最优分类器划分样本空间,使得不同子类空间中的样本到分类器的距离达到最大,而对于在当前特征空间中线形不可分的模式,SVM使用核函数把样本映射到高维空间中,使得样本能够线性可分。
(3)最近邻方法。训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都
学语言表示事物的状态、关系和过程,在此基础上加以推导、演算和分析,以形成对问题的解释和判断,具有逻辑的严密性和可靠性,相对稳定。而定性分析是一个不太严格的研究程序,人们在开始研究时并不明确地界定研究的问题,而且前一步搜集资料的数量与质量往往决定下一步应该怎么做,社会现象作为一个动态过程所具有多样性,所以使定性分析过程常常处于动态之中,具有很大灵活性。包括富有弹性的、创造的、省思的、行动的、参与的等特质。
析、文献概括、归纳演绎等思辨的方式进行,是研究者个人观点和感受的阐发,大多是感想式的、思考性的、哲学性的、主张式的或指示性的或建议型的。但这种观点和看法不是直接发表议论的方式表达出来的,它必须用事实说话,同时带有比较明显的倾向性。
给事物定性,是人类很早就有的带有模糊性的思维方式。人类用它来判别问题的是非,东西的好坏,言语的真假,行为的善恶,风景的美丑。没有定性思维,就没有人类的生存和发展,没有人类的今天。它为完全建立在形式化方法基础上的精确逻辑解决不了的问题提供了解决的可能。但是当我们看到模糊逻辑展露出的强劲的发展势头和极大优越性的同时,也要正视它的不足与局限。首先,它缺乏定量化的严格的观察、测量、统计、计算和表述,不能对特定事件给出严格的描述、说明、解释和阐述。所以,它仅仅是给出某种研究的大致方向或趋势,具有一定的不确定性。其次,它不具有严格的操作规则或实践规则的约束,因此,研究结构具有很大的随意性,在主题、对象、时间、空间和条件等各个因素之间均具有很大的跳跃性,从而强化了研究者的背景知识对分析结果的影响,具有不精确性。再次,定性分析是以经验描述为基础、以归纳逻辑为核心的方法论系统,它的推理缺乏严格的公理化系统的逻辑约束,因此,在它的前提和结论之间可能不存在逻辑的必然性,其结论往往具有或然性。
应该说,定性分析与定量分析各有优势,只是从不同的侧面,用不同的方法对同一事物进行的研究。在任何领域中单独使用,都无法解释或回答所有的问题。所以,不同的分析方法应该互为补充、互相支持。定性分析为定量分析提供框架,而定量分析又为进一步的定性分析创造条件。
4、分析的对象是质的描述性资料
定性分析要反映事物质的规定性,所以其分析对象是客观现象质的描述性资料而不是量的统计性资料。这些资料通常是书面文字或图片等形式,而不是精确的数据形式。
定性分析以人为万物的尺度,关注价值世界,注重情感、创造性的智慧和对生命的感受,而这一切是无法用数学的语言用数据的形式来表现的,无法精确化和量化。它必须以叙事材料为主体,以文字描述、解释为主要表达方式的资料为分析对象。
定性分析的资料内容包括:现场记录、访谈记录、官方文件、私人文件、备忘录、照片、图表、录影带等小的样本以及特殊的个案。这些通过参与观察和深入访谈得来的资料,完全符合定性分析的要求,从静态角度对认知对象进行分析、对比、归类,而较少关注认知(思维)对象的变化、发展趋势和可能性。
5、分析的结论是解释性论述
从研究成果性质上看,定性分析不是要通过一个设计严密,不能反复的程序去证明一个预先设定的假设,而是在尽可能自然的状态下,进入研究对象的世界中去,保持开放的态度,通过提供的背景性事实材料对客观现象分析结果进行总结性的说明和解释,主要是通过个人悟思、哲学分
说话人识别
技术的方法与展望
申朝文1 何家峰2 蔡继祖3 广东工业大学信息工程学院 510006
取能够区分不同说话人个体特征的参数序列。而模式分类的任务则包含了两个方面,一是在训练时用反映说话人身份特征的参数序列,为每个说话人建立相应的说话人模型;二是在测试或识别时根据所得到的待识别语音信号的特征参数序列,由系统对这些参数和已知说话人模型之间的相似程度进行评估,并根据评估的结果判断输入语音信号的归属。
说话人识别系统的框架如图1所示,建立和应用说话人识别系统分为两
域上的幅度(能量)、平均过零率等。
第二类特征为变换域特征矢量,即对一帧语音信号进行某种变换以后产生相应的矢量。而变换域特征参数通常有以下几种:
(1)线性预测系数及其派生。线性预测系数是能够有效地表征语音的全极点模型的参数,由该参数派生了其他的参数,如LPC倒谱系数、LPC残差、声道面积比函数等。
(2)语音频谱导出的参数。由于语
说话人识别技术是一项根据语音[1]
波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。在人类生活的这样一个信息高度交互的社会里,判定人的身份是一个十分重要的问题。基于声纹识别的技术为我们提供了一种更加方便和可靠的方法,已经引起了国内外学术界和企业界的极大关注。
个部分:训练部分和识别部分。
2 说话人识别关键技术及方法
说话人识别有两个关键技术,一是特征提取,二是模式识别。下面分别进行介绍。
2.1 特征提取
特征提取的任务是提取并选择对说话人具有可分性强、稳定性高的声学或语言特征。目前说话人识别系统主要依靠语音的低层次声学特征来进行识别,这些特征可以分成两类。
第一类为时域特征矢量,通常由一帧语音信号的各个时域采样直接构成一个特征矢量,常用的特征参数有时
图1说话人系统识别框图
1 说话人识别系统介绍
说话人识别系统由特征提取和模式分类[2]两个主要部分组成。特征提取的任务是从输入的说话人语音信号中提
音的短时谱中包含有激励源和声道特征,因而可以反映说话人生理上的差异。主要包括:基音轮廓、共振峰、语音强度及其变化轨迹等。
(3)反映听觉特性的参数。人耳对不同频率的声音的感知特征是不同的,因而人们模拟人耳的这种特性提出了反映听觉特性的参数,如Mel频率倒谱系数、感知线性预测系数等。
总之,好的特征,应能够有效地区分不同的说话人,且在同一说话人语音发生变化时保持相对的稳定;具有较好的抗噪性能。
2.2 模式识别
测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称的说话人的模型进行匹配和匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。目前
]
可分以下几类方法[3:
很大。
(4)多项式分类器方法。有较高的精度,但模型存储和计算量都比较大。
第二类:基于参数模型的方法参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。常采用的模型有:高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
(1)高斯混合模型。它本质上是一种多维概率密度函数,可以看作是混合高斯密度的隐马尔可夫模型,其用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分布状况。用在说话人识别时,每个说话人对应一个GMM。性能较好,方法简单,是目前最好的说话人识别算法之一。但是由于GMM 算法的训练准则是使似然度最大,而非分类错误最小,因此不能产生识别性能最佳模型。可在识别算法中采用一些基于最小分类错误的训练方法,如MCE算法,可使识别效果更佳。
(2)隐马尔可夫模型。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量。缺点是训练时计算量较大。
第三类:基于神经网络模型的方法
神经网络具有很强的聚类能力和静态分类能力,可将它用于特征提取和说话人的分类判决。由于神经网络具有高度的并行性,它可以进行快速判决并具有容错能力,某些节点的损伤不会影响判决结果,所以在识别判决方面具有一定的优越性。利用竞争型网络,在训练阶段采用有监督学习方法,根据训练样本不断地修正权值,使得网络具有较好的抗噪音干扰能力。测试阶段采用无监督学习方法,并在测试过程中同时学习,使网络能够适应测试对象的实时变化,即参考参量可以不断更新,在这一点上,正好符合说话人识别系统的要求。但其训练量很大,且模型的可推广性不好。
除了以上方法以外,最近有许多学者将离散小波变换、模糊逻辑、加权、自适应等方法与以上方法相结合进行说话人识别,也取得了广泛应用。
第一类:概率统计法
(1) 矢量量化模型作为一种非参数模型,是目前文本无关的说话人识别方法的评估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间序列。矢量量化模型就是从这些矢量中寻找到少数具有代表性的典型矢量进而构的说话人模型。这种方法的识别效果比较好,判断速度快,算法复杂度也不高,和HMM方法配合起来可以收到更好的效果。
(2)支持向量机(SVM)。新近发展
[4]
3 说话人识别技术未来的研究方向
目前,说话人识别的研究[5]主要集中在以下几个方面:如何增强特征矢量的鲁棒性和辨识能力;如何提取在复杂噪声环境和信道条件下依然有效的特征参数;如何选择分类器和决策规则;以及怎样将新算法、新思路或其他领域和学科的成果与传统的识别方法结合起来,以改进系统的性能。与文本有关的说话人识别系统已经应用到许多身份检查场所,在这些场所很难保证语言的纯净,往往会受许多噪音的干扰,所以信道的分析与补偿仍然是一个重要的研究方向。与文本无关的说话人识别系统是当前的研究热点之一,它对特征提取的要求更高,因为它不能根据文本表征个体因素的能力不同而进行选择,所以,如何形成对人的有效而且可靠的表征是研究的难点。
起来的支持向量机方法,在说话人识别中获得了比较广泛的应用。该方法试图用最优分类器划分样本空间,使得不同子类空间中的样本到分类器的距离达到最大,而对于在当前特征空间中线形不可分的模式,SVM使用核函数把样本映射到高维空间中,使得样本能够线性可分。
(3)最近邻方法。训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都
学语言表示事物的状态、关系和过程,在此基础上加以推导、演算和分析,以形成对问题的解释和判断,具有逻辑的严密性和可靠性,相对稳定。而定性分析是一个不太严格的研究程序,人们在开始研究时并不明确地界定研究的问题,而且前一步搜集资料的数量与质量往往决定下一步应该怎么做,社会现象作为一个动态过程所具有多样性,所以使定性分析过程常常处于动态之中,具有很大灵活性。包括富有弹性的、创造的、省思的、行动的、参与的等特质。
析、文献概括、归纳演绎等思辨的方式进行,是研究者个人观点和感受的阐发,大多是感想式的、思考性的、哲学性的、主张式的或指示性的或建议型的。但这种观点和看法不是直接发表议论的方式表达出来的,它必须用事实说话,同时带有比较明显的倾向性。
给事物定性,是人类很早就有的带有模糊性的思维方式。人类用它来判别问题的是非,东西的好坏,言语的真假,行为的善恶,风景的美丑。没有定性思维,就没有人类的生存和发展,没有人类的今天。它为完全建立在形式化方法基础上的精确逻辑解决不了的问题提供了解决的可能。但是当我们看到模糊逻辑展露出的强劲的发展势头和极大优越性的同时,也要正视它的不足与局限。首先,它缺乏定量化的严格的观察、测量、统计、计算和表述,不能对特定事件给出严格的描述、说明、解释和阐述。所以,它仅仅是给出某种研究的大致方向或趋势,具有一定的不确定性。其次,它不具有严格的操作规则或实践规则的约束,因此,研究结构具有很大的随意性,在主题、对象、时间、空间和条件等各个因素之间均具有很大的跳跃性,从而强化了研究者的背景知识对分析结果的影响,具有不精确性。再次,定性分析是以经验描述为基础、以归纳逻辑为核心的方法论系统,它的推理缺乏严格的公理化系统的逻辑约束,因此,在它的前提和结论之间可能不存在逻辑的必然性,其结论往往具有或然性。
应该说,定性分析与定量分析各有优势,只是从不同的侧面,用不同的方法对同一事物进行的研究。在任何领域中单独使用,都无法解释或回答所有的问题。所以,不同的分析方法应该互为补充、互相支持。定性分析为定量分析提供框架,而定量分析又为进一步的定性分析创造条件。
4、分析的对象是质的描述性资料
定性分析要反映事物质的规定性,所以其分析对象是客观现象质的描述性资料而不是量的统计性资料。这些资料通常是书面文字或图片等形式,而不是精确的数据形式。
定性分析以人为万物的尺度,关注价值世界,注重情感、创造性的智慧和对生命的感受,而这一切是无法用数学的语言用数据的形式来表现的,无法精确化和量化。它必须以叙事材料为主体,以文字描述、解释为主要表达方式的资料为分析对象。
定性分析的资料内容包括:现场记录、访谈记录、官方文件、私人文件、备忘录、照片、图表、录影带等小的样本以及特殊的个案。这些通过参与观察和深入访谈得来的资料,完全符合定性分析的要求,从静态角度对认知对象进行分析、对比、归类,而较少关注认知(思维)对象的变化、发展趋势和可能性。
5、分析的结论是解释性论述
从研究成果性质上看,定性分析不是要通过一个设计严密,不能反复的程序去证明一个预先设定的假设,而是在尽可能自然的状态下,进入研究对象的世界中去,保持开放的态度,通过提供的背景性事实材料对客观现象分析结果进行总结性的说明和解释,主要是通过个人悟思、哲学分