音乐命名实体识别方法

收稿日期:2010-04-30;修回日期:2010-07-16"

基金项目:国家自然科学基金资助项目(60973069);华为高校技术合作基金资助项目(2008126)"

作者简介:佘俊(1973-),男,四川彭州人,高级工程师,主要研究方向:商业智能!知识管理; 张学清(1984-),女,硕士研究生,主要研究

方向:文本挖掘!命名实体识别"

文章编号:1001-9081(2010)11-2928-04

音乐命名实体识别方法

佘俊1,张学清2

(1.中国南方电网调峰调频发电公司信息通信中心,广州510630; 2.电子科技大学计算机科学与工程学院,成都611731)

(@163.)

摘要:为了能快速!准确地将分散在网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特

征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统"通过测试

发现,该系统具有较高的准确率和召回率"

关键词:命名实体识别;音乐命名实体;隐马尔可夫模型

中图分类号:18;311.13 文献标志码:

Musicalnamedentityrecognitionmethod

1,22

(1.InformationandCommunicationCentre,ChinaSouthernPowerGridPowerGenerationCompany,GuangzhouGuangdong510630,China;

2.SchoolofComputerScienceandEngineering,UniversityofElectronicScienceandTechnologyofChina,ChengduSichuan611731,China)

Abstract:,

Keywords:;;()

0 引言

命名实体识别(,)是目前

文本信息自动化处理中一个基础而关键的技术"命名实体

(,)是文本中基本的信息元素,是文本中的

固有名称!缩写及其他唯一标识,它往往指示了文章的主要内

容"命名实体识别目前已经发展成一个独立的研究分支,

2002就有专门的命名实体识别专题[1]"

国外对于英文命名实体识别的研究开始较早,英文命名

实体的识别已经达到了较高的水平,(

)会议测试的准确率和召回率可以达

到97%左右[2]"英文命名实体的识别主要采用基于统计模

型和机器学习的方法,如基于隐马尔可夫模型(

,)[3-4]!最大熵模型[5-6]和支持向量机[7]

等"这些方法利用英文命名实体的词频!词缀等统计信息,并

结合一定的句法信息和语义特征来识别命名实体及确定其类

别"

中文命名实体识别的研究起步比较晚,国内外关于中文

命名实体识别的准确率和召回率的报告一般在90%左右"

近年来,基于统计的中文命名实体识别方法是研究的主流"

已有的中文命名实体研究方案,可以根据研究范围的不同,分

为两种:

一种是个别解决方案,只识别某一类命名实体"这种方

案针对某一类命名实体的特点,提出了有效的识别方法,如中

文人名识别[8-9]!地名识别[10-11]!机构名识别[12]"但是这种

方案忽视了不同种类命名实体间的歧义问题"

另一种是一体化解决方案,可以同时识别多种命名实体"

大多数的方案采用机器学习的方法,如基于层叠隐

马尔可夫

模型的词法分析方法[13-14]!基于决策树[15]和基于组块[16]的

方法等"但是它不能充分分析不同命名实体间的差异性,制

约了整体的识别性能"

1 音乐命名实体识别的难点

本文主要研究中文文本中音乐命名实体的识别问题,音

乐命名实体包括:

歌手名是人名中特殊的一类,指特定歌手的固有名称!

别名!英文名和译名,如/刘德华0!/华仔0!/周渝民0!/仔

仔0!/布兰妮0!/小甜甜0等"

音乐组合名指特定乐队!乐团和歌唱组合的固有名称,

如/小虎队0和/0等"

歌曲名指特定歌曲的固有名称,如:/梦醒时分0和/月

亮代表我的心0等"

专辑名指特定专辑的固有名称,如/永远的邓丽君0和

/旷世情歌全记录0等"

目前,无论是中文还是英文命名实体识别都会遇到以下

难题:首先,命名实体是一个开放的类,数量庞大,难以以列表

或词典形式完全列举"以歌曲名为例,世界上有不计其数的

歌曲,一一列举出来并不现实"其次,命名实体并非一个稳定

的类,随着时间的推移,不断会有新的命名实体产生"例如一

个新歌手的出道!一个新专辑的发布都会影响到音乐命名实

体的内容和数量"

音乐命名实体的特殊性以及各类音乐命名实体的自身特

第30卷第11期

2010年11月计算机应用 .30.11.2010点,给识别带来了一定的难度"

1)歌手名和音乐组合名识别的难点"

歌手名和音乐组合名与上下文成词或自身成词的现象严

重,容易产生歧义"例如:/天娱旗下艺人组合/至上励合/作

客湖南卫视0可能被误分为/天娱旗下艺人组合/至上励/合

作客湖南卫视0"如果不对这些情况进行特别的处理,许多

歌手名和组合名就会被切开,降低识别的准确率和召回率"

歌手名和音乐组合名的长短不一,而且构成形式多样"

歌手名的常见形式如下:姓和名组成,如张学友!任贤齐等;前

缀和姓组成,如阿杜,小柯等;姓或名和后缀组成,如华仔!周

董等;别名或艺名,如老狼!刀郎等"而音乐组合名,不像歌手

名有规律,不仅用词比较随意,而且长度从一到十几个不等,

如羽泉!南拳妈妈!凤凰传奇等"

区分歌手名和普通人名比较困难"在一个文本中,并非

所有的人名都是歌手名"歌手名是人名的一个种类,具有相

同的特性,因此,如何从人名中正确识别出歌手名是一个难

题"

2)歌曲名和专辑名识别的难点"

歌曲名和专辑名的组成方式非常随意"许多歌曲名和专

辑名都是很常见的词!短语或句子,如周华健的5朋友6!满文

军的5懂你6!宋祖英的5长大后我就成了你6等"而且近来流

行歌曲名中还出现了标点符号,如张韶涵的5亲爱的,那不是

爱情6,这给区分歌曲和普通句子带来了很大难度"歌曲名!

专辑名中含有歌手名,如安又琪的5你好,周杰伦6"这很可

能会导致歌曲名!专辑名的漏选,以及歌手名的错选"歌曲名

和专辑名的长度极其不固定"这导致歌曲名和专辑名的边界

很难确定"

很多情况下,一首歌曲和一个专辑使用相同的名称,如齐

秦的专辑5又见溜溜的她6,其主打曲为5又见溜溜的她6"这

将导致很难辨别一个实体到底是歌曲名还是专辑名"

经过对大量音乐领域文本的分析发现,在音乐命名实体

自身及其上下文中,存在着许多规则和统计信息"

2 规则与统计相结合的音乐实体识别方法

该方法的核心思想为:首先,利用各种启发式规则信息,

在原始音乐文本(即未进行分词)上,采用基于规则的音乐实

体识别算法来识别部分明显的音乐命名实体"然后,对含有

音乐实体的音乐文本进行分词"在分词之后,引入识

别音乐命名实体"最后,利用音乐实体库和修正规则,去除部

分错误识别的歌手名和组合名,并修正歌曲名和专辑名的类

型"该方法的实现框架如图1所示"

2.1 基于规则的识别

在音乐文本中,音乐命名实体的前后位置常常会出现一

些特定的符号或词"这些符号和词可能指示一个实体的开

始,或一个实体的结束"比如,/歌手0这个词的后面很可能

是一个歌手名,而/组合0的后面则可能是一个组合名;同样

的/演唱0的后面可能是歌曲名,其前面则可能是歌手名或组

合名,如此等等"基于上述原因,本文提出一种基于规则的

识别算法,即在分词和基于的识别之前,利用音乐

实体的出现规则来识别部分明显的音乐实体"

2.1.1 边界规则

规则的构建是基于规则的识别算法的关键,规则越

完善,识别的效果越好"由于音乐实体构成形式多样,且长度

不一,很难在音乐的内部组成结构中提出通用性的规则"而

在音乐实体的上下文中存在着大量的边界规则"虽然人工构

造的规则准确率比较高,但比较耗时费力,且很难全面覆盖"

因此,先由机器自动提取规则,再由人工进行筛选"

本文定义8种边界规则(,

)来表示和存储音乐实体的边界,如表1所示"

图1 规则和统计相结合的音乐实体识别方法框架

表1 音乐实体边界规则表

规则类型缩写组成部分

歌手名左边界_经常出现在歌手名左边的词或短语

歌手名右边界_经常出现在歌手名右边的词或短语

组合名左边界_经常出现在组合名左边的词或短语

组合名右边界_经常出现在组合名右边的词或短语

歌曲名左边界_经常出现在歌曲名左边的词或短语

歌曲名右边界_经常出现在歌曲名右边的词或短语

专辑名左边界_经常出现在专辑名左边的词或短语

专辑名右边界_经常出现在专辑名右边的词或短语

2.1.2 自动提取规则

以歌手名边界规则为例,规则提取的具体步骤:

1)遍历分词序列,收集出现在歌手

名前后的词或短语,

认为它们可能是歌手名的边界规则:

)左边界规则"如果歌手名的前一个词为单字,则收集

由其前两个词合并而成的短语;否则,收集该词"

)右边界规则"如果歌手名的后一个词为单字,则收集

由其后两个词合并而成的短语;否则,收集该词"

2)统计可能为歌手名左(右)边界规则的各词或短语出

现在歌手名前(后)面的次数,并计算其作为左(右)边界规则

的概率,其值为该词或短语出现在歌手名前(后)面的次数与

该词或短语的出现总次数的比值"

3)将可能为歌手名左(右)边界规则的所有词或短语按

上述概率从大到小排序,然后选取前50%个词或短语作为歌

手名的候选左(右)边界规则,并将其保存至歌手名左(右)边

界规则中"

2.1.3 识别

基于规则的识别就是利用音乐实体的边界规则来

识别音乐实体"在实现该算法时,将除了引号!书名号之外的

标点符号作为所有实体的左边界规则和右边界规则"由于各

类音乐实体的识别过程是类似的,因此,以歌手名为例来介绍

2929第11期佘俊等:音乐命名实体识别方法基于规则的识别算法:

1)读入未分词的音乐文本"

2)通过匹配的方式,从文本中提取出所有位于歌手名左

边界和歌手名右边界之间的文本作为候选歌手名"

3)判断候选歌手名是否符合歌手名的要求,如长度等"

若不符合,则丢弃"剩下的就是识别出来的歌手名"

2.2 基于统计的音乐实体识别

本文采用作为统计模型,其主要原因是该模型能

较好地捕获命名实体的特征现象和位置信息,具有高效的基

于动态规划思想的解码算法,并且易于训练"

2.2.1 定义参数

通过对音乐命名实体的分析,本文采用二元隐马尔可夫

模型来识别各种音乐命名实体,即每个词的出现概率仅依赖

于它前面一个词的出现概率"的输入文本是含有音乐

实体的分词序列"那么,的观察值应该包括词和SIN!

BAN!SON!ALB标识串,则定义模型的观察值集合

O={Wi,SIN,BAN,SON,ALB},1[i[m,其中,Wi表示词

库中的一个词,m为词库中词的数目,SIN表示已识别的歌手

名,BAN表示已识别的组合名,SON表示已识别的歌曲名,

ALB表示已识别的专辑名"若用M表示所有可能观察值的数

目,则M=m+4"

应用于命名实体识别的的状态集合是那些能够反

映命名实体组成的属性集合,即每一个状态都能代表某一类

命名实体的内部组成成分!上下文或无关成分"分析歌手名!

音乐组合名!歌曲名和专辑名的内部组成结构,发现以下主要

特点:歌手名的首部一般是姓氏;歌曲名和专辑名的中部可能

由多个词组成;歌手名和组合名常被嵌套到歌曲名和专辑名

中"另外,歌曲名和组合名通常具有相同的上下文,与歌曲

名!专辑名的上下文不同,且歌曲名和专辑

名的上下文也不一

样"因此,本文的的状态集合S包含N=29个状态,S

集合的具体定义在表2中"

那么,的状态转移矩阵A=(aij)29@29,aij=P(sj|

si)表示从状态si转移到状态sj的概率;发射矩阵B=

(bij)29@M,bij=P(oj|si)表示状态si对应观察值oj的概率;初

始状态概率为P={P1,P2,,,P29},Pi=P(si)表示初始状

态是si的概率"

表2 的状态集合

状态si含义例子状态si含义例子

歌手名的首部词[郭]富城歌曲名的尾部词月亮代表我的[心]

歌手名的中部词郭[富]城歌曲名自身成词[烟火]

歌手名的尾部词郭富[城]专辑名的首部词[星光]依旧灿烂

歌手名自身成词[高锋]专辑名的中部词星光[依旧]灿烂

上文与歌手名的首部成词[为何]润东专辑名的尾部词星光依旧[灿烂]

歌手名的尾部与下文成词张学[友好]帅专辑名自身成词[寓言]

被嵌套的歌手名!组合名你好[周][杰][伦]歌手名和组合名的上文艺人

组合名的首部词[至上]励合歌手名和组合名的下文演唱

组合名的中部词至上[励]合歌曲名的上文插曲

组合名的尾部词至上励[合]歌曲名的下文这首

组合名自身成词[零点]专辑名的上文发行

上文与组合名的首部成词[做梦]之旅的专访专辑名的下文收录

组合名的尾部与下文成词飞轮[海边]唱音乐实体间联结词和!与

歌曲名的首部词[月亮]代表我的心与实体组成及上下文无关的词

歌曲名的中部词月亮[代表][我][的]心

2.2.2 训练得到状态转移矩阵和发射矩阵

在使用识别实体之前,必须进行训练,即获

得初始状态概率!状态转移概率矩阵和发射概率矩阵这3个

关键参数"自动训练过程的基本流程如图2所示"

图2 训练过程的基本流程

从图2可以看出,自动训练过程主要包括两个部分:状态

标注过程和模型参数计算过程"其中,状态标注过程就是将

训练语料中包含实体标注的切分序列的词性标注转换为状态

标注;模型参数计算过程就是通过遍历带有状态标注的切分

序列,计算出初始状态概率P!状态转移概率矩阵A和发射

概率矩阵B的取值"

2.2.3 基于动态规划思想的过滤解码算法识别

通过训练得到之后,便可以进行音乐命名实体的

识别工作"识别过程就是从输入分词序列的所有可能状态序

列中寻找最佳状态序列,然后将最佳状态序列中与音乐实体

组成相关的状态进行组合,便得到各种音乐实体"假定有一

个分词序列O=(o1,o2,,,om),音乐实体识别问题就相当

于求解下式:

S*=

P(S|O)(1)

其中:S表示隐藏在O之后的状态序列,S*表示最佳状态序

列"

S*=

i=1

P(oi|si)P(si|si-1)(2)

通常对式(2)取负对数,则:

S*=

S[-Emi=1(P(oi|si)+P(si|si-1))]

(3)

2930 计算机应用第30卷在获得最佳状态序列之后,需要根据状态组合模板来查

找音乐实体"根据

各种状态的含义,本文定义了以下4种类

型的状态组合模板"

歌手名:+*+,+,+,+*+

,+*+,"

组合名:+*+,^+,^+,+*+

,+*+,"

歌曲名:+*+*+,+*+^,^+

*+,^,^+,^+,"

专辑名:+*+*+,+*+^,^+*+

,^+,^+,"

例如有一状态序列:/老牌/歌手/林/忆/

莲/首/唱/新/歌/5/柿子/6/0,

通过匹配模板/++0和/0,可以识别出歌手名

/林忆莲0,歌曲/柿子0"

2.3 修正

经过基于规则的和基于的音乐实体识别过程,已

经识别出大部分音乐实体,但其中仍存在一些错误识别的实

体,如非音乐实体!实体类型错误等"通过分析,总结出引起

这些错误的主要原因有:

1)歌手名和普通人名的区分比较困难,可能会将普通人

名误识别为歌手名;

2)歌手名和音乐组合名具有相似的上下文,歌曲名和专

辑名常相同,可能会导致实体类型错误"

为此,针对歌手名和音乐组合名:由于歌手名和音乐组合

名的数量比较少且容易收集,所以采用通过音乐实体库(包

含歌手名库!组合名库)来过滤各种错误实体的方法"对于

歌曲名和专辑名:由于歌曲名和专辑名的数量非常多,若采用

同样的方法,则效率比较低"而且,通过分析发现已识别的歌

曲名和专辑名的边界比较准确,只是还存在一些实体类型上

的错误,如把歌曲名识别成专辑名等"因此,利用实体上下文

的启发式规则来更正实体类型"

3 实验

实验所使用的语料有两个:一个是训练语料,另一个测试

语料"从新浪!网易!搜狐等几大网站上收集的大量音乐领域

文本,从中挑选了1046的包含音乐实体的文本,其中包含

了156的歌手名!110的组合名!285的歌曲名和

207的专辑名,对这些文本进行标注,得到最终的训练语

料"测试语料是从人民网!音乐在线!一听等网站上收集的音

乐领域文本,大约为572,其中包括80的歌手名!62

的组合名!154的歌曲名和105的专辑名"

实验1 测试基于的音乐实体识别方法的识别性

能"

实验2 测试基于规则的前处理和基于相结合的

音乐实体识别方法的识别性能"

实验3 测试本文提出的规则和统计相结合的音乐实体

识别方法的识别性能"该方法先使用基于规则的方法识别部

分音乐实体,再使用基于的方法来识别,最后对前两步

识别出进行修正处理"

在实验中,采用了3个评测指标:召回率!准确率和F指

数"各实验的结果如图3~5所示"

从结果数据以及曲线图可以看出,本文研究的规则和统

计相结合的音乐实体识别方法具有良好的性能,无论在召回

率!准确率还是F指数上,都高于其他两种方法"

4 结果分析

从实验结果中,可以看出仅用的方法进行音乐实

体识别的准确率和召回率都不太理想"首先,这是因为音乐

实体识别自身存在的难点,如歌曲名和专辑名的组成方式非

常随意,都是很常见的词!短语甚至

句子;其次,该方法依赖于

分词的结果,但分词仍然是个难题,其准确率不高;最后,二元

隐马尔可夫模型只考虑词本身的发生概率而忽视了上下文对

当前词的影响和词之间的联系,很容易因为词的错误切分而

造成错误识别"

图3 不同方法召回率的比较

图4 不同方法准确率的比较

图5 不同方法F指数的比较

因此,需要在基于的方法之前,引入基于规则的前

处理过程,来弥补的不足"基于规则的识别是在

分词前进行的,它能够识别出一些基于的方法无法识

别出的实体"例如,句子/在演唱会上,至上励合演唱了0,若

/至上励合0在训练语料中很少出现,则基于的方法很

难将该组合名识别出来,但可以通过基于规则的方法将其识

别出来"从实验结果中也可以看出,基于规则的前处理过程

提高了音乐实体识别的召回率"

但是,召回率的提高同时,却带来准确率降低的问题"主

要原因有:歌手名和普通人名的区分比较困难;歌手名和音乐

组合名具有相似的上下文,歌曲名和专辑名常相同,可能会导

致实体类型错误"而基于规则的后处理过程,即音乐实体修

正过程刚好是用来解决这类问题"这使得识别的召回率和准

确率都有一定的提高"

可见,基于规则的识别!基于的识别和

修正3种方法相结合,使得识别的准确率!召回率和F

指数都比较理想,证明本文所提出的规则和统计相结合的方

案具有实用价值"(下转第2948页)

2931第11期佘俊等:音乐命名实体识别方法的基础上提出相关实体子树集和语义相关实体子树集的概

念,并在算法基础上进行改进,实现了求解语义相关实

体子树集的算法"最后将几种查询方式在3种数据集上进行

查询,并以方式查询结果为标准,对几种查询方式的

查准率进行了比较,实验结果验证了本文方法能够有效地提

高查询结果的质量"未来的工作主要在于研究既能使用户表

达出对目标片段所应有的结构信息,又能避免用户必须

了解实际的数据组织结构的查询方式以及实现的方法"

图2 上查准率

参考文献:

[1] 李颖.关于检索和索引技术的研究[].济南:山东大学,

2009.

[2] ,,.

:[]//

17.,

:,2001:321-329.

[3] ,.

[]//

:,2005:537-538.

[4] ,,.2[]//2

.,:,2004:72-83.

[5] ,,,etal.

[]//16

,:,2007:31-40.

[6] ,.

[]//2

,2007:329-340.

[7] ,,.:

[]//33

.:,

2007:1330-1333.

[8] ,,,etal.2

[]//2

20022

.:,2002:204-215.

[9] 李辛.基于语义相关性的关键字查询的研究与实现[].

北京:北京交通大学,2009.

[10]孔令波,唐世渭,杨冬青,等.信息检索中最小子树根节点

问题的分层算法[].软件学报,2007,18(4):919-932.

(上接第2931页)

5 结语

经过实验证明,中文音乐实体识别系统已经表现出良好

的性能,但仍存在一些不足,需要进

一步的完善,主要包括以

下方面:

1)本文提出的基于规则的音乐实体识别算法对规则冲

突问题的考虑不够全面,即不同实体的边界库中可能存在相

同的词或短语"可以结合词或短语作为某类边界规则的概率

来解决冲突问题"

2)基于模型的音乐实体识别算法未考虑各词的词

性信息,这些信息对音乐实体的识别起重要作用"因此,下一

步要融合词性信息到模型中"

3)本文对歌曲名和专辑名的准确率还有待进一步提高,

今后需要进一步讨论它们的识别方法"

总的来看,音乐命名实体识别技术已经取得了一定的成

果,但对其研究还远没有结束"今后除了更一步改善音乐实

体识别的效果外,还要结合应用来进行音乐命名实体识别,例

如音乐搜索!音乐个性化推荐!音乐趋势分析等"

参考文献:

[1] 张晓艳,王挺,陈火旺.命名实体识别研究[].计算机科学,

2005,32(4):44-48.

[2] 愈鸿魁,张华平.基于层叠隐马尔可夫模型的中文命名实体识

别[].通信学报,2006,27(2):87-95.

[3] ,.2

,208[/].[2009-12-

12].://./2//08/0821001..

[4] ,2.2

[].,

2005,7(1):19-25.

[5] ,.

[].,2007,30(1):3-

26.

[6] ,,.

[]//

442

.,:2

,2006:521-528.

[7] ,,,etal.2

:2[/].[2009-12-12].

://...//2/6/131..

[8] 张腾飞,王晓磊,王保云.基于场景信息融合的中文姓名识别方

法研究[].计算机工程与应用,2009,45(34):147-151.

[9] 贾宁,张全.基于最大熵模型的中文姓名识别[].计算机工程,

2007,33(5):31-33.

[10] 唐旭日,陈小荷,许超,等.基于篇章的中文地名识别研究[].

中文信息学报,2010,12(2):36-41.

[11] 李丽双,黄德根,岳广玲,等.与规则相结合的中文地名自

动识别[].中文信息学报,2006,20(5):77-82.

[12] 周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文

机构名自动识别[].电子学报,2006,(5):16-21.

[13] 张华平,刘群.基于角色标注的中国人名自动识别研究[].计

算机学报,2004,27(1):85-91.

[14] 张铭,银平,邓志鸿,等.+:基于统计方法的元数

据抽取混合模型[].软件学报,2008,19(2):358-368.

[15] 秦文,苑春法.基于决策树的汉语未登录词识别[].中文信息

学报,2004,18(1):14-19.

[16] 2,2,,etal.2

[].,2008,4

(3):1169-1180.

2948 计算机应用第30卷

收稿日期:2010-04-30;修回日期:2010-07-16"

基金项目:国家自然科学基金资助项目(60973069);华为高校技术合作基金资助项目(2008126)"

作者简介:佘俊(1973-),男,四川彭州人,高级工程师,主要研究方向:商业智能!知识管理; 张学清(1984-),女,硕士研究生,主要研究

方向:文本挖掘!命名实体识别"

文章编号:1001-9081(2010)11-2928-04

音乐命名实体识别方法

佘俊1,张学清2

(1.中国南方电网调峰调频发电公司信息通信中心,广州510630; 2.电子科技大学计算机科学与工程学院,成都611731)

(@163.)

摘要:为了能快速!准确地将分散在网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特

征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统"通过测试

发现,该系统具有较高的准确率和召回率"

关键词:命名实体识别;音乐命名实体;隐马尔可夫模型

中图分类号:18;311.13 文献标志码:

Musicalnamedentityrecognitionmethod

1,22

(1.InformationandCommunicationCentre,ChinaSouthernPowerGridPowerGenerationCompany,GuangzhouGuangdong510630,China;

2.SchoolofComputerScienceandEngineering,UniversityofElectronicScienceandTechnologyofChina,ChengduSichuan611731,China)

Abstract:,

Keywords:;;()

0 引言

命名实体识别(,)是目前

文本信息自动化处理中一个基础而关键的技术"命名实体

(,)是文本中基本的信息元素,是文本中的

固有名称!缩写及其他唯一标识,它往往指示了文章的主要内

容"命名实体识别目前已经发展成一个独立的研究分支,

2002就有专门的命名实体识别专题[1]"

国外对于英文命名实体识别的研究开始较早,英文命名

实体的识别已经达到了较高的水平,(

)会议测试的准确率和召回率可以达

到97%左右[2]"英文命名实体的识别主要采用基于统计模

型和机器学习的方法,如基于隐马尔可夫模型(

,)[3-4]!最大熵模型[5-6]和支持向量机[7]

等"这些方法利用英文命名实体的词频!词缀等统计信息,并

结合一定的句法信息和语义特征来识别命名实体及确定其类

别"

中文命名实体识别的研究起步比较晚,国内外关于中文

命名实体识别的准确率和召回率的报告一般在90%左右"

近年来,基于统计的中文命名实体识别方法是研究的主流"

已有的中文命名实体研究方案,可以根据研究范围的不同,分

为两种:

一种是个别解决方案,只识别某一类命名实体"这种方

案针对某一类命名实体的特点,提出了有效的识别方法,如中

文人名识别[8-9]!地名识别[10-11]!机构名识别[12]"但是这种

方案忽视了不同种类命名实体间的歧义问题"

另一种是一体化解决方案,可以同时识别多种命名实体"

大多数的方案采用机器学习的方法,如基于层叠隐

马尔可夫

模型的词法分析方法[13-14]!基于决策树[15]和基于组块[16]的

方法等"但是它不能充分分析不同命名实体间的差异性,制

约了整体的识别性能"

1 音乐命名实体识别的难点

本文主要研究中文文本中音乐命名实体的识别问题,音

乐命名实体包括:

歌手名是人名中特殊的一类,指特定歌手的固有名称!

别名!英文名和译名,如/刘德华0!/华仔0!/周渝民0!/仔

仔0!/布兰妮0!/小甜甜0等"

音乐组合名指特定乐队!乐团和歌唱组合的固有名称,

如/小虎队0和/0等"

歌曲名指特定歌曲的固有名称,如:/梦醒时分0和/月

亮代表我的心0等"

专辑名指特定专辑的固有名称,如/永远的邓丽君0和

/旷世情歌全记录0等"

目前,无论是中文还是英文命名实体识别都会遇到以下

难题:首先,命名实体是一个开放的类,数量庞大,难以以列表

或词典形式完全列举"以歌曲名为例,世界上有不计其数的

歌曲,一一列举出来并不现实"其次,命名实体并非一个稳定

的类,随着时间的推移,不断会有新的命名实体产生"例如一

个新歌手的出道!一个新专辑的发布都会影响到音乐命名实

体的内容和数量"

音乐命名实体的特殊性以及各类音乐命名实体的自身特

第30卷第11期

2010年11月计算机应用 .30.11.2010点,给识别带来了一定的难度"

1)歌手名和音乐组合名识别的难点"

歌手名和音乐组合名与上下文成词或自身成词的现象严

重,容易产生歧义"例如:/天娱旗下艺人组合/至上励合/作

客湖南卫视0可能被误分为/天娱旗下艺人组合/至上励/合

作客湖南卫视0"如果不对这些情况进行特别的处理,许多

歌手名和组合名就会被切开,降低识别的准确率和召回率"

歌手名和音乐组合名的长短不一,而且构成形式多样"

歌手名的常见形式如下:姓和名组成,如张学友!任贤齐等;前

缀和姓组成,如阿杜,小柯等;姓或名和后缀组成,如华仔!周

董等;别名或艺名,如老狼!刀郎等"而音乐组合名,不像歌手

名有规律,不仅用词比较随意,而且长度从一到十几个不等,

如羽泉!南拳妈妈!凤凰传奇等"

区分歌手名和普通人名比较困难"在一个文本中,并非

所有的人名都是歌手名"歌手名是人名的一个种类,具有相

同的特性,因此,如何从人名中正确识别出歌手名是一个难

题"

2)歌曲名和专辑名识别的难点"

歌曲名和专辑名的组成方式非常随意"许多歌曲名和专

辑名都是很常见的词!短语或句子,如周华健的5朋友6!满文

军的5懂你6!宋祖英的5长大后我就成了你6等"而且近来流

行歌曲名中还出现了标点符号,如张韶涵的5亲爱的,那不是

爱情6,这给区分歌曲和普通句子带来了很大难度"歌曲名!

专辑名中含有歌手名,如安又琪的5你好,周杰伦6"这很可

能会导致歌曲名!专辑名的漏选,以及歌手名的错选"歌曲名

和专辑名的长度极其不固定"这导致歌曲名和专辑名的边界

很难确定"

很多情况下,一首歌曲和一个专辑使用相同的名称,如齐

秦的专辑5又见溜溜的她6,其主打曲为5又见溜溜的她6"这

将导致很难辨别一个实体到底是歌曲名还是专辑名"

经过对大量音乐领域文本的分析发现,在音乐命名实体

自身及其上下文中,存在着许多规则和统计信息"

2 规则与统计相结合的音乐实体识别方法

该方法的核心思想为:首先,利用各种启发式规则信息,

在原始音乐文本(即未进行分词)上,采用基于规则的音乐实

体识别算法来识别部分明显的音乐命名实体"然后,对含有

音乐实体的音乐文本进行分词"在分词之后,引入识

别音乐命名实体"最后,利用音乐实体库和修正规则,去除部

分错误识别的歌手名和组合名,并修正歌曲名和专辑名的类

型"该方法的实现框架如图1所示"

2.1 基于规则的识别

在音乐文本中,音乐命名实体的前后位置常常会出现一

些特定的符号或词"这些符号和词可能指示一个实体的开

始,或一个实体的结束"比如,/歌手0这个词的后面很可能

是一个歌手名,而/组合0的后面则可能是一个组合名;同样

的/演唱0的后面可能是歌曲名,其前面则可能是歌手名或组

合名,如此等等"基于上述原因,本文提出一种基于规则的

识别算法,即在分词和基于的识别之前,利用音乐

实体的出现规则来识别部分明显的音乐实体"

2.1.1 边界规则

规则的构建是基于规则的识别算法的关键,规则越

完善,识别的效果越好"由于音乐实体构成形式多样,且长度

不一,很难在音乐的内部组成结构中提出通用性的规则"而

在音乐实体的上下文中存在着大量的边界规则"虽然人工构

造的规则准确率比较高,但比较耗时费力,且很难全面覆盖"

因此,先由机器自动提取规则,再由人工进行筛选"

本文定义8种边界规则(,

)来表示和存储音乐实体的边界,如表1所示"

图1 规则和统计相结合的音乐实体识别方法框架

表1 音乐实体边界规则表

规则类型缩写组成部分

歌手名左边界_经常出现在歌手名左边的词或短语

歌手名右边界_经常出现在歌手名右边的词或短语

组合名左边界_经常出现在组合名左边的词或短语

组合名右边界_经常出现在组合名右边的词或短语

歌曲名左边界_经常出现在歌曲名左边的词或短语

歌曲名右边界_经常出现在歌曲名右边的词或短语

专辑名左边界_经常出现在专辑名左边的词或短语

专辑名右边界_经常出现在专辑名右边的词或短语

2.1.2 自动提取规则

以歌手名边界规则为例,规则提取的具体步骤:

1)遍历分词序列,收集出现在歌手

名前后的词或短语,

认为它们可能是歌手名的边界规则:

)左边界规则"如果歌手名的前一个词为单字,则收集

由其前两个词合并而成的短语;否则,收集该词"

)右边界规则"如果歌手名的后一个词为单字,则收集

由其后两个词合并而成的短语;否则,收集该词"

2)统计可能为歌手名左(右)边界规则的各词或短语出

现在歌手名前(后)面的次数,并计算其作为左(右)边界规则

的概率,其值为该词或短语出现在歌手名前(后)面的次数与

该词或短语的出现总次数的比值"

3)将可能为歌手名左(右)边界规则的所有词或短语按

上述概率从大到小排序,然后选取前50%个词或短语作为歌

手名的候选左(右)边界规则,并将其保存至歌手名左(右)边

界规则中"

2.1.3 识别

基于规则的识别就是利用音乐实体的边界规则来

识别音乐实体"在实现该算法时,将除了引号!书名号之外的

标点符号作为所有实体的左边界规则和右边界规则"由于各

类音乐实体的识别过程是类似的,因此,以歌手名为例来介绍

2929第11期佘俊等:音乐命名实体识别方法基于规则的识别算法:

1)读入未分词的音乐文本"

2)通过匹配的方式,从文本中提取出所有位于歌手名左

边界和歌手名右边界之间的文本作为候选歌手名"

3)判断候选歌手名是否符合歌手名的要求,如长度等"

若不符合,则丢弃"剩下的就是识别出来的歌手名"

2.2 基于统计的音乐实体识别

本文采用作为统计模型,其主要原因是该模型能

较好地捕获命名实体的特征现象和位置信息,具有高效的基

于动态规划思想的解码算法,并且易于训练"

2.2.1 定义参数

通过对音乐命名实体的分析,本文采用二元隐马尔可夫

模型来识别各种音乐命名实体,即每个词的出现概率仅依赖

于它前面一个词的出现概率"的输入文本是含有音乐

实体的分词序列"那么,的观察值应该包括词和SIN!

BAN!SON!ALB标识串,则定义模型的观察值集合

O={Wi,SIN,BAN,SON,ALB},1[i[m,其中,Wi表示词

库中的一个词,m为词库中词的数目,SIN表示已识别的歌手

名,BAN表示已识别的组合名,SON表示已识别的歌曲名,

ALB表示已识别的专辑名"若用M表示所有可能观察值的数

目,则M=m+4"

应用于命名实体识别的的状态集合是那些能够反

映命名实体组成的属性集合,即每一个状态都能代表某一类

命名实体的内部组成成分!上下文或无关成分"分析歌手名!

音乐组合名!歌曲名和专辑名的内部组成结构,发现以下主要

特点:歌手名的首部一般是姓氏;歌曲名和专辑名的中部可能

由多个词组成;歌手名和组合名常被嵌套到歌曲名和专辑名

中"另外,歌曲名和组合名通常具有相同的上下文,与歌曲

名!专辑名的上下文不同,且歌曲名和专辑

名的上下文也不一

样"因此,本文的的状态集合S包含N=29个状态,S

集合的具体定义在表2中"

那么,的状态转移矩阵A=(aij)29@29,aij=P(sj|

si)表示从状态si转移到状态sj的概率;发射矩阵B=

(bij)29@M,bij=P(oj|si)表示状态si对应观察值oj的概率;初

始状态概率为P={P1,P2,,,P29},Pi=P(si)表示初始状

态是si的概率"

表2 的状态集合

状态si含义例子状态si含义例子

歌手名的首部词[郭]富城歌曲名的尾部词月亮代表我的[心]

歌手名的中部词郭[富]城歌曲名自身成词[烟火]

歌手名的尾部词郭富[城]专辑名的首部词[星光]依旧灿烂

歌手名自身成词[高锋]专辑名的中部词星光[依旧]灿烂

上文与歌手名的首部成词[为何]润东专辑名的尾部词星光依旧[灿烂]

歌手名的尾部与下文成词张学[友好]帅专辑名自身成词[寓言]

被嵌套的歌手名!组合名你好[周][杰][伦]歌手名和组合名的上文艺人

组合名的首部词[至上]励合歌手名和组合名的下文演唱

组合名的中部词至上[励]合歌曲名的上文插曲

组合名的尾部词至上励[合]歌曲名的下文这首

组合名自身成词[零点]专辑名的上文发行

上文与组合名的首部成词[做梦]之旅的专访专辑名的下文收录

组合名的尾部与下文成词飞轮[海边]唱音乐实体间联结词和!与

歌曲名的首部词[月亮]代表我的心与实体组成及上下文无关的词

歌曲名的中部词月亮[代表][我][的]心

2.2.2 训练得到状态转移矩阵和发射矩阵

在使用识别实体之前,必须进行训练,即获

得初始状态概率!状态转移概率矩阵和发射概率矩阵这3个

关键参数"自动训练过程的基本流程如图2所示"

图2 训练过程的基本流程

从图2可以看出,自动训练过程主要包括两个部分:状态

标注过程和模型参数计算过程"其中,状态标注过程就是将

训练语料中包含实体标注的切分序列的词性标注转换为状态

标注;模型参数计算过程就是通过遍历带有状态标注的切分

序列,计算出初始状态概率P!状态转移概率矩阵A和发射

概率矩阵B的取值"

2.2.3 基于动态规划思想的过滤解码算法识别

通过训练得到之后,便可以进行音乐命名实体的

识别工作"识别过程就是从输入分词序列的所有可能状态序

列中寻找最佳状态序列,然后将最佳状态序列中与音乐实体

组成相关的状态进行组合,便得到各种音乐实体"假定有一

个分词序列O=(o1,o2,,,om),音乐实体识别问题就相当

于求解下式:

S*=

P(S|O)(1)

其中:S表示隐藏在O之后的状态序列,S*表示最佳状态序

列"

S*=

i=1

P(oi|si)P(si|si-1)(2)

通常对式(2)取负对数,则:

S*=

S[-Emi=1(P(oi|si)+P(si|si-1))]

(3)

2930 计算机应用第30卷在获得最佳状态序列之后,需要根据状态组合模板来查

找音乐实体"根据

各种状态的含义,本文定义了以下4种类

型的状态组合模板"

歌手名:+*+,+,+,+*+

,+*+,"

组合名:+*+,^+,^+,+*+

,+*+,"

歌曲名:+*+*+,+*+^,^+

*+,^,^+,^+,"

专辑名:+*+*+,+*+^,^+*+

,^+,^+,"

例如有一状态序列:/老牌/歌手/林/忆/

莲/首/唱/新/歌/5/柿子/6/0,

通过匹配模板/++0和/0,可以识别出歌手名

/林忆莲0,歌曲/柿子0"

2.3 修正

经过基于规则的和基于的音乐实体识别过程,已

经识别出大部分音乐实体,但其中仍存在一些错误识别的实

体,如非音乐实体!实体类型错误等"通过分析,总结出引起

这些错误的主要原因有:

1)歌手名和普通人名的区分比较困难,可能会将普通人

名误识别为歌手名;

2)歌手名和音乐组合名具有相似的上下文,歌曲名和专

辑名常相同,可能会导致实体类型错误"

为此,针对歌手名和音乐组合名:由于歌手名和音乐组合

名的数量比较少且容易收集,所以采用通过音乐实体库(包

含歌手名库!组合名库)来过滤各种错误实体的方法"对于

歌曲名和专辑名:由于歌曲名和专辑名的数量非常多,若采用

同样的方法,则效率比较低"而且,通过分析发现已识别的歌

曲名和专辑名的边界比较准确,只是还存在一些实体类型上

的错误,如把歌曲名识别成专辑名等"因此,利用实体上下文

的启发式规则来更正实体类型"

3 实验

实验所使用的语料有两个:一个是训练语料,另一个测试

语料"从新浪!网易!搜狐等几大网站上收集的大量音乐领域

文本,从中挑选了1046的包含音乐实体的文本,其中包含

了156的歌手名!110的组合名!285的歌曲名和

207的专辑名,对这些文本进行标注,得到最终的训练语

料"测试语料是从人民网!音乐在线!一听等网站上收集的音

乐领域文本,大约为572,其中包括80的歌手名!62

的组合名!154的歌曲名和105的专辑名"

实验1 测试基于的音乐实体识别方法的识别性

能"

实验2 测试基于规则的前处理和基于相结合的

音乐实体识别方法的识别性能"

实验3 测试本文提出的规则和统计相结合的音乐实体

识别方法的识别性能"该方法先使用基于规则的方法识别部

分音乐实体,再使用基于的方法来识别,最后对前两步

识别出进行修正处理"

在实验中,采用了3个评测指标:召回率!准确率和F指

数"各实验的结果如图3~5所示"

从结果数据以及曲线图可以看出,本文研究的规则和统

计相结合的音乐实体识别方法具有良好的性能,无论在召回

率!准确率还是F指数上,都高于其他两种方法"

4 结果分析

从实验结果中,可以看出仅用的方法进行音乐实

体识别的准确率和召回率都不太理想"首先,这是因为音乐

实体识别自身存在的难点,如歌曲名和专辑名的组成方式非

常随意,都是很常见的词!短语甚至

句子;其次,该方法依赖于

分词的结果,但分词仍然是个难题,其准确率不高;最后,二元

隐马尔可夫模型只考虑词本身的发生概率而忽视了上下文对

当前词的影响和词之间的联系,很容易因为词的错误切分而

造成错误识别"

图3 不同方法召回率的比较

图4 不同方法准确率的比较

图5 不同方法F指数的比较

因此,需要在基于的方法之前,引入基于规则的前

处理过程,来弥补的不足"基于规则的识别是在

分词前进行的,它能够识别出一些基于的方法无法识

别出的实体"例如,句子/在演唱会上,至上励合演唱了0,若

/至上励合0在训练语料中很少出现,则基于的方法很

难将该组合名识别出来,但可以通过基于规则的方法将其识

别出来"从实验结果中也可以看出,基于规则的前处理过程

提高了音乐实体识别的召回率"

但是,召回率的提高同时,却带来准确率降低的问题"主

要原因有:歌手名和普通人名的区分比较困难;歌手名和音乐

组合名具有相似的上下文,歌曲名和专辑名常相同,可能会导

致实体类型错误"而基于规则的后处理过程,即音乐实体修

正过程刚好是用来解决这类问题"这使得识别的召回率和准

确率都有一定的提高"

可见,基于规则的识别!基于的识别和

修正3种方法相结合,使得识别的准确率!召回率和F

指数都比较理想,证明本文所提出的规则和统计相结合的方

案具有实用价值"(下转第2948页)

2931第11期佘俊等:音乐命名实体识别方法的基础上提出相关实体子树集和语义相关实体子树集的概

念,并在算法基础上进行改进,实现了求解语义相关实

体子树集的算法"最后将几种查询方式在3种数据集上进行

查询,并以方式查询结果为标准,对几种查询方式的

查准率进行了比较,实验结果验证了本文方法能够有效地提

高查询结果的质量"未来的工作主要在于研究既能使用户表

达出对目标片段所应有的结构信息,又能避免用户必须

了解实际的数据组织结构的查询方式以及实现的方法"

图2 上查准率

参考文献:

[1] 李颖.关于检索和索引技术的研究[].济南:山东大学,

2009.

[2] ,,.

:[]//

17.,

:,2001:321-329.

[3] ,.

[]//

:,2005:537-538.

[4] ,,.2[]//2

.,:,2004:72-83.

[5] ,,,etal.

[]//16

,:,2007:31-40.

[6] ,.

[]//2

,2007:329-340.

[7] ,,.:

[]//33

.:,

2007:1330-1333.

[8] ,,,etal.2

[]//2

20022

.:,2002:204-215.

[9] 李辛.基于语义相关性的关键字查询的研究与实现[].

北京:北京交通大学,2009.

[10]孔令波,唐世渭,杨冬青,等.信息检索中最小子树根节点

问题的分层算法[].软件学报,2007,18(4):919-932.

(上接第2931页)

5 结语

经过实验证明,中文音乐实体识别系统已经表现出良好

的性能,但仍存在一些不足,需要进

一步的完善,主要包括以

下方面:

1)本文提出的基于规则的音乐实体识别算法对规则冲

突问题的考虑不够全面,即不同实体的边界库中可能存在相

同的词或短语"可以结合词或短语作为某类边界规则的概率

来解决冲突问题"

2)基于模型的音乐实体识别算法未考虑各词的词

性信息,这些信息对音乐实体的识别起重要作用"因此,下一

步要融合词性信息到模型中"

3)本文对歌曲名和专辑名的准确率还有待进一步提高,

今后需要进一步讨论它们的识别方法"

总的来看,音乐命名实体识别技术已经取得了一定的成

果,但对其研究还远没有结束"今后除了更一步改善音乐实

体识别的效果外,还要结合应用来进行音乐命名实体识别,例

如音乐搜索!音乐个性化推荐!音乐趋势分析等"

参考文献:

[1] 张晓艳,王挺,陈火旺.命名实体识别研究[].计算机科学,

2005,32(4):44-48.

[2] 愈鸿魁,张华平.基于层叠隐马尔可夫模型的中文命名实体识

别[].通信学报,2006,27(2):87-95.

[3] ,.2

,208[/].[2009-12-

12].://./2//08/0821001..

[4] ,2.2

[].,

2005,7(1):19-25.

[5] ,.

[].,2007,30(1):3-

26.

[6] ,,.

[]//

442

.,:2

,2006:521-528.

[7] ,,,etal.2

:2[/].[2009-12-12].

://...//2/6/131..

[8] 张腾飞,王晓磊,王保云.基于场景信息融合的中文姓名识别方

法研究[].计算机工程与应用,2009,45(34):147-151.

[9] 贾宁,张全.基于最大熵模型的中文姓名识别[].计算机工程,

2007,33(5):31-33.

[10] 唐旭日,陈小荷,许超,等.基于篇章的中文地名识别研究[].

中文信息学报,2010,12(2):36-41.

[11] 李丽双,黄德根,岳广玲,等.与规则相结合的中文地名自

动识别[].中文信息学报,2006,20(5):77-82.

[12] 周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文

机构名自动识别[].电子学报,2006,(5):16-21.

[13] 张华平,刘群.基于角色标注的中国人名自动识别研究[].计

算机学报,2004,27(1):85-91.

[14] 张铭,银平,邓志鸿,等.+:基于统计方法的元数

据抽取混合模型[].软件学报,2008,19(2):358-368.

[15] 秦文,苑春法.基于决策树的汉语未登录词识别[].中文信息

学报,2004,18(1):14-19.

[16] 2,2,,etal.2

[].,2008,4

(3):1169-1180.

2948 计算机应用第30卷

音乐命名实体识别方法

相关内容

热门内容

标签