基于SVM方法的中文实体关系抽取

基于SVM方法的中文实体关系抽取①

徐芬王挺陈火旺

国防科学技术大学计算机学院,湖南长沙,410073

E-mail:纽煎蛰H盘曲!塑

摘要:实体关系抽取是很多自然语言处理任务的重要基础。本文针对中文中实体关系的特点,设计了—系列的特征。包括词、词性标注、实体和出现信息、包含关系和知网提供自瞩念信息等,以构成实体问关系的上下文特征向量并使用SvII!方法进行了中文实体关系抽取。以ACE2004的训练语料作为实验数据・得到了较好的识别性能。同时根据分级实验的结果,考察了各种特征集对识别性能的影响,得到下—步研究的方向・

关键词:信息抽取、’实体关系抽取、ACE、特征选择、知网信息

SVM-basedOhineseEnti七yReIationExtraction

FenXuWangHuowang

SdloolofCom眦Sci锄%N枷lalTingofnIfa啪砒olo劬ChenUniversity

CI娜gsImHumm,410073

E-mail:fenx纽_udtedu.cn

Almtraee.EntityrelationexlllictionistheimportantbasoofmanyNIPtasks.This弘lp盯presets船workofChincse∞6lyrelationⅨ唿斑∞.Wedesignedthcconte=xtvectorbyusings,w-ralnewfeaturesincludingword,partofspe优htag,嘶andmention,overlapamdHowNetc0IlcepLBased011the=ogntextinformation,ma#ySVMclassifiertodetectemdd8ssi~therelationsbetween∞titi蘸WetakethetrainingdataofACE2004鹳our叩-fimeataldamandhaveSotenomm¥mgresults.The麟胁嘲衄remits啦锄ab蒯indetail,whichhdps璐inv=./¥at=theimpactofvariousfeaturesontheoxITactJon

I蛳orcls:Infonnatioopedbfm舶∞andgctthcwayofnextsty.

Bm翟=ti‘m,EntityRdationE.I出枷∞,AcE,姗f黯冀lcct蛔舀HowNetknowl。dge

1引言

信息抽取是指从无结构的文本中抽取出有结构的信息,从而可以被方便的访问和处理。信息抽取系统最基础的工作首先是命名实体识别,即把文本中特定种类的(如人名、地名等)实体及其特定的信息识别出来。抽取实体的目的是要获得它们之间相应的关系,关系抽取与信息检索、问答系统、信息过滤有直接的关联。如果不考察或不能正确考察实体之间的关系,文本信息的结构化则无从谈起。

对信息抽取研究影响最大的主要是由美国国防高级研究计划委员A(DARPA)资助的两个会议:消息理解系列会议(MUC)和自动内容抽取评测会议(ACE)。MUC会议使信息抽取发展成为自然语言处理领域一个重要分支,但已于199Sff-.4)可举办第七届会议后停办,之后美国国家①国家自然科学基金资助项目(60403050).稿件编号:056497

标准技术研究院(NIST)组织了ACE评测。-与MUC相比,ACE评测不针对某个具体的领域或场景,将信息抽取技术研究引向了新的高度。

目前关系抽取的研究方法都是将已抽取出的实体两两分为一对(成为一个实例),然后对这些实例进行分类。所以理论上用于分类的方法都可以用于关系抽取,主要有:基于知识工程的方法和基于机器学习的方法。基于知识工程的方法在某些领域取得了不错的效果,但是它要求编制规则的知识工程师对该知识领域有深入的了解,开发过程耗时耗力,并且系统移植困难。基于机器学习的方法只需要一个标注好的语料库进行训练,克服了上述的缺点,但其性能是需要改进的地万¨。

已经有很多机器学习的方法被用到了英文文本的关系抽取上,如:隐马科夫模型12J(HMM)、条件随机域(CRF)【3】、最大熵模型4j、支持向量机例,其中使用支持向量机方法得到的效果较好鳓。

而基于中文文本的关系抽取研究则属于起步阶段,方法较少,所抽取关系的类别也较单一。ACE评测的训练数据上,对ACE定义的7个实体关系大类(Type)进行抽取。2006#黼等人2004年车万翔等人【8J使用基于特征向量的机器学习算法、)vimlow和支持向量机SVM),在2004年例使用基于种子自扩展的方法,对《人民日报》1998年上半年的纯文本语料进行了’诃语切分和词语类型标注后作为其实验数据,对<国家,国家领导人>这类关系进行了抽取。2006年张素香等人L‘ol将极大熵算法和B∞ts缸appiII{;算法相结合,从网址为http缃wwA63.∞m中收集用于信息抽取的文本集合,在“人事变动领域”定义了“Per_Aff.Ei坤loymenf’、‘'Org_Aff.Employmenf’

和’"Positionof’三个关系进行抽取。

本文将会使用支持向量机(SⅥ田方法,基于前面的工作使用词、实体属性、实体间包含关系特征集,同时也新引入词性标注、实体“出现”属性以及知网概念信息特征集,毛E2004年A(=E评测的训练数据上,对A旺定义的7个实体关系大类(Type)、22个子类(Subtljpe)进行抽取。根据实验结果,分析了各种特征集合的选择对抽取性能的影响。

文章的第二节将简要介绍一下s、,M方法,第三节将列出所有使用到的特征集,第四节给出实验结果并分析,最后是本文的结论和对进—步工作的展望。

2SⅧ方怯简介

支持向量机(SVM)是ⅥlpIljl【等人【5】提出的一类新型机器学习方法,该方法是建立在统计学习理论的VC维理论和结构风险最小化准则基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。SⅥ订算法的出发点是寻找最优分类超平面。该超平面不但能将所有样本正确分开(训练错分率为0),而且能够使两类间的边际(margin)最大,边际定义为训练数据集到该分类超平面的最小距离之和。对于非线性可分的问题,可以通过非线性变换转化为某个高维特征空间中的线性问题,在该特征空间求最优分类面。

SVM构建了—个二值分类器,仅能够对两个类别进行分类,而关系识别是一个多分类问题。构造多分类器的方法有“一对多“(Om-against-aU)和“一对一”(OIP鹊萄璐№m)两种方法。虽然“一对一”的方法相对于“一对多”方法要训练更多的分类器,但每次的训练数据要小很多,从而从整体上节省了训练时间。所以,我们决定采用“一对一”的多分类方法。

3关系抽取选用的特征集

使用SVM方法进行关系抽取,最重要的就是选择合适的特征集。参考【6】川【8】的英文和中文实体关系抽取的特征选择方法,利用已有的中文分析工具,我们选择了词、实体属性、实体间包含关系特征集。同时,还新引入了词性标注、实体“出现”属性以及知网概念特征集。

两个实体构成一个实体对,即实例。为了表述的方便,用MI、M2来表示这两个实体,HMI、HM2为MI、M2的中心词。

3.1词特征集(Word)

一个实例涉及的两个实体以及这两个实体周围的一些词,是最基本的特征集。我们设计了一个词特征集,其中包括:M1、‘M2的词串、HMI、HM2的词串、Ml前两个词、M2后两个词、M1、M2间的词串。

3.2词性恃征集(Pos)

词特征集常常会太稀疏,所以考虑加入词性特征集,包括上述词特征集合中的词对应的词性标注。为获得词性标注信息,我们使用中科院词性标注系匀P进行词性标注。该系统对例句“俄罗斯外交部长在访美期间”的词性标注结果为:俄罗斯舾外交部长,n在砸访~美触期l'日-J/adv。3.3实体属性特征集(Entity)

实体的信息直接影响关系的分类,既然假设实体已经正确识别出来了,那么完全可以将实体的信息作为一个特征集。首先是实体属性特征集,包括:M1、IVl2的类、子类、级。

3.4实体“出现”特征集(Mention)在ACE2004蒯a,实体的每次“出现”都会被记录下来,记录的信息包括实体的这次“出现”涉及的范围和中心词,以及“出现”的类型,“出现角色”(只对GI砸类的实体),转义属性(如果有的话)。把这些有关实体的信息也作为—个特征集考虑进来,包括:M1、M2的出现类型、出现角色、转义属性。

3.5实体间包含关系特征集(Overlap)

两个实体的相对位置对关系的识别也有一定的作用,所以加入了实体间包含关系特征集,

包括:MI、M2间其他实体和其他词的个数,M1、M2两者间是否存在包含关系,以及实体属性特征、实体“出现”属性特征与包含关系的结合。

3.6知网概念信息特征集(Hownet)。

知网(HowNct)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,这种关系对实体关系抽取研究@http:/Avww.iotao.on/frecware/@http:IAvwwJmcnage.coln

将有很大的帮助。这里先简单利用“知网”中的概念信息构造了一个知网概念信息特征集,它主要是根据词和词的词性标注,查询知网2000版提供的词典,得到词在词典中对应的概念描述作为知网概念信息特征返回值。

知网概念信息特征集的设计与词、词性特征集的设计类似,由词特征集合中的词对应的知网概念信息特征返回值组成。

4实验结果与分析

4.1实验设计

首先我们使用GATE自然语言处理平台【121,将开源的中科院词性标注系统包装为G闽暖褥件,对原始文本进行分旬、分词、词性标注的处理。然后选用LIBSVM回作为SVM分类器,使用线形核函数和“一对一”方法解决多分类问题。

实验语料为2004年ACE评测提供的训练语料,共646篇标注好的语料(153,703字),6626个relation实例,106114d'mo-relation实例。所有数据被分为两个部分,4/5用作训练,1/5用作测试。

使用通常的准确率、召回率、Fl值作为评价标准,即:

准确率(Precision)

召回率(Reck)

.r.=~=

1一正确标注的关系的个数标注的关系的总个数正确标注的关系的个数正确的关系的总个数2×RecallxPrecisionRecall+Precision

统计发现各种关系类别分布得非常不均匀,所以我们对各个子类的准确率、召回率、Fl值进行微平均而得到最后的结果。

4.23种抽取任务的实验性能

本文定义了3种逐步细化的抽取任务:发现关系(判断两个实体间是否存在关系)、识别关系大类(判断两个实体间的关系属于哪一个大类)、识别关系子类(判断两个实体间的关系属于哪—个子类),每种抽取任务的完成为~个独立的实验,使用在第三节中设计的所有特征集,实验结果如表l:

表1.不同抽取任务实验结果

任务

发现关系

识别关系大类

识别关系子类准确率76.2474.9070.01召回率76.9272.1362.92F1值76.5873.4966.27

结果表明,随着任务的细化,问题的难度在逐渐增大,识别的性能逐渐下降。@http://www.micattu.edu.tw/oilin/libsvm

系大类识另归l值为73.27*/'d箍J结果相比,本文的结果要稍好一点。更进一步,本文在J虹这样大规模真实语料上,对中文实体关系抽取中特征集的作用进行了研究,对不同特征集在不同层次的关系抽取任务中的影响进行了实验和分析。国内研究者在A(删语料上对关系的大类进行了抽取嗍,与文献【8】使用S、M方法进行关

毛3不同特征集对实验性能的影响

进—步的实验从最基本的词特征集开始,逐项的增加特征集,从而考察特征集的增加对实验性能的影响,3项任务的实验结果如下表所示:

表2.3项任务的特征集累加实验结果

关系大类识别

F1值

62.10

66.26

65.66

7L39\《务Word+Pos+Entity‘关系发现关系子类识别F1值‘准确率54.3655.2868.1667.18

67.10

70.01特征套\准确率61.1467.9675.7972.0974.4276.24召回率63.09准确率49.5949.8567.7768.5170.2174.90召回率40.9450.4867.9269.4772.6572.13召回率32.6437.0755.9857.7560.4162.92F1值40.7944.3861.4762.1163.5866.2744.8550.1667.8468,9971.4l73.4964.6457.9170.7l81.3676.92+Mention+0verlap+HowNet77t7376.58

虽然有个别的例外,但三项任务的实验结果大体上还是可以反映出实验性能随着特征集的扩大而增加的规律。其中实体的属性特征集在识别关系大类和子类的任务上使性能提高最大①l值分别提高了17.68%、17.09呦,词性特征集使3个任务的性能都提高较大但1值分别提高了4.16%、5.31%、3.59哟,实体间包含关系特征集饵l值分别提高了6.34%、2.42%、1.47呦和知网概念信息特征集(识别关系大类和子类的Fl值分别提高了2.08%、2.6呲使性能有所提高。并且这些数据田l值分别提高了1.15%、O.64绚则对识别大类和子类任务的性能影响不大。也说明随着任务的细化,词性和实体间包含关系特征集的作用越来越弱,而知网概念信息特征集在提高性能上的作用则越来越明显,甚至超过了包含关系特征集的作用。而实体“出现”特征集

研究者常常假设实体已经被正确识别并按√6她的标准标注出来了,但实际的J隋况经常并没有这样理想。所以下面将假设再放宽一些,即假设只是发现了实体,但并没有按ACE的标准标注出来,也就是特征集的选择减少为只有词、词性、知网概念信息特征集3项。实验结果如下:表3.3项任务的新特征集累加实验结果

关系发现

准确率

61.14

67.96

71.23\堆务Word+PoS+HowNet特斌关系大类识别Fl值62.1066.2670.97关系子类识别F1值准确率54.3655.2863.35召回率63.09准确率49.5949.8562.96召回率40.9450.4850.25召回率32.6437.07F1值40.7944.3849.3944.8550.1655.8964.6470.7140.47

同样是使用全部的可选特征集,相比之前的识别性能,新的实验结果差了很多(F1值分别下降了7.23%、17.76%、16.98%),再次说明了实体识别的性能对关系识别的影响之大。还可以501

发现,知网概念信息特征集对性能提高的作用更明显了(F1值分别提高了4.71%、5.73%、5.01%,相比于之前的识别关系大类和子类的Fl值分别提高了2.08%、2.69%),这说明了知网知识在关系识别上的可利用性,有进一步将其与关系抽取相结合的必要。

5结束语

本文介绍了使用SⅥ肪法对中文文本中的实体关系进行识别的工作。以2004年ACE评测的训练语料为实验数据,基于已有的工作使用词、实体属性、实体间包含关系特征集,同时也新引入词性标注、实体“出现”属性以及知网概念特征集,对实体关系发现、关系大类识别、关系子类识别3个任务进行实验,考察了不同的特征集对识别效果的影响。

实验结果显示:识别任务要识别的类别越细,识别性能越低。特征集的选择对识别效果影响很大,特征集的增大有利于效果的提高,其中词性、实体属性特征集对关系抽取的影响较大,知网知识在关系抽取方面也有较强的可利用性。识别任务要识别的类别越细,越有必要开发丰富合适的特征集,来保证稳定的识别效果。

根据上面的结论,我们下一步的工作将是寻找更多更合适的特征,如添加组块、句法、语义等特征,更好的利用已有的“知网”信息结构框架等。

参考文献

【1]Appclt,D.:AnIntroductiontoInformationExl/ll西on.AaificialIn纠lig哪ceCommunications,12(3)0999)161—172

【2】Fmtag,D.,mdMeCallumA.:lnform面on

Proceedingsofthe7thConference

Appiicalionson6XtlB吐ionwithHMMslruomreslearnedbystochasticoptimizalim.onArlifieiaIIntelligenee(AAAV00)andofthe12thConferenceInnov碰vcofAaif虻ialhl伽i8朗∞(IAAI-00),584.--559,McnloPark,CA.AAAIPress(2000)

fields:Probabilisticmodelsforsegmentingandlabeling【3】Laffmy,J.,MeCallum,A,Penira.F.:Conditionalrandom

踟l∞∞data.InProc.18thInlernationalCon£011MachineLearning.CA(2001)282-289

【4】Kambhatla,N.:Combining

reJalions.Proceedingslexical,synlacdeandsemandofcmur器withMaximumEnlropymodelsfor酬喊of42thAmatmlMeetingoftheA5氍x泌∞forComputeaiotmlLinguistic.21-26JulyBar∞lom,Sr蛆in(2004)

[5]Vapnik,v.:Slalisticalt,伽r.ing'rheory.JohaWiley(1998)

【6】ZhouG.,踟,J.,Zhang,J,,Zhang,M.:CombiningVariousKnowledgein

AnnualMeetingofli奄AssociationforRel斌ionExlnletion,Proe∞dingsofthe43thC0iIIflltatimalLinguistics(2005)

ofI-limarchical【刀TingWang,YaoyongIa,KalinaBontoheva,HamishCurmingham,andJiWang,AutomaticExtraction

RclmionsfromText,Proc.ofthe3rdEurolx粕SemmticWebConfercnce.'Springcr-V醴agLectureNotesinComlmterScicn∞401I,P.215-229

【8】车万翔、支Ⅱ挺、李生:实体关系自动抽取。中文信息学报,第19卷第2期

【9】何婷婷、徐超、李晶,赵君拮:基于种子自扩展的命名实体关系抽取方法。计算机工程,第32卷第2l期

【lo】张素香、文娟、秦颖、袁彩霞、钟义信:实体关系的自动抽取研究。哈尔滨工程大学学报,第27卷增刊

【11JCunningham,H.,Maynard,D.,Bonteheva,K,Tablem,v.:GATE:AFrameworkmdGmph/calDevelolanentEnvironmentforRobustNLPToolsandApplications,n∞∞血gsof曲曙40llIAnn鲰穰哆MeetingoftheAssociation

Lmguisli%.PhiIaddplIia'July(2002)forComputational

基于SVM方法的中文实体关系抽取

作者:

作者单位:徐芬, 王挺, 陈火旺国防科学技术大学计算机学院,湖南 长沙,410073

相似文献(9条)

1.学位论文 刘克彬 基于核函数的命名实体关系抽取技术研究 2006

随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个完整的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了基于改进的语义核函数的关系抽取系统。 本文的成果和贡献主要体现在以下几个方面: 1) 命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法采用字典结合训练规则的方式,具有很高的准确率和召回率。 2) 基于核函数的关系抽取算法的研究和改进。这部分是本文的主要工作,包括几个部分: A) 首先是对现有的核函数进行归类,研究它们的优点和不足并加以总结。 B) 选择具有多种优良性质的序列核函数作为主要研究对象,对其进行了较大的改进,得到一种语义序列核函数。这里的语义核函数指的是将语义知识嵌入到核函数的计算过程中,在不增加计算复杂度的情况下显著提升了学习算法的分类以及泛化能力。 C) 语义知识的获取也是比较重要的一部分工作,本文的语义知识获取充分利用了著名的中文语义本体Hownet。 D) 实现了基于语义核函数的KNN学习算法并应用于关系抽取系统,与其他关系抽取系统相比,本文的方法具有较高的准确率以及良好的泛化能力。 E) 扩展现有的二元实体关系为三元关系,使关系抽取结果包含更为丰富的信息。 3) 命名实体关系抽取系统实现:本文介绍的关系抽取系统采用模块化设计,总共包括8个主要的功能模块。这些模块都具备两种不同的实现方式,一种是Gate自然语言处理平台下插件形式的实现,一种是独立的Java应用实现。因此本文的整个系统既可以作为Java独立应用运行,也可以作为Gate环境下的插件自由组合以满足各种不同应用的需要。

2.学位论文 张婷 基于迭代方法的命名实体关系抽取技术研究 2008

随着互联网的普及,信息的数量与日俱增,人们需要从海量的信息中提取真正需要的信息,信息抽取的研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取的基本任务包括命名实体识别和实体关系抽取。其中命名实体识别是实体关系抽取的基础,实体关系抽取是事件发现和多种应用系统的基础。实体关系抽取的任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个实验性的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了特定关系抽取检索查询系统。本文的主要工作体现在以下几个方面: 1)命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法重点针对机构实体的识别,采用字典结合规则的方式,其中利用互信息原理对机构名简称进行识别,具有很高的准确率。 2)特定关系抽取及三元命名实体扩展算法:根据规则提取了某类特定实体关系,并对提取到的实体采用规则加迭代方式进行了关系扩展,具有很好的效果。 3)命名实体特定关系检索查询系统实现:本文介绍的命名实体特定关系检索查询系统采用模块化设计,总共包括六个主要的功能模块。

3.会议论文 张素香. 李蕾. 钟义信 基于自由文本的中文实体关系抽取研究 2005

针对信息抽取技术发展状况,本文基于信息抽取技术的发展历史,总结了目前世界上主要的信息抽取系统主要使用的相关技术和方法,分析它们的优缺点.在此基础上,结合全信息理论和机器学习,提出了基于全信息中文实体关系抽取模型,并对各个模块进行了详细地分析和阐述.

4.学位论文 牟晋娟 基于特征向量的命名实体关系抽取技术研究 2008

信息抽取是一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程,它旨在帮助人们在海量信息中迅速找到真正需要的信息。信息抽取对语言信息的自动化处理有重要意义。 实体关系抽取是信息抽取中的一个重要研究课题,其任务是寻找并判定实体对之间存在的特定关系。实体关系抽取作为一项基础性研究,对信息检索、问答系统、信息过滤、自动文摘、机器翻译以及数字图书馆建设有重要的意义。 当前实体关系抽取的主要技术有基于知识库的抽取方法、基于特征向量的机器学习方法、基于核函数的机器学习方法、基于模式的Bootstrapping方法。 本文在目前实体关系抽取的研究现状下,对实体关系抽取进行了比较深入的探讨。本文重点研究基于特征向量的实体关系抽取技术,该方法与上述其它实体关系抽取方法相比速度较快,构造方便并且具有很好的可移植性。 本文首先介绍了实体关系抽取的前续工作命名实体识别。本文使用隐马尔可夫模型与自动规则提取相结合的方法进行命名实体识别,该方法具有很高的准确率和召回率。 接着文中重点研究了关键问题实体对特征向量的构造方法并对其进行了改进,提出基于互信息的实体对特征向量构造方法;使用支持向量机作为命名实体关系识别的分类器;然后扩展现有的二元实体关系为三元关系,使实体关系抽取结果包含更为丰富的信息;最后设计实现了命名实体关系抽取系统。 实验结果表明本文提出的命名实体关系抽取方法有效地提高了中文命名实体关系抽取任务的性能并具有较好的泛化能力。在本文的最后,对此次研究工作进行了总结,并且说明了系统的一些不足之处和有待完善的方面,指明下一步的研究方向和研究重点。

5.期刊论文 徐健. 张智雄. 吴振新. Xu Jian. Zhang Zhixiong. Wu Zhenxin 实体关系抽取的技术方法综述 -现代图书情报技术2008(8) 对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解.在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴.

6.学位论文 田树华 中文命名实体关系抽取方法的研究 2008

信息抽取对语言信息的自动化处理有着重要的意义,而命名实体之间关系抽取是信息抽取中的一个重要研究课题。它与信息检索、问答系统、信息过滤有直接的关联,同时,作为一项基础性研究,它对于自动文摘、机器翻译、内容理解、语境生成、文本分类以及数字图书馆建设都有重要的意义。 命名实体之间关系的抽取,主要有知识工程和自动训练两种主要的方法。知识工程的方法有相对较好的效果。但是它也有明显的不足,知识工程方法的开发非常昂贵,且适应性不强。越来越多的学者开始致力于命名实体关系抽取的自动训练方法研究。 在目前命名实体关系抽取的研究现状下,本文对中文命名实体之间关系抽取进行了比较深入的探讨,主要工作是使用支持向量机(SVM)算法,利用自动训练的方法自动获取知识进行命名实体之间关系的抽取。本文研究工作主要包括以下几个方面。 首先介绍了信息抽取和命名实体之间关系抽取的意义,回顾了国内外信息抽取的研究状况,简述了自然语言处理和信息抽取中常用的模型和技术。第二章系统的阐述了信息抽取、命名实体识别和命名实体关系抽取的相关理论和背景知识。第三章是全文的核心,围绕着中文命名实体之间关系抽取的模型和步骤进行了讨论,并对其中的关键技术进行了研究,以实验的方式对所设计方法进行了验证,并对实验得到的数据进行了对比分析。

在前人研究工作的基础上,本文在以下几个方面做了相关研究和贡献: 研究了基于条件随机场的命名实体识别方法。 研究并应用了GATE自然语言处理与二次开发工具对中文命名实体关系进行抽取,研究了基于SVM的命名实体关系抽取方法。 通过本课题的研究,使命名实体之间关系抽取结果的性能得到了提高。本文提出的方法在开放语料的测试中,取得了平均85.1%的召回率和平均69.6%的准确率,从而验证了方法的有效性。

7.期刊论文 周峰. 吴斌. 石川 复杂网络构建中信息抽取技术综述 -数字图书馆论坛2008(6)

复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮.同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位.将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用.文章首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析.

8.期刊论文 牟晋娟. 包宏 中文实体关系抽取研究 -计算机工程与设计2009,30(15)

针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率.

9.会议论文 车万翔. 刘挺. 李生 实体关系自动抽取 2004

实体关系抽取是信息抽取研究领域中的重要研究课题.本文使用两种基于特征向量的机器学习算法,Winnow和支持向量机(SVM),在2004年ACE(Automatic Content Extraction)评测的训练数据上进行实体关系抽取实验.两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score分别为73.08﹪和73.27﹪.可见在使用相同的特征向量,不同的学习算法进行实体关系的识别时,最终性能差别不大.因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征.

本文链接:http://d.g.wanfangdata.com.cn/Conference_6481788.aspx

下载时间:2009年10月9日

基于SVM方法的中文实体关系抽取①

徐芬王挺陈火旺

国防科学技术大学计算机学院,湖南长沙,410073

E-mail:纽煎蛰H盘曲!塑

摘要:实体关系抽取是很多自然语言处理任务的重要基础。本文针对中文中实体关系的特点,设计了—系列的特征。包括词、词性标注、实体和出现信息、包含关系和知网提供自瞩念信息等,以构成实体问关系的上下文特征向量并使用SvII!方法进行了中文实体关系抽取。以ACE2004的训练语料作为实验数据・得到了较好的识别性能。同时根据分级实验的结果,考察了各种特征集对识别性能的影响,得到下—步研究的方向・

关键词:信息抽取、’实体关系抽取、ACE、特征选择、知网信息

SVM-basedOhineseEnti七yReIationExtraction

FenXuWangHuowang

SdloolofCom眦Sci锄%N枷lalTingofnIfa啪砒olo劬ChenUniversity

CI娜gsImHumm,410073

E-mail:fenx纽_udtedu.cn

Almtraee.EntityrelationexlllictionistheimportantbasoofmanyNIPtasks.This弘lp盯presets船workofChincse∞6lyrelationⅨ唿斑∞.Wedesignedthcconte=xtvectorbyusings,w-ralnewfeaturesincludingword,partofspe优htag,嘶andmention,overlapamdHowNetc0IlcepLBased011the=ogntextinformation,ma#ySVMclassifiertodetectemdd8ssi~therelationsbetween∞titi蘸WetakethetrainingdataofACE2004鹳our叩-fimeataldamandhaveSotenomm¥mgresults.The麟胁嘲衄remits啦锄ab蒯indetail,whichhdps璐inv=./¥at=theimpactofvariousfeaturesontheoxITactJon

I蛳orcls:Infonnatioopedbfm舶∞andgctthcwayofnextsty.

Bm翟=ti‘m,EntityRdationE.I出枷∞,AcE,姗f黯冀lcct蛔舀HowNetknowl。dge

1引言

信息抽取是指从无结构的文本中抽取出有结构的信息,从而可以被方便的访问和处理。信息抽取系统最基础的工作首先是命名实体识别,即把文本中特定种类的(如人名、地名等)实体及其特定的信息识别出来。抽取实体的目的是要获得它们之间相应的关系,关系抽取与信息检索、问答系统、信息过滤有直接的关联。如果不考察或不能正确考察实体之间的关系,文本信息的结构化则无从谈起。

对信息抽取研究影响最大的主要是由美国国防高级研究计划委员A(DARPA)资助的两个会议:消息理解系列会议(MUC)和自动内容抽取评测会议(ACE)。MUC会议使信息抽取发展成为自然语言处理领域一个重要分支,但已于199Sff-.4)可举办第七届会议后停办,之后美国国家①国家自然科学基金资助项目(60403050).稿件编号:056497

标准技术研究院(NIST)组织了ACE评测。-与MUC相比,ACE评测不针对某个具体的领域或场景,将信息抽取技术研究引向了新的高度。

目前关系抽取的研究方法都是将已抽取出的实体两两分为一对(成为一个实例),然后对这些实例进行分类。所以理论上用于分类的方法都可以用于关系抽取,主要有:基于知识工程的方法和基于机器学习的方法。基于知识工程的方法在某些领域取得了不错的效果,但是它要求编制规则的知识工程师对该知识领域有深入的了解,开发过程耗时耗力,并且系统移植困难。基于机器学习的方法只需要一个标注好的语料库进行训练,克服了上述的缺点,但其性能是需要改进的地万¨。

已经有很多机器学习的方法被用到了英文文本的关系抽取上,如:隐马科夫模型12J(HMM)、条件随机域(CRF)【3】、最大熵模型4j、支持向量机例,其中使用支持向量机方法得到的效果较好鳓。

而基于中文文本的关系抽取研究则属于起步阶段,方法较少,所抽取关系的类别也较单一。ACE评测的训练数据上,对ACE定义的7个实体关系大类(Type)进行抽取。2006#黼等人2004年车万翔等人【8J使用基于特征向量的机器学习算法、)vimlow和支持向量机SVM),在2004年例使用基于种子自扩展的方法,对《人民日报》1998年上半年的纯文本语料进行了’诃语切分和词语类型标注后作为其实验数据,对<国家,国家领导人>这类关系进行了抽取。2006年张素香等人L‘ol将极大熵算法和B∞ts缸appiII{;算法相结合,从网址为http缃wwA63.∞m中收集用于信息抽取的文本集合,在“人事变动领域”定义了“Per_Aff.Ei坤loymenf’、‘'Org_Aff.Employmenf’

和’"Positionof’三个关系进行抽取。

本文将会使用支持向量机(SⅥ田方法,基于前面的工作使用词、实体属性、实体间包含关系特征集,同时也新引入词性标注、实体“出现”属性以及知网概念信息特征集,毛E2004年A(=E评测的训练数据上,对A旺定义的7个实体关系大类(Type)、22个子类(Subtljpe)进行抽取。根据实验结果,分析了各种特征集合的选择对抽取性能的影响。

文章的第二节将简要介绍一下s、,M方法,第三节将列出所有使用到的特征集,第四节给出实验结果并分析,最后是本文的结论和对进—步工作的展望。

2SⅧ方怯简介

支持向量机(SVM)是ⅥlpIljl【等人【5】提出的一类新型机器学习方法,该方法是建立在统计学习理论的VC维理论和结构风险最小化准则基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。SⅥ订算法的出发点是寻找最优分类超平面。该超平面不但能将所有样本正确分开(训练错分率为0),而且能够使两类间的边际(margin)最大,边际定义为训练数据集到该分类超平面的最小距离之和。对于非线性可分的问题,可以通过非线性变换转化为某个高维特征空间中的线性问题,在该特征空间求最优分类面。

SVM构建了—个二值分类器,仅能够对两个类别进行分类,而关系识别是一个多分类问题。构造多分类器的方法有“一对多“(Om-against-aU)和“一对一”(OIP鹊萄璐№m)两种方法。虽然“一对一”的方法相对于“一对多”方法要训练更多的分类器,但每次的训练数据要小很多,从而从整体上节省了训练时间。所以,我们决定采用“一对一”的多分类方法。

3关系抽取选用的特征集

使用SVM方法进行关系抽取,最重要的就是选择合适的特征集。参考【6】川【8】的英文和中文实体关系抽取的特征选择方法,利用已有的中文分析工具,我们选择了词、实体属性、实体间包含关系特征集。同时,还新引入了词性标注、实体“出现”属性以及知网概念特征集。

两个实体构成一个实体对,即实例。为了表述的方便,用MI、M2来表示这两个实体,HMI、HM2为MI、M2的中心词。

3.1词特征集(Word)

一个实例涉及的两个实体以及这两个实体周围的一些词,是最基本的特征集。我们设计了一个词特征集,其中包括:M1、‘M2的词串、HMI、HM2的词串、Ml前两个词、M2后两个词、M1、M2间的词串。

3.2词性恃征集(Pos)

词特征集常常会太稀疏,所以考虑加入词性特征集,包括上述词特征集合中的词对应的词性标注。为获得词性标注信息,我们使用中科院词性标注系匀P进行词性标注。该系统对例句“俄罗斯外交部长在访美期间”的词性标注结果为:俄罗斯舾外交部长,n在砸访~美触期l'日-J/adv。3.3实体属性特征集(Entity)

实体的信息直接影响关系的分类,既然假设实体已经正确识别出来了,那么完全可以将实体的信息作为一个特征集。首先是实体属性特征集,包括:M1、IVl2的类、子类、级。

3.4实体“出现”特征集(Mention)在ACE2004蒯a,实体的每次“出现”都会被记录下来,记录的信息包括实体的这次“出现”涉及的范围和中心词,以及“出现”的类型,“出现角色”(只对GI砸类的实体),转义属性(如果有的话)。把这些有关实体的信息也作为—个特征集考虑进来,包括:M1、M2的出现类型、出现角色、转义属性。

3.5实体间包含关系特征集(Overlap)

两个实体的相对位置对关系的识别也有一定的作用,所以加入了实体间包含关系特征集,

包括:MI、M2间其他实体和其他词的个数,M1、M2两者间是否存在包含关系,以及实体属性特征、实体“出现”属性特征与包含关系的结合。

3.6知网概念信息特征集(Hownet)。

知网(HowNct)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,这种关系对实体关系抽取研究@http:/Avww.iotao.on/frecware/@http:IAvwwJmcnage.coln

将有很大的帮助。这里先简单利用“知网”中的概念信息构造了一个知网概念信息特征集,它主要是根据词和词的词性标注,查询知网2000版提供的词典,得到词在词典中对应的概念描述作为知网概念信息特征返回值。

知网概念信息特征集的设计与词、词性特征集的设计类似,由词特征集合中的词对应的知网概念信息特征返回值组成。

4实验结果与分析

4.1实验设计

首先我们使用GATE自然语言处理平台【121,将开源的中科院词性标注系统包装为G闽暖褥件,对原始文本进行分旬、分词、词性标注的处理。然后选用LIBSVM回作为SVM分类器,使用线形核函数和“一对一”方法解决多分类问题。

实验语料为2004年ACE评测提供的训练语料,共646篇标注好的语料(153,703字),6626个relation实例,106114d'mo-relation实例。所有数据被分为两个部分,4/5用作训练,1/5用作测试。

使用通常的准确率、召回率、Fl值作为评价标准,即:

准确率(Precision)

召回率(Reck)

.r.=~=

1一正确标注的关系的个数标注的关系的总个数正确标注的关系的个数正确的关系的总个数2×RecallxPrecisionRecall+Precision

统计发现各种关系类别分布得非常不均匀,所以我们对各个子类的准确率、召回率、Fl值进行微平均而得到最后的结果。

4.23种抽取任务的实验性能

本文定义了3种逐步细化的抽取任务:发现关系(判断两个实体间是否存在关系)、识别关系大类(判断两个实体间的关系属于哪一个大类)、识别关系子类(判断两个实体间的关系属于哪—个子类),每种抽取任务的完成为~个独立的实验,使用在第三节中设计的所有特征集,实验结果如表l:

表1.不同抽取任务实验结果

任务

发现关系

识别关系大类

识别关系子类准确率76.2474.9070.01召回率76.9272.1362.92F1值76.5873.4966.27

结果表明,随着任务的细化,问题的难度在逐渐增大,识别的性能逐渐下降。@http://www.micattu.edu.tw/oilin/libsvm

系大类识另归l值为73.27*/'d箍J结果相比,本文的结果要稍好一点。更进一步,本文在J虹这样大规模真实语料上,对中文实体关系抽取中特征集的作用进行了研究,对不同特征集在不同层次的关系抽取任务中的影响进行了实验和分析。国内研究者在A(删语料上对关系的大类进行了抽取嗍,与文献【8】使用S、M方法进行关

毛3不同特征集对实验性能的影响

进—步的实验从最基本的词特征集开始,逐项的增加特征集,从而考察特征集的增加对实验性能的影响,3项任务的实验结果如下表所示:

表2.3项任务的特征集累加实验结果

关系大类识别

F1值

62.10

66.26

65.66

7L39\《务Word+Pos+Entity‘关系发现关系子类识别F1值‘准确率54.3655.2868.1667.18

67.10

70.01特征套\准确率61.1467.9675.7972.0974.4276.24召回率63.09准确率49.5949.8567.7768.5170.2174.90召回率40.9450.4867.9269.4772.6572.13召回率32.6437.0755.9857.7560.4162.92F1值40.7944.3861.4762.1163.5866.2744.8550.1667.8468,9971.4l73.4964.6457.9170.7l81.3676.92+Mention+0verlap+HowNet77t7376.58

虽然有个别的例外,但三项任务的实验结果大体上还是可以反映出实验性能随着特征集的扩大而增加的规律。其中实体的属性特征集在识别关系大类和子类的任务上使性能提高最大①l值分别提高了17.68%、17.09呦,词性特征集使3个任务的性能都提高较大但1值分别提高了4.16%、5.31%、3.59哟,实体间包含关系特征集饵l值分别提高了6.34%、2.42%、1.47呦和知网概念信息特征集(识别关系大类和子类的Fl值分别提高了2.08%、2.6呲使性能有所提高。并且这些数据田l值分别提高了1.15%、O.64绚则对识别大类和子类任务的性能影响不大。也说明随着任务的细化,词性和实体间包含关系特征集的作用越来越弱,而知网概念信息特征集在提高性能上的作用则越来越明显,甚至超过了包含关系特征集的作用。而实体“出现”特征集

研究者常常假设实体已经被正确识别并按√6她的标准标注出来了,但实际的J隋况经常并没有这样理想。所以下面将假设再放宽一些,即假设只是发现了实体,但并没有按ACE的标准标注出来,也就是特征集的选择减少为只有词、词性、知网概念信息特征集3项。实验结果如下:表3.3项任务的新特征集累加实验结果

关系发现

准确率

61.14

67.96

71.23\堆务Word+PoS+HowNet特斌关系大类识别Fl值62.1066.2670.97关系子类识别F1值准确率54.3655.2863.35召回率63.09准确率49.5949.8562.96召回率40.9450.4850.25召回率32.6437.07F1值40.7944.3849.3944.8550.1655.8964.6470.7140.47

同样是使用全部的可选特征集,相比之前的识别性能,新的实验结果差了很多(F1值分别下降了7.23%、17.76%、16.98%),再次说明了实体识别的性能对关系识别的影响之大。还可以501

发现,知网概念信息特征集对性能提高的作用更明显了(F1值分别提高了4.71%、5.73%、5.01%,相比于之前的识别关系大类和子类的Fl值分别提高了2.08%、2.69%),这说明了知网知识在关系识别上的可利用性,有进一步将其与关系抽取相结合的必要。

5结束语

本文介绍了使用SⅥ肪法对中文文本中的实体关系进行识别的工作。以2004年ACE评测的训练语料为实验数据,基于已有的工作使用词、实体属性、实体间包含关系特征集,同时也新引入词性标注、实体“出现”属性以及知网概念特征集,对实体关系发现、关系大类识别、关系子类识别3个任务进行实验,考察了不同的特征集对识别效果的影响。

实验结果显示:识别任务要识别的类别越细,识别性能越低。特征集的选择对识别效果影响很大,特征集的增大有利于效果的提高,其中词性、实体属性特征集对关系抽取的影响较大,知网知识在关系抽取方面也有较强的可利用性。识别任务要识别的类别越细,越有必要开发丰富合适的特征集,来保证稳定的识别效果。

根据上面的结论,我们下一步的工作将是寻找更多更合适的特征,如添加组块、句法、语义等特征,更好的利用已有的“知网”信息结构框架等。

参考文献

【1]Appclt,D.:AnIntroductiontoInformationExl/ll西on.AaificialIn纠lig哪ceCommunications,12(3)0999)161—172

【2】Fmtag,D.,mdMeCallumA.:lnform面on

Proceedingsofthe7thConference

Appiicalionson6XtlB吐ionwithHMMslruomreslearnedbystochasticoptimizalim.onArlifieiaIIntelligenee(AAAV00)andofthe12thConferenceInnov碰vcofAaif虻ialhl伽i8朗∞(IAAI-00),584.--559,McnloPark,CA.AAAIPress(2000)

fields:Probabilisticmodelsforsegmentingandlabeling【3】Laffmy,J.,MeCallum,A,Penira.F.:Conditionalrandom

踟l∞∞data.InProc.18thInlernationalCon£011MachineLearning.CA(2001)282-289

【4】Kambhatla,N.:Combining

reJalions.Proceedingslexical,synlacdeandsemandofcmur器withMaximumEnlropymodelsfor酬喊of42thAmatmlMeetingoftheA5氍x泌∞forComputeaiotmlLinguistic.21-26JulyBar∞lom,Sr蛆in(2004)

[5]Vapnik,v.:Slalisticalt,伽r.ing'rheory.JohaWiley(1998)

【6】ZhouG.,踟,J.,Zhang,J,,Zhang,M.:CombiningVariousKnowledgein

AnnualMeetingofli奄AssociationforRel斌ionExlnletion,Proe∞dingsofthe43thC0iIIflltatimalLinguistics(2005)

ofI-limarchical【刀TingWang,YaoyongIa,KalinaBontoheva,HamishCurmingham,andJiWang,AutomaticExtraction

RclmionsfromText,Proc.ofthe3rdEurolx粕SemmticWebConfercnce.'Springcr-V醴agLectureNotesinComlmterScicn∞401I,P.215-229

【8】车万翔、支Ⅱ挺、李生:实体关系自动抽取。中文信息学报,第19卷第2期

【9】何婷婷、徐超、李晶,赵君拮:基于种子自扩展的命名实体关系抽取方法。计算机工程,第32卷第2l期

【lo】张素香、文娟、秦颖、袁彩霞、钟义信:实体关系的自动抽取研究。哈尔滨工程大学学报,第27卷增刊

【11JCunningham,H.,Maynard,D.,Bonteheva,K,Tablem,v.:GATE:AFrameworkmdGmph/calDevelolanentEnvironmentforRobustNLPToolsandApplications,n∞∞血gsof曲曙40llIAnn鲰穰哆MeetingoftheAssociation

Lmguisli%.PhiIaddplIia'July(2002)forComputational

基于SVM方法的中文实体关系抽取

作者:

作者单位:徐芬, 王挺, 陈火旺国防科学技术大学计算机学院,湖南 长沙,410073

相似文献(9条)

1.学位论文 刘克彬 基于核函数的命名实体关系抽取技术研究 2006

随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个完整的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了基于改进的语义核函数的关系抽取系统。 本文的成果和贡献主要体现在以下几个方面: 1) 命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法采用字典结合训练规则的方式,具有很高的准确率和召回率。 2) 基于核函数的关系抽取算法的研究和改进。这部分是本文的主要工作,包括几个部分: A) 首先是对现有的核函数进行归类,研究它们的优点和不足并加以总结。 B) 选择具有多种优良性质的序列核函数作为主要研究对象,对其进行了较大的改进,得到一种语义序列核函数。这里的语义核函数指的是将语义知识嵌入到核函数的计算过程中,在不增加计算复杂度的情况下显著提升了学习算法的分类以及泛化能力。 C) 语义知识的获取也是比较重要的一部分工作,本文的语义知识获取充分利用了著名的中文语义本体Hownet。 D) 实现了基于语义核函数的KNN学习算法并应用于关系抽取系统,与其他关系抽取系统相比,本文的方法具有较高的准确率以及良好的泛化能力。 E) 扩展现有的二元实体关系为三元关系,使关系抽取结果包含更为丰富的信息。 3) 命名实体关系抽取系统实现:本文介绍的关系抽取系统采用模块化设计,总共包括8个主要的功能模块。这些模块都具备两种不同的实现方式,一种是Gate自然语言处理平台下插件形式的实现,一种是独立的Java应用实现。因此本文的整个系统既可以作为Java独立应用运行,也可以作为Gate环境下的插件自由组合以满足各种不同应用的需要。

2.学位论文 张婷 基于迭代方法的命名实体关系抽取技术研究 2008

随着互联网的普及,信息的数量与日俱增,人们需要从海量的信息中提取真正需要的信息,信息抽取的研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取的基本任务包括命名实体识别和实体关系抽取。其中命名实体识别是实体关系抽取的基础,实体关系抽取是事件发现和多种应用系统的基础。实体关系抽取的任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个实验性的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了特定关系抽取检索查询系统。本文的主要工作体现在以下几个方面: 1)命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法重点针对机构实体的识别,采用字典结合规则的方式,其中利用互信息原理对机构名简称进行识别,具有很高的准确率。 2)特定关系抽取及三元命名实体扩展算法:根据规则提取了某类特定实体关系,并对提取到的实体采用规则加迭代方式进行了关系扩展,具有很好的效果。 3)命名实体特定关系检索查询系统实现:本文介绍的命名实体特定关系检索查询系统采用模块化设计,总共包括六个主要的功能模块。

3.会议论文 张素香. 李蕾. 钟义信 基于自由文本的中文实体关系抽取研究 2005

针对信息抽取技术发展状况,本文基于信息抽取技术的发展历史,总结了目前世界上主要的信息抽取系统主要使用的相关技术和方法,分析它们的优缺点.在此基础上,结合全信息理论和机器学习,提出了基于全信息中文实体关系抽取模型,并对各个模块进行了详细地分析和阐述.

4.学位论文 牟晋娟 基于特征向量的命名实体关系抽取技术研究 2008

信息抽取是一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程,它旨在帮助人们在海量信息中迅速找到真正需要的信息。信息抽取对语言信息的自动化处理有重要意义。 实体关系抽取是信息抽取中的一个重要研究课题,其任务是寻找并判定实体对之间存在的特定关系。实体关系抽取作为一项基础性研究,对信息检索、问答系统、信息过滤、自动文摘、机器翻译以及数字图书馆建设有重要的意义。 当前实体关系抽取的主要技术有基于知识库的抽取方法、基于特征向量的机器学习方法、基于核函数的机器学习方法、基于模式的Bootstrapping方法。 本文在目前实体关系抽取的研究现状下,对实体关系抽取进行了比较深入的探讨。本文重点研究基于特征向量的实体关系抽取技术,该方法与上述其它实体关系抽取方法相比速度较快,构造方便并且具有很好的可移植性。 本文首先介绍了实体关系抽取的前续工作命名实体识别。本文使用隐马尔可夫模型与自动规则提取相结合的方法进行命名实体识别,该方法具有很高的准确率和召回率。 接着文中重点研究了关键问题实体对特征向量的构造方法并对其进行了改进,提出基于互信息的实体对特征向量构造方法;使用支持向量机作为命名实体关系识别的分类器;然后扩展现有的二元实体关系为三元关系,使实体关系抽取结果包含更为丰富的信息;最后设计实现了命名实体关系抽取系统。 实验结果表明本文提出的命名实体关系抽取方法有效地提高了中文命名实体关系抽取任务的性能并具有较好的泛化能力。在本文的最后,对此次研究工作进行了总结,并且说明了系统的一些不足之处和有待完善的方面,指明下一步的研究方向和研究重点。

5.期刊论文 徐健. 张智雄. 吴振新. Xu Jian. Zhang Zhixiong. Wu Zhenxin 实体关系抽取的技术方法综述 -现代图书情报技术2008(8) 对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解.在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴.

6.学位论文 田树华 中文命名实体关系抽取方法的研究 2008

信息抽取对语言信息的自动化处理有着重要的意义,而命名实体之间关系抽取是信息抽取中的一个重要研究课题。它与信息检索、问答系统、信息过滤有直接的关联,同时,作为一项基础性研究,它对于自动文摘、机器翻译、内容理解、语境生成、文本分类以及数字图书馆建设都有重要的意义。 命名实体之间关系的抽取,主要有知识工程和自动训练两种主要的方法。知识工程的方法有相对较好的效果。但是它也有明显的不足,知识工程方法的开发非常昂贵,且适应性不强。越来越多的学者开始致力于命名实体关系抽取的自动训练方法研究。 在目前命名实体关系抽取的研究现状下,本文对中文命名实体之间关系抽取进行了比较深入的探讨,主要工作是使用支持向量机(SVM)算法,利用自动训练的方法自动获取知识进行命名实体之间关系的抽取。本文研究工作主要包括以下几个方面。 首先介绍了信息抽取和命名实体之间关系抽取的意义,回顾了国内外信息抽取的研究状况,简述了自然语言处理和信息抽取中常用的模型和技术。第二章系统的阐述了信息抽取、命名实体识别和命名实体关系抽取的相关理论和背景知识。第三章是全文的核心,围绕着中文命名实体之间关系抽取的模型和步骤进行了讨论,并对其中的关键技术进行了研究,以实验的方式对所设计方法进行了验证,并对实验得到的数据进行了对比分析。

在前人研究工作的基础上,本文在以下几个方面做了相关研究和贡献: 研究了基于条件随机场的命名实体识别方法。 研究并应用了GATE自然语言处理与二次开发工具对中文命名实体关系进行抽取,研究了基于SVM的命名实体关系抽取方法。 通过本课题的研究,使命名实体之间关系抽取结果的性能得到了提高。本文提出的方法在开放语料的测试中,取得了平均85.1%的召回率和平均69.6%的准确率,从而验证了方法的有效性。

7.期刊论文 周峰. 吴斌. 石川 复杂网络构建中信息抽取技术综述 -数字图书馆论坛2008(6)

复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮.同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位.将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用.文章首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析.

8.期刊论文 牟晋娟. 包宏 中文实体关系抽取研究 -计算机工程与设计2009,30(15)

针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率.

9.会议论文 车万翔. 刘挺. 李生 实体关系自动抽取 2004

实体关系抽取是信息抽取研究领域中的重要研究课题.本文使用两种基于特征向量的机器学习算法,Winnow和支持向量机(SVM),在2004年ACE(Automatic Content Extraction)评测的训练数据上进行实体关系抽取实验.两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score分别为73.08﹪和73.27﹪.可见在使用相同的特征向量,不同的学习算法进行实体关系的识别时,最终性能差别不大.因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征.

本文链接:http://d.g.wanfangdata.com.cn/Conference_6481788.aspx

下载时间:2009年10月9日


相关内容

  • 复杂中文文本的实体关系抽取研究
  • 第36卷 第8期计算机科学Vol. 36No. 8复杂中文文本的实体关系抽取研究 王 苑 徐德智 陈建二 (中南大学信息科学与工程学院 长沙410083) 摘 要 实体关系抽取是信息抽取研究领域中的重要研究课题之一.针对已有方法在处理复杂文本上的不足, 提出 了复杂中文文本的实体关系抽取方法.结合中 ...

  • 检索报告书写样例
  • 文献检索综合报告 题目:玻璃纤维用聚酯乳液的研制及应用 姓名 罗元彬 学院 班级 学号 教师 1.课题分析(技术要点介绍) 玻璃纤维新品种的开发,其关键在于浸润剂技术.浸润剂中重要组份是成膜剂.除对纤维起保护作用外,它对玻璃纤维硬挺性集束性.短切性.分散性,浸透性 等起着关键的作用.因此,研制出所希 ...

  • 文本分类方法比较研究
  • 摘 要:随着Internet的不断发展,电子文本信息急剧增加,如何有效地组织和管理这些海量信息,并且能够快速准确地获得用户所需要的信息是当今信息科学技术领域的一大挑战,对电子文本进行有效管理的方法之一就是文本分类.文本分类是一项重要的智能信息处理技术,在信息过滤.信息检索.文本数据库和数字图书馆等方 ...

  • 情感倾向性分析调研
  • 意见挖掘研究的目的 目前 , 互联网上的信息与日剧增 , 蕴藏着巨大的信息量.但是 , 要想在很短的时间内获得人们对于诸如人物.事件.传媒.产品等有价值的评价信息 , 往往是十分困难的.例如 , 对产品的各种评价出现在各大论坛.电子公告板以及门户网站上 , 厂商需要了解顾客使用其产品的反馈意见 , ...

  • 基于FC和VPRS的信用风险评价研究
  • 作者:郭军华李帮义 预测 2010年01期 1 引言 信用风险评价是商业银行贷款的重要依据.世界银行对全球银行业危机的研究表明,导致银行破产的主要原因就是信用风险[1].随着2007年我国银行业的全面放开,我国商业银行面临的竞争更加剧烈,如何科学.合理地对企业做出正确的信用风险评价,是一个值得研究的 ...

  • 问答式信息检索技术
  • 2008年10月第25卷第5期沈阳航空工业学院学报 JournalofShenyangInstituteofAeronauticalEngineeringOct.2008Vol.25 No. 5 文章编号:1007-1385(2008)05-0063-05 问答式信息检索技术 白 宇 周俏丽 蔡东风 ...

  • 大规模知识图谱的构建.推理及应用
  • 随着大数据的应用越来越广泛,人工智能也终于在几番沉浮后再次焕发出了活力.除了理论基础层面的发展以外,本轮发展最为瞩目的是大数据基础设施.存储和计算能力增长所带来的前所未有的数据红利. 人工智能的进展突出体现在以知识图谱为代表的知识工程以及以深度学习为代表的机器学习等相关领域. 未来伴随着深度学习对于 ...

  • 音乐命名实体识别方法
  • 收稿日期:2010-04-30;修回日期:2010-07-16" 基金项目:国家自然科学基金资助项目(60973069);华为高校技术合作基金资助项目(2008126)" 作者简介:佘俊(1973-),男,四川彭州人,高级工程师,主要研究方向:商业智能!知识管理; 张学清(198 ...

  • 一种基于SVM的交通流量预测方法
  • 一种基于粒子群优化SVM 的交通流量预测方法 王 惟 (晋中学院数学院,山西 晋中 030060) 摘要:交通流量的预测是实现智能交通的重要基础,为此本文提出了一种基于改进型支持向量机算法的短时交通流量预测方法.首先使用支持向量机算法对交通流量进行非线性回归预测,同时使用改进QPSO 算法训练神经网 ...