基于同义词的词汇情感倾向判别方法

第23卷第5期2009年9月

中文信息学报

JOURNAI。oFCHINESEINFORMATl0NPRoCESSING

V01.23,No.5

Sep.,2009

文章编号:1003-0077(2009)05—0068—07

基于同义词的词汇情感倾向判别方法

王素格1’3,李德玉2”,魏英杰4,宋晓雷1

(1.山西大学数学科学学院,山西太原030006;2.山西大学计算机与信息技术学院,山西太原030006;3.山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006;4.科学出版社,北京100717)摘要:词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词袁相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感

倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表

明,基于同义词的词;r-情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。关键词:计算机应用;中文信息处理;词汇情感倾向;基准词;关联强度;同义词

中图分类号:TP391

文献标识码:A

ASynonymsBased

WordSentiment

OrientationDiscriminating

WANGSu-gel”,LIDe-yu2“,WEIYing-jie4,SONGXiao-leil

(1.Schoolof

2.Schoolof

MathematicsScience,ShanxiUniversity,Taiyuan030006,China;

Computer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China;

MinistryofEducation,

3.KeyLaboratoryofComputationalIntelligenceandChineseInformationProcessingof

ShanxiUniversity,Taiyuan030006,China;4.Science

Press,Beijing100717,China)

Abstract:Thewordsentimentorientationdirectlyinfluencesthesentimentorientationofhigherlevellinguisticunit,such

flS

thephrase,thesentence,theparagraphandthetext.This

on

paperproposes

paradigmwordselectionmeth—

odbasedthe

category

distinguishingabilityof

word

andthesentimentwordtable.Inconsiderationofthat

propose

wordusuallyhasthesamesentimentorientationwithitssynonyms,wetation

methodforwordsentimentorien—

issuein

on

discriminatingbased

on

synonyms.Themethod

can

avoidthedata

tO

sparseness

certainextent.The

para+

experimentresultsindicatethattheproposedmethodissuperiordigmwords.Key

themethodbasedthe

objectwordand

words:computerapplication;Chineseinformationprocessing;wordsentimentorientation;paradigmword;re—

lationintensity;synonym

计算语言学中,利用小粒度语言单元研究较大粒度

引言

从语言学角度,语言粒度从小到大依次为语素、

语言单元是一种基于解析思想的常用方法。

作为最小语言粒度的语素,它是最小的音义结合体,其主要功能是构词。因此,在已有文本情感倾向分析的研究中,大多选择词作为基本的语言粒度,利用词的情感倾向确定搭配、句子、文本等的情感倾

词、短语、句子、段落、篇章。文本的语义信息蕴含于各个层次的语言粒及语言粒的各种语法关系中。在

收稿日期:2008一10一15定稿日期:2009-05-04

基金项目:国家自然科学基金资助项目(60875040);教育部科学技术研究重点基金(2007018);教育部高等学校博士点基

金(200801080006);山两省自然科学基金资助项目(2007011042);山西省重点实验室开放基金资助项目;山西高校科技研究开发项目(200611002)

作者简介:王素格(1964一),女,博士,副教授,主要研究方向为自然语言理解、文本挖掘;李德玉(1965一),男,教授,博导,主要研究方向为计算智能与数据挖掘;魏英杰(1982一),男,硕士,主要研究方向为文本挖掘与自然语言处理。

5期王素格等:基于同义词的词汇情感倾向判别方法69

向[1嵋]。Turney91]通过分析词汇上下文信息研究其情感倾向,采用PMI—IR方法,使用两个词汇作为种子来判断其他短语的语义倾向。之后,他们又在文献[-2-3]中将单对种子扩展成多对种子,选取了正反面各7个词汇,分别采用PMI—IR和LSA两种方法来度量给定词汇与基准词的关联度,确定词汇的语义倾向,实验结果表明,PMI—IR算法优于LSA方法。Dave等n1利用信息抽取技术从语料中产生特征(词汇),以Bayes网络为丁具分析各词汇与已标定情感类别文档之间的关系,进而计算各词汇的得分用于判定词汇的语义倾向。汉语词汇的情感倾向研究方面,香港城市大学的Yuan等曲3在Turny的工作基础上,对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等∞],提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法,通过计算目标词汇与HowNet中已标注褒贬性词汇间的相似度,获取目标词汇的倾向性。大连理t大学的徐琳宏等【73采用HOWNet作为基准词,通过计算目标词与基准词的关联度,确定目标词汇的语义倾向。中国科学院自动化研究所的王根、赵军[81提出了词语倾向性的极坐标方式,并使用了均衡化的互信息方法探讨了词语独立于上下文的自身倾向性。

上述文献[1—3,6—7]仅采用了目标词与基准词的关联强度来确定目标词的情感倾向,并没有考虑目标词与其同义词的关系,同时也没有对基准词的选择进行相关的研究。本文提出了基于类别区分能力与情感词表相结合的基准词选取方法,然后根据词汇与其同义词很大程度上具有相同的情感倾向的特点,提出了基于同义词的词汇情感倾向判别方法,该方法不仅考虑了目标词与基准词的关联强度,而且也考虑了目标词的同义词与基准词的关联强度。

2词与词集间关联强度度量

(1)词与词间的关联强度点互信息(PointWiseMutual

Information,

PMI)是信息论中度量两个随机变量间统计依赖性的一种测度。利用PMI可以度量人们在使用某两个词的统计依赖性。设有两个词wordl和word2,将两个词的使用看作两个随机变量,仍以wordl和word2记之,进而有随机向量(wordl,word2)。在计算语言学中,常借用随机变量wordl和word2的PMI值度量两个词wordl和word2的统计依赖

性01t2‘。

两个词wordl和word2之间的点互信息PMI

(wordl,word2)定义为:

PMI(ztordl,uord2)一logz(篇黯器)

(1)

在实际应用中,公式(1)中的概率可以通过语料中两个词的同现信息进行估计。因此有下面的近似公式:

PMI(uordl,uord2)

≈logz

I瓦i瓦磊万万丐■万页i丽J

,N×hits(wordl,word2)、

,”¨’

这里,N表示语料库中总的词次数,hits(wordl)和hits(word2)分别表示wordl和word2在语料库中出现的次数,hits(wordl,word2)表示wordl和word2在语料库中限定观察范围的同现次数。

(2)词与词集间关联强度

词与词集间关联强度可由词与词间关联强度来计算。设word是一个词,wordSet是一个词集,定义词word与词集wordSet的关联强度如下:

一删乏一崦z(篇揣

P』Ⅵ,(v.ord,ztordSet)

(3)

3基于同义词的词汇情感倾向判别

基准词集:基准词集是指褒贬义倾向非常明显、强烈、具有代表性的词汇所构成的集合。基准词集被分为褒义基准词集和贬义基准词集,分别记为

Pwords和Nwords。

词的情感倾向强度:一个词的情感倾向强度可由该词与褒义基准词集和贬义基准词集的关联强度的差来计算,由公式(3),设word是一个词,则word的情感倾向强度SO—PMI(word)为:

sD—PMI(v.ord)

加口r西Ec口耐,

∑PMI(word,pword)一

。。怠。rd,

PMI(uord,删ord)

(4)

再由公式<2)和(4),得出印一PMI(uord)划082

I彳产面面广亍篙蒜J

fⅡhits(uord,加ord)Pihits(nword)l

舰s(加一)

础s(伽耐,舢0耐)J

(5)

70

中文信息学报

2009盔

一个词与褒义基准词集的关联强度越大,则该词倾向于褒义的程度就越大,反之,它与贬义基准词集的关联强度越大,则其倾向于贬义的程度就越大。词的情感倾向强度SO—PMI(word)刻画了一个词更倾向于褒义还是贬义的程度。

基于同义词的词汇情感倾向强度:设word是一个词,T={口;)譬。是词word的同义词集合,为了区分词与其同义词对词汇情感倾向强度判断的贡献,将口,口作为权重,构造出如下计算word的词汇情感倾向强度公式:

New—sD—PMI(饥ord)

一---Og・ls0一PMI(word)

+p・2:s。一PMI(口;)(6)

二五

’这里口+卢一1,口,p分别表示目标词与其同义词的情感倾向强度对最后目标词的情感倾向强度的影响程度。特别地,当a一1、p=0时,New—SO—PMI

(word)=S0

PMI(word),即为直接使用词的情感

倾向强度。

由于写作的习惯不同,不同的作者在撰写评论时,会使用不同的词汇表达相同的意思。即使同一作者,在一篇评论中也常常为避免重复而使用同义词和近义词表达相同的意思。比如,真实语料中有下面两个例句:

(1)新POLO的悬架经过调拨后,舒适性有所增强,配合舒适的座椅,那种冲过坑洼的颠簸感只是在踏板上能有清晰感觉。

(2)新车强调驾乘乐趣,即保证宝马良好操纵性能的基础上加强乘坐的舒适性,着力营造良好的

商务空间。

在这两个句子中“增强”和“加强”是同义词,在同义词词林中列出词条“增强”、“加强99、6‘提高”、“增高”、“增进99、66增长”、“滋长”、“如虎添翼”均为同义词。

就考察词的倾向性而言,从统计词的角度看,将一个词与其同义词或近义词按不同词对待,将会导致大量稀疏数据。

在自然语言处理中,数据稀疏一直是困扰人们的一大问题,单纯考察一个词与褒贬义基准词集的同现信息就会遇到数据稀疏问题。这里,我们提出的基于同义词的词汇情感倾向强度计算方法,利用一个词的同义词集来重新定义该词的情感倾向强度,在某种程度上弱化了数据稀疏问题。

词汇情感倾向类别确定:

对一个词word,利用公式(6)可以计算其情感

倾向强度,设口。,晚(曰。≥02)是两个实数,称为阈值,词word的情感类别So(word)可由判别公式(7)得到。

So(word)

f褒义,New—SO—PMI(word)>0l

一.{中性,

岛≤New一1s。一PMI(uord)≤0。(7)

【贬义,New一's0一PMI(zmrd)<02

4基准词的选取方法

由第3节知,词汇的情感倾向强度计算需要基准词集,而基准词是指具有非常明显、褒贬义倾向的代表性词汇。为此,本文提出了基于词汇的类别区分能力与情感词表相结合的基准词选取方法。

情感词表主要借助GeneralInquirer(GI)词典、《学生褒贬义词典》[9。、《知网》、《褒义词词典》[10]、《贬义词词典》[1u五种资源构建的中文情感词词表,记为SWT。该词表共收录词条15886个(正面

427个,反面7459个),其中仅来源于一部词典的

词条11682个(iE面为6129个,反面为5553个)。另有来源于多个词典的词条4204个(正面为2298

个,反面为1906个)。详细情况参见文献[-127。

词汇的类别区分能力的度量采用一种与文本长度无关的基于词频(频率)概率估计的Fisher准则函数计算方法[1引。

设正面文本有m篇,记为dP。,(i一1,2,…,m),d蹦的总词次记为铆蹦,特征项tt在dP。i中出现的次数记为WP.,(“)。设反面文本有咒篇,记为d¨(J一1,2,…,咒),dM的总词次记为口M,特征项tI在d¨中出现的次数记为WM(“)。从m个正面文本

中任取一篇,显然P(d蹦)一去,现以竺篆导代替文

本dP∽则有随机变量X1:P(de.。)=Pf坐型1=

三(i一1,2,…,77z)。对反面文本作类似的考虑,则

有随机变量x2:P(巩≯一P(竺笔警卫)一丢(』=

1,2,…,,z)。这样则有,

E(t。IP)一E(X1)一1∑婴丛盟,

1n;五

‘up.i

E(t。I

N):E(X2)=土∑型,

j一1

。UN・i

眦・,一去善(掣咽X1))2,

5期王素格等:基于同义词的词汇情感倾向判别方法71

粥2,一吾耋(掣一E(X2))2

基于词频(频率)概率估计的Fisher准则函数计算有:

mX

DCBwordSet中的正反类别中各前N个词,作为最终选定的褒贬基准词集BWordSet。

X(行×砉掣二m×宴掣)2拟耋(m×掣一耋掣)2耐×骞(以×掣一骞掣)2

川一等摧箨帮

5实验结果与分析

为了测试本文提出方法的有效性,我们选用来自汽车点评网自建的语料。本语料收集了国内外11种品牌的轿车,评论时间集中于2006年1月至2007年3月间的部分评论文本,总计1006篇约100万字,正面文本578篇,反面文本428篇。情感词表选用仅来源于一部词典11682个词条,同义词词集采用张伟等人编纂的《学生褒贬义词典》[9]和哈尔滨工业大学信息检索研究室提供的《同义词词林扩展版》[133两部词典。

评价指标采用标注精确率(P)、召回率(R)和F值以及正反面精确率(PP、NP)、正反面召回率(PR、NR)和正反面F值(PF、NF)。由于本文只对词汇的两种情感倾向性进行判别,因此总体的评价指标P—R—F。

根据第4节中基准词选取步骤,选取M一

(8)

基于词汇类别区分能力与情感词表相结合的基准词选取方法的具体步骤:、

1)利用公式(8),计算语料库中名词、形容词和动词的类别区分能力,选出区分能力较强的词M个,获得词集CWordSet。

2)用词集CWordSet与情感词词表SwT做交集,得到词集CBWordSet,并将CBWordSet中的词按照其在语料中出现的次数排序,得到的词集记为

DCBWordSet。

000,N一40,得到褒贬基准词集如表1、表2所示。

3)根据事先设定的基准词个数N,选取词集

表1褒义基准词集

风格乐趣满足

安全优势省油享受

不错保证

先进出色

喜欢加速实在漂亮适合

舒适豪华稳定保护轻松

满意爱品质值得完美

解决提升

全新

成功提高

舒服

最好平稳

方便好车

优点

良好

实用

表2贬义基准词集

碰撞

不足

噪音故障怀疑隐患

事故毛病

不好撞击断粗糙

严重

断裂危险颠簸

下降

失望震动造成

缺点担心损失难看

不够倒噪声不爽

死车祸麻烦伤害

缺陷不行后悔

郁闷

变形

遗憾

冲击

恐怕

测试词集选用语料中的词集与情感词汇词表交集的词汇,共有2958个。采用两种方式进行实验。

1)面向语料

为了验证本文方法的有效性以及与领域的相关性,实验选用的测试语料为1006篇汽车评论,观察同现窗口长度设定为24个词位,词汇情感强度计算分别采用公式(5)和公式(6),阈值的选取采用试验法。

实验1:为了验证本文提出的情感基准词选取

方法的优势,将本文选出的基准词与文献E6]列出的基准词进行了对比实验,基准词分别选出40对、前10对和前5对。测试结果见表3。

由表3可知:

①随着基准词数量的增加,词汇的情感倾向判别的精确率逐渐升高。

②利用本文选择的基准词得到的词汇情感分类结果整体优于文献1-6]提供基准词的结果。

72

中文信息学报

2009焦

表3不同基准词对词汇情感倾向判别的影响

基准词

OO.5O

40对

阈值

—O.340

10对

P/%

67.5169.8156.2861.16

5对

P/%

阈值

—O.5526一O.55262.2742.274

Oo

阈值

一O.552

P/%

65.78

167.OO68.7346;1455.10

本文

0.51

一O.17454.069

一O.18232.49032.5142

67.4145.2054.77

文献E6]

o.5

O.5

3.3618

③在两种基准词集下,采用基于同义词的词汇的情感倾向判别的精确率相比基于词的词汇的情感倾向判别的精确率有所提高。特别地,采用文献E63中的基准词的提高幅度较大,当选用5对基准词时提高了9.57%,说明文献E6]中的基准词具有通用性。

综合上述结果说明,在特定领域中,若统计文献E63中的基准词与其他词汇的同现次数时,将会出现大量的数据稀疏现象,若采用基于同义词的词汇的情感倾向判别,在一定程度上可以减少数据稀疏,并提高词汇的情感倾向判别精度。但总体上,采用文献F6]中的基准词得到词汇情感倾向判别的结果逊色于本文的方法,因此,对特定领域的情感倾向性判

表4

方法

别,应选择面向领域的基准词集,避免使用通用基准词集。以下实验中的基准词集均选用表1和表2中的40对基准词。

实验2:由于我们采用的基于同义词的词汇的情感倾向判别方法,在一定程度上依赖于词的同义词,因此,采用了以下两种方法进行了对比实验。

方法A(基于同义词的词汇情感倾向判别):对口和口,分别采用五组不同的值得到词的情感倾向;

方法B(直接使用同义词词典):采用基准词的情感倾向和同义词词典,用于词的情感倾向判别。

上述两种方法得到实验结果见表4。

采用方法A和方法B的词汇情感倾向判别结果

阈值

O0.2O.3

O.4

PPPRPFNPNR

NFP

一0.3404—0.0849一O.139

72.0973.1673.0473.1072.8998.70

85.4888.2188.3588.6088.757.53

78.2179.9879.9780.1180.0414.OO

48.1454.6754.5555.0854.6992.31

28.9430.51

30.OO

36.15

39.18

67.5169.8869.8169.9869.816.36

O.8

方法AO.7O.6

O.5

38.7138.8438.03

7.54

一O.19.88一O.17.45

30.0029.153.83

0.5

方法B

实验3:为了进一步说明同义词在词汇情感倾向判别的作用,我们去掉没有同义词的词,仅仅对含

表5

方法

有同义词的词采用方法A和方法B,重复实验2的过程,得到的实验结果见表5。

对含有同义词的词采用方法A和方法B的词汇情感倾向判别结果

O0.20.3O.4

O.5

PPPRPFNPNRNFP

1O.8

—O.8082

—0.928—0.7092.157

775

75.3977.36

77.30

87.3894.5494.6690.2990.2918.45

80.9485.0985.1184.7484.8331.08

49.5170.78

71.05

30.2732.3432.0544.2144.8110.68

37.5744.4044.1752.6553.1719.15

70.8076.49

76.49

方法A

O.7

O.6O.5

79.8380.00

98.70

65.0765.37

92.31

76.9277.0916.19

4.2905

方法B

5期王素格等:基于同义词的词汇情感倾向判别方法73

由表4和表5可知:①方法A和方法B相比,后者得到的词汇情感倾向判别的精确率优于前者,而其他各项评价指标都明显劣于前者。说明仅仅直接使用同义词词典可以得到比较高的精确率,但却由于匹配的词汇较少,造成了较低的召回率。

②将卢=0与O<卢≤0.5相比,后者得到的词汇情感倾向判别的各项评价指标明显优于前者。而将表4与表5相比,后者得到的词汇情感倾向判别的各项指标均优于前者,说明同义词在词汇情感倾向判别时确实发挥了作用,提高了词的情感倾向识别的的总体精度。

③对于o<瓞O.5时,两表中四种情况的词汇

情感倾向判别结果的总体精度(P)都相差不大,验证了我们在第3节中的最初设想,具有同义词的不同词语可以表达相同的语义信息。

④褒义词汇的精确率(PP)、召回率(PR)和F值(PF)均优于贬义词汇的精确率(NP)、召回率(NR)和F值(NF)。主要原因我们测试的2958个词语中贬义词占的比例比较小,仅有941个。

2)面向Web

实验4:在实验1、实验2中,由于语料规模的限制,词汇的统计数据比较稀疏。为此,本实验进行了面向Web的实验测试。选用Google搜索引擎,将互联网页作为资源,Google作为目前最成功的商业搜索引擎之一,索引的网页数量已超过80亿。由于本文的PMI需要进行批量查询,因此利用了

GoogleAPI。然而Google

API的不足之处在于其

返回的相关网页数量是一个估计值,这可能会给PMI计算模型引入一些噪音。但是从总体上看,几个查询之间返回的网页数量比例还是相对比较稳

定的。

由于Google没有提供NEAR操作,所以观察两个词wordl和word2的同现是将两个词作为查询词共同提交给Google进行检索,即将查询的窗口尺寸大小设定为整篇文档。

实验采用表1和表2中40对褒贬义基准词,当采用词的情感倾向强度时,精确率为70.97%,当采用同义词的词的情感倾向强度时,精确率为76.20%。

由此结果可以看出:

①基于同义词的词汇情感倾向强度方法的分类效果优于基于词的情感倾向强度的方法。再次验证了利用同义词集确实可以改善词的情感倾向识

别。

②与表3对比可知,两种词汇情感强度计算方法在面向Web的测试结果均优于面向语料的测试结果。说明语料规模对词汇情感倾向强度的计算有较大影响。

,●

结束语

词汇作为构成短语、搭配、关联对、句子和文本

的最基本的语言粒度,其情感倾向直接影响更高层次语言粒度的情感倾向。本文提出了基于类别区分能力的基准词选择方法,并根据词汇与其同义词具有相近的褒贬情感倾向的特点,提出了基于同义词的词汇情感倾向判别方法。本文所提出的方法,一方面,从文本情感分类的角度,利用词汇的情感倾向可以确定出短语、搭配、关联对、句子等语言粒度的情感倾向,最终确定出文本的情感倾向,另一方面,从情感词表构建的角度,也可以实现词表的动态

更新。

感谢

感谢哈尔滨工业大学信息检索研究室为我们的研究提供了《同义词词林扩展版》,感谢董振东先生为我们的研究提供《知网》中的评价词汇和情感词汇。

参考文献:

E1]

PETERD.Turney.Thumbsup

or

thumbsdown?Se—

manticorientationappliedtO

unsupervisedclassificationof

reviews[C]//Proceedings

ofthe40thAnnual

Meet—

ingoftheAssociationforComputational

Linguistics

(ACL)//Philadelphia,PA,USA.2002:417-424.

E22PETERD.Turney

andMICHAELL.Littman.

Measuringpraiseandcriticism:inferenceofsemantic

orientation

fromassociation[J].ACMTransactions

on

InformationSystems,2003,21(4):315-346.

[3]PETERD.TurneyandMICHAELL.Littman.Un—

supervisedlearningofsemanticorientationfroma

hun—

dred—billion—word

corpus[R].Tech.Rep.EGB-1094,

NationalResearchCouneilCanada:2002.

[4]DAVEK.,LAWRENCE

S.,andPENNOCKD..

Miningthe

peanut

gallery:opinionextractionand

se—

manticclassificationofproductreviews[C]//Proceed—

ingsofthe22ndInternational

WorldWideWebCon-

ference.Budapest,Hungary:2003.

74

中文信息学报

2009年

[5]

YUEN

RaymondW.M.・CHANTerenceY.W.,LAI

a1.Morpheme-basedderivationofbipo—

三届学生计算语言学研讨会论文集.沈阳.2006:81—

85.

TomB.Y.et

larsemanticorientationofChinese

words[C]//Proc.

on

[9]张伟,刘缙,郭先珍.学生褒贬义词典[M].中国大百科全书出版社.2004.

Ofthe20thInternationalConference

Computational

Linguistics(COLING-2004),Geneva,Switzerland.2004:1008—1014.

[10]史继林,朱英贵.褒义词词典[M].四川:四JIl辞书出

版社.2005.

[11]杨玲,朱英贵.贬义词词典[M].四川:I匹lJIf辞书出版

社.2005.

口2]王素格.基于Web的评论文本的情感分类问题研究

[D].博士论文.上海:上海大学.2008.

[6][7][8]

朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算【J].中文信息学报,2006,21(1):14—20.徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报。2007,21[I]:96—100.王根,赵军.中文褒贬义词语倾向性的分析[c]//第

(上接第61页)

MeetingoftheAssociationforComputationalLin—

guistics,HongKong,China.1999.

ence

on

ArtificialIntelligence。Edinburgh,Scotland。

2005:1067—1072.

[23]K.Uehimoto,Q.Ma,M.Murata,H.Ozaku,and

H.Isahara.NamedEntityExtractionBased

on

[26]H.T.Ng

BasedOr

and

J.K.Low.ChinesePart-Of-Speech

Or

Tagging:One-At-A—Time

All-At-Once?Word—

of

the

MaximumEntropyModelandTransformationRulesCharacter-Based?[C]//Proceedings

on

[C]//Proceedings

Association

for

ofthe38thAnnualComputational

Meetingofthe

Conference

guage

Empirical

MethodsinNaturalLan—

Linguistics。Hong

Processing.Barcelona,Spain.2004.

word

Kong,China.2000.

[27]H.Duan,X.Bai,B.Chang,S.Yu.Chinese

withSup—of

Second

[24]T.Kudo,andY.Matsumoto.Chunking

port

segmentation

of

thesecond

at

PekingSIGHAN

university[C]//Proceedings

workshop

on

Vector

Machines[C]//Proceedings

Chineselan—

MeetingofNorthAmericanChapteroftheAssocia—

tion

for

Computational

Linguistics,Pittsburgh,

guage

processing.Sapporo,Japan,2003:152—155.

importance

rolela一

[28]V.Punyakanok,D.Roth,W.Yih.The

belingFJ].Computational

257—287.

USA.2001.

ofsyntacticparsingandinferenceinsemantic

Argument

[25]Z.P.Jiang,J.Li,H.T.Ng.Semantic

Classification

Exploiting

Linguistics,2008,34(2):

ArgumentInterdependence

[C]//Proceedings

of19thInternational

JointConfer—

基于同义词的词汇情感倾向判别方法

作者:作者单位:

王素格, 李德玉, 魏英杰, 宋晓雷, WANG Su-ge, LI De-yu, WEI Ying-jie, SONG Xiao-lei

王素格,WANG Su-ge(山西大学,数学科学学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006), 李德玉,LI De-yu(山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006), 魏英杰,WEI Ying-jie(科学出版社,北京,100717), 宋晓雷,SONG Xiao-lei(山西大学,数学科学学院,山西,太原,030006)中文信息学报

JOURNAL OF CHINESE INFORMATION PROCESSING2009,23(5)1次

刊名:英文刊名:年,卷(期):被引用次数:

参考文献(12条)

1. PETER D Turney;MICHAEL L Littman Unsupervised learning of semantic orientation from a hundred-billion-word corpus.[Tech.Rep.EGB-1094] 2002

2. PETER D Turney;MICHAEL L Littman Measuring praise and criticism:inference of semantic orientationfrom association[外文期刊] 2003(04)

3. PETER D Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervisedclassification of reviews 2002

4. 王素格 基于Web的评论文本的情感分类问题研究 20085. 杨玲;朱英贵 贬义词词典 20056. 史继林;朱英贵 褒义词词典 20057. 张伟;刘缙;郭先珍 学生褒贬义词典 20048. 王根;赵军 中文褒贬义词语倾向性的分析 2006

9. 徐琳宏;林鸿飞;杨志豪 基于语义理解的文本倾向性识别机制[期刊论文]-中文信息学报 2007(1)10. 朱嫣岚;闵锦;周雅倩 基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(01)

11. YUEN Raymond W M;CHAN Terence Y W;LAI Tom B Y Morpheme-based derivation of bipolar semanticorientation of Chinese words 2004

12. DAVE K;LAWRENCE S;PENNOCK D Mining the peanut gallery.,opinion extraction and semanticclassification of product reviews 2003

引证文献(2条)

1. 彭学仕. 孙春华 面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)2. 彭学仕. 孙春华 面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_zwxxxb200905010.aspx

第23卷第5期2009年9月

中文信息学报

JOURNAI。oFCHINESEINFORMATl0NPRoCESSING

V01.23,No.5

Sep.,2009

文章编号:1003-0077(2009)05—0068—07

基于同义词的词汇情感倾向判别方法

王素格1’3,李德玉2”,魏英杰4,宋晓雷1

(1.山西大学数学科学学院,山西太原030006;2.山西大学计算机与信息技术学院,山西太原030006;3.山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006;4.科学出版社,北京100717)摘要:词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词袁相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感

倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表

明,基于同义词的词;r-情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。关键词:计算机应用;中文信息处理;词汇情感倾向;基准词;关联强度;同义词

中图分类号:TP391

文献标识码:A

ASynonymsBased

WordSentiment

OrientationDiscriminating

WANGSu-gel”,LIDe-yu2“,WEIYing-jie4,SONGXiao-leil

(1.Schoolof

2.Schoolof

MathematicsScience,ShanxiUniversity,Taiyuan030006,China;

Computer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China;

MinistryofEducation,

3.KeyLaboratoryofComputationalIntelligenceandChineseInformationProcessingof

ShanxiUniversity,Taiyuan030006,China;4.Science

Press,Beijing100717,China)

Abstract:Thewordsentimentorientationdirectlyinfluencesthesentimentorientationofhigherlevellinguisticunit,such

flS

thephrase,thesentence,theparagraphandthetext.This

on

paperproposes

paradigmwordselectionmeth—

odbasedthe

category

distinguishingabilityof

word

andthesentimentwordtable.Inconsiderationofthat

propose

wordusuallyhasthesamesentimentorientationwithitssynonyms,wetation

methodforwordsentimentorien—

issuein

on

discriminatingbased

on

synonyms.Themethod

can

avoidthedata

tO

sparseness

certainextent.The

para+

experimentresultsindicatethattheproposedmethodissuperiordigmwords.Key

themethodbasedthe

objectwordand

words:computerapplication;Chineseinformationprocessing;wordsentimentorientation;paradigmword;re—

lationintensity;synonym

计算语言学中,利用小粒度语言单元研究较大粒度

引言

从语言学角度,语言粒度从小到大依次为语素、

语言单元是一种基于解析思想的常用方法。

作为最小语言粒度的语素,它是最小的音义结合体,其主要功能是构词。因此,在已有文本情感倾向分析的研究中,大多选择词作为基本的语言粒度,利用词的情感倾向确定搭配、句子、文本等的情感倾

词、短语、句子、段落、篇章。文本的语义信息蕴含于各个层次的语言粒及语言粒的各种语法关系中。在

收稿日期:2008一10一15定稿日期:2009-05-04

基金项目:国家自然科学基金资助项目(60875040);教育部科学技术研究重点基金(2007018);教育部高等学校博士点基

金(200801080006);山两省自然科学基金资助项目(2007011042);山西省重点实验室开放基金资助项目;山西高校科技研究开发项目(200611002)

作者简介:王素格(1964一),女,博士,副教授,主要研究方向为自然语言理解、文本挖掘;李德玉(1965一),男,教授,博导,主要研究方向为计算智能与数据挖掘;魏英杰(1982一),男,硕士,主要研究方向为文本挖掘与自然语言处理。

5期王素格等:基于同义词的词汇情感倾向判别方法69

向[1嵋]。Turney91]通过分析词汇上下文信息研究其情感倾向,采用PMI—IR方法,使用两个词汇作为种子来判断其他短语的语义倾向。之后,他们又在文献[-2-3]中将单对种子扩展成多对种子,选取了正反面各7个词汇,分别采用PMI—IR和LSA两种方法来度量给定词汇与基准词的关联度,确定词汇的语义倾向,实验结果表明,PMI—IR算法优于LSA方法。Dave等n1利用信息抽取技术从语料中产生特征(词汇),以Bayes网络为丁具分析各词汇与已标定情感类别文档之间的关系,进而计算各词汇的得分用于判定词汇的语义倾向。汉语词汇的情感倾向研究方面,香港城市大学的Yuan等曲3在Turny的工作基础上,对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等∞],提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法,通过计算目标词汇与HowNet中已标注褒贬性词汇间的相似度,获取目标词汇的倾向性。大连理t大学的徐琳宏等【73采用HOWNet作为基准词,通过计算目标词与基准词的关联度,确定目标词汇的语义倾向。中国科学院自动化研究所的王根、赵军[81提出了词语倾向性的极坐标方式,并使用了均衡化的互信息方法探讨了词语独立于上下文的自身倾向性。

上述文献[1—3,6—7]仅采用了目标词与基准词的关联强度来确定目标词的情感倾向,并没有考虑目标词与其同义词的关系,同时也没有对基准词的选择进行相关的研究。本文提出了基于类别区分能力与情感词表相结合的基准词选取方法,然后根据词汇与其同义词很大程度上具有相同的情感倾向的特点,提出了基于同义词的词汇情感倾向判别方法,该方法不仅考虑了目标词与基准词的关联强度,而且也考虑了目标词的同义词与基准词的关联强度。

2词与词集间关联强度度量

(1)词与词间的关联强度点互信息(PointWiseMutual

Information,

PMI)是信息论中度量两个随机变量间统计依赖性的一种测度。利用PMI可以度量人们在使用某两个词的统计依赖性。设有两个词wordl和word2,将两个词的使用看作两个随机变量,仍以wordl和word2记之,进而有随机向量(wordl,word2)。在计算语言学中,常借用随机变量wordl和word2的PMI值度量两个词wordl和word2的统计依赖

性01t2‘。

两个词wordl和word2之间的点互信息PMI

(wordl,word2)定义为:

PMI(ztordl,uord2)一logz(篇黯器)

(1)

在实际应用中,公式(1)中的概率可以通过语料中两个词的同现信息进行估计。因此有下面的近似公式:

PMI(uordl,uord2)

≈logz

I瓦i瓦磊万万丐■万页i丽J

,N×hits(wordl,word2)、

,”¨’

这里,N表示语料库中总的词次数,hits(wordl)和hits(word2)分别表示wordl和word2在语料库中出现的次数,hits(wordl,word2)表示wordl和word2在语料库中限定观察范围的同现次数。

(2)词与词集间关联强度

词与词集间关联强度可由词与词间关联强度来计算。设word是一个词,wordSet是一个词集,定义词word与词集wordSet的关联强度如下:

一删乏一崦z(篇揣

P』Ⅵ,(v.ord,ztordSet)

(3)

3基于同义词的词汇情感倾向判别

基准词集:基准词集是指褒贬义倾向非常明显、强烈、具有代表性的词汇所构成的集合。基准词集被分为褒义基准词集和贬义基准词集,分别记为

Pwords和Nwords。

词的情感倾向强度:一个词的情感倾向强度可由该词与褒义基准词集和贬义基准词集的关联强度的差来计算,由公式(3),设word是一个词,则word的情感倾向强度SO—PMI(word)为:

sD—PMI(v.ord)

加口r西Ec口耐,

∑PMI(word,pword)一

。。怠。rd,

PMI(uord,删ord)

(4)

再由公式<2)和(4),得出印一PMI(uord)划082

I彳产面面广亍篙蒜J

fⅡhits(uord,加ord)Pihits(nword)l

舰s(加一)

础s(伽耐,舢0耐)J

(5)

70

中文信息学报

2009盔

一个词与褒义基准词集的关联强度越大,则该词倾向于褒义的程度就越大,反之,它与贬义基准词集的关联强度越大,则其倾向于贬义的程度就越大。词的情感倾向强度SO—PMI(word)刻画了一个词更倾向于褒义还是贬义的程度。

基于同义词的词汇情感倾向强度:设word是一个词,T={口;)譬。是词word的同义词集合,为了区分词与其同义词对词汇情感倾向强度判断的贡献,将口,口作为权重,构造出如下计算word的词汇情感倾向强度公式:

New—sD—PMI(饥ord)

一---Og・ls0一PMI(word)

+p・2:s。一PMI(口;)(6)

二五

’这里口+卢一1,口,p分别表示目标词与其同义词的情感倾向强度对最后目标词的情感倾向强度的影响程度。特别地,当a一1、p=0时,New—SO—PMI

(word)=S0

PMI(word),即为直接使用词的情感

倾向强度。

由于写作的习惯不同,不同的作者在撰写评论时,会使用不同的词汇表达相同的意思。即使同一作者,在一篇评论中也常常为避免重复而使用同义词和近义词表达相同的意思。比如,真实语料中有下面两个例句:

(1)新POLO的悬架经过调拨后,舒适性有所增强,配合舒适的座椅,那种冲过坑洼的颠簸感只是在踏板上能有清晰感觉。

(2)新车强调驾乘乐趣,即保证宝马良好操纵性能的基础上加强乘坐的舒适性,着力营造良好的

商务空间。

在这两个句子中“增强”和“加强”是同义词,在同义词词林中列出词条“增强”、“加强99、6‘提高”、“增高”、“增进99、66增长”、“滋长”、“如虎添翼”均为同义词。

就考察词的倾向性而言,从统计词的角度看,将一个词与其同义词或近义词按不同词对待,将会导致大量稀疏数据。

在自然语言处理中,数据稀疏一直是困扰人们的一大问题,单纯考察一个词与褒贬义基准词集的同现信息就会遇到数据稀疏问题。这里,我们提出的基于同义词的词汇情感倾向强度计算方法,利用一个词的同义词集来重新定义该词的情感倾向强度,在某种程度上弱化了数据稀疏问题。

词汇情感倾向类别确定:

对一个词word,利用公式(6)可以计算其情感

倾向强度,设口。,晚(曰。≥02)是两个实数,称为阈值,词word的情感类别So(word)可由判别公式(7)得到。

So(word)

f褒义,New—SO—PMI(word)>0l

一.{中性,

岛≤New一1s。一PMI(uord)≤0。(7)

【贬义,New一's0一PMI(zmrd)<02

4基准词的选取方法

由第3节知,词汇的情感倾向强度计算需要基准词集,而基准词是指具有非常明显、褒贬义倾向的代表性词汇。为此,本文提出了基于词汇的类别区分能力与情感词表相结合的基准词选取方法。

情感词表主要借助GeneralInquirer(GI)词典、《学生褒贬义词典》[9。、《知网》、《褒义词词典》[10]、《贬义词词典》[1u五种资源构建的中文情感词词表,记为SWT。该词表共收录词条15886个(正面

427个,反面7459个),其中仅来源于一部词典的

词条11682个(iE面为6129个,反面为5553个)。另有来源于多个词典的词条4204个(正面为2298

个,反面为1906个)。详细情况参见文献[-127。

词汇的类别区分能力的度量采用一种与文本长度无关的基于词频(频率)概率估计的Fisher准则函数计算方法[1引。

设正面文本有m篇,记为dP。,(i一1,2,…,m),d蹦的总词次记为铆蹦,特征项tt在dP。i中出现的次数记为WP.,(“)。设反面文本有咒篇,记为d¨(J一1,2,…,咒),dM的总词次记为口M,特征项tI在d¨中出现的次数记为WM(“)。从m个正面文本

中任取一篇,显然P(d蹦)一去,现以竺篆导代替文

本dP∽则有随机变量X1:P(de.。)=Pf坐型1=

三(i一1,2,…,77z)。对反面文本作类似的考虑,则

有随机变量x2:P(巩≯一P(竺笔警卫)一丢(』=

1,2,…,,z)。这样则有,

E(t。IP)一E(X1)一1∑婴丛盟,

1n;五

‘up.i

E(t。I

N):E(X2)=土∑型,

j一1

。UN・i

眦・,一去善(掣咽X1))2,

5期王素格等:基于同义词的词汇情感倾向判别方法71

粥2,一吾耋(掣一E(X2))2

基于词频(频率)概率估计的Fisher准则函数计算有:

mX

DCBwordSet中的正反类别中各前N个词,作为最终选定的褒贬基准词集BWordSet。

X(行×砉掣二m×宴掣)2拟耋(m×掣一耋掣)2耐×骞(以×掣一骞掣)2

川一等摧箨帮

5实验结果与分析

为了测试本文提出方法的有效性,我们选用来自汽车点评网自建的语料。本语料收集了国内外11种品牌的轿车,评论时间集中于2006年1月至2007年3月间的部分评论文本,总计1006篇约100万字,正面文本578篇,反面文本428篇。情感词表选用仅来源于一部词典11682个词条,同义词词集采用张伟等人编纂的《学生褒贬义词典》[9]和哈尔滨工业大学信息检索研究室提供的《同义词词林扩展版》[133两部词典。

评价指标采用标注精确率(P)、召回率(R)和F值以及正反面精确率(PP、NP)、正反面召回率(PR、NR)和正反面F值(PF、NF)。由于本文只对词汇的两种情感倾向性进行判别,因此总体的评价指标P—R—F。

根据第4节中基准词选取步骤,选取M一

(8)

基于词汇类别区分能力与情感词表相结合的基准词选取方法的具体步骤:、

1)利用公式(8),计算语料库中名词、形容词和动词的类别区分能力,选出区分能力较强的词M个,获得词集CWordSet。

2)用词集CWordSet与情感词词表SwT做交集,得到词集CBWordSet,并将CBWordSet中的词按照其在语料中出现的次数排序,得到的词集记为

DCBWordSet。

000,N一40,得到褒贬基准词集如表1、表2所示。

3)根据事先设定的基准词个数N,选取词集

表1褒义基准词集

风格乐趣满足

安全优势省油享受

不错保证

先进出色

喜欢加速实在漂亮适合

舒适豪华稳定保护轻松

满意爱品质值得完美

解决提升

全新

成功提高

舒服

最好平稳

方便好车

优点

良好

实用

表2贬义基准词集

碰撞

不足

噪音故障怀疑隐患

事故毛病

不好撞击断粗糙

严重

断裂危险颠簸

下降

失望震动造成

缺点担心损失难看

不够倒噪声不爽

死车祸麻烦伤害

缺陷不行后悔

郁闷

变形

遗憾

冲击

恐怕

测试词集选用语料中的词集与情感词汇词表交集的词汇,共有2958个。采用两种方式进行实验。

1)面向语料

为了验证本文方法的有效性以及与领域的相关性,实验选用的测试语料为1006篇汽车评论,观察同现窗口长度设定为24个词位,词汇情感强度计算分别采用公式(5)和公式(6),阈值的选取采用试验法。

实验1:为了验证本文提出的情感基准词选取

方法的优势,将本文选出的基准词与文献E6]列出的基准词进行了对比实验,基准词分别选出40对、前10对和前5对。测试结果见表3。

由表3可知:

①随着基准词数量的增加,词汇的情感倾向判别的精确率逐渐升高。

②利用本文选择的基准词得到的词汇情感分类结果整体优于文献1-6]提供基准词的结果。

72

中文信息学报

2009焦

表3不同基准词对词汇情感倾向判别的影响

基准词

OO.5O

40对

阈值

—O.340

10对

P/%

67.5169.8156.2861.16

5对

P/%

阈值

—O.5526一O.55262.2742.274

Oo

阈值

一O.552

P/%

65.78

167.OO68.7346;1455.10

本文

0.51

一O.17454.069

一O.18232.49032.5142

67.4145.2054.77

文献E6]

o.5

O.5

3.3618

③在两种基准词集下,采用基于同义词的词汇的情感倾向判别的精确率相比基于词的词汇的情感倾向判别的精确率有所提高。特别地,采用文献E63中的基准词的提高幅度较大,当选用5对基准词时提高了9.57%,说明文献E6]中的基准词具有通用性。

综合上述结果说明,在特定领域中,若统计文献E63中的基准词与其他词汇的同现次数时,将会出现大量的数据稀疏现象,若采用基于同义词的词汇的情感倾向判别,在一定程度上可以减少数据稀疏,并提高词汇的情感倾向判别精度。但总体上,采用文献F6]中的基准词得到词汇情感倾向判别的结果逊色于本文的方法,因此,对特定领域的情感倾向性判

表4

方法

别,应选择面向领域的基准词集,避免使用通用基准词集。以下实验中的基准词集均选用表1和表2中的40对基准词。

实验2:由于我们采用的基于同义词的词汇的情感倾向判别方法,在一定程度上依赖于词的同义词,因此,采用了以下两种方法进行了对比实验。

方法A(基于同义词的词汇情感倾向判别):对口和口,分别采用五组不同的值得到词的情感倾向;

方法B(直接使用同义词词典):采用基准词的情感倾向和同义词词典,用于词的情感倾向判别。

上述两种方法得到实验结果见表4。

采用方法A和方法B的词汇情感倾向判别结果

阈值

O0.2O.3

O.4

PPPRPFNPNR

NFP

一0.3404—0.0849一O.139

72.0973.1673.0473.1072.8998.70

85.4888.2188.3588.6088.757.53

78.2179.9879.9780.1180.0414.OO

48.1454.6754.5555.0854.6992.31

28.9430.51

30.OO

36.15

39.18

67.5169.8869.8169.9869.816.36

O.8

方法AO.7O.6

O.5

38.7138.8438.03

7.54

一O.19.88一O.17.45

30.0029.153.83

0.5

方法B

实验3:为了进一步说明同义词在词汇情感倾向判别的作用,我们去掉没有同义词的词,仅仅对含

表5

方法

有同义词的词采用方法A和方法B,重复实验2的过程,得到的实验结果见表5。

对含有同义词的词采用方法A和方法B的词汇情感倾向判别结果

O0.20.3O.4

O.5

PPPRPFNPNRNFP

1O.8

—O.8082

—0.928—0.7092.157

775

75.3977.36

77.30

87.3894.5494.6690.2990.2918.45

80.9485.0985.1184.7484.8331.08

49.5170.78

71.05

30.2732.3432.0544.2144.8110.68

37.5744.4044.1752.6553.1719.15

70.8076.49

76.49

方法A

O.7

O.6O.5

79.8380.00

98.70

65.0765.37

92.31

76.9277.0916.19

4.2905

方法B

5期王素格等:基于同义词的词汇情感倾向判别方法73

由表4和表5可知:①方法A和方法B相比,后者得到的词汇情感倾向判别的精确率优于前者,而其他各项评价指标都明显劣于前者。说明仅仅直接使用同义词词典可以得到比较高的精确率,但却由于匹配的词汇较少,造成了较低的召回率。

②将卢=0与O<卢≤0.5相比,后者得到的词汇情感倾向判别的各项评价指标明显优于前者。而将表4与表5相比,后者得到的词汇情感倾向判别的各项指标均优于前者,说明同义词在词汇情感倾向判别时确实发挥了作用,提高了词的情感倾向识别的的总体精度。

③对于o<瓞O.5时,两表中四种情况的词汇

情感倾向判别结果的总体精度(P)都相差不大,验证了我们在第3节中的最初设想,具有同义词的不同词语可以表达相同的语义信息。

④褒义词汇的精确率(PP)、召回率(PR)和F值(PF)均优于贬义词汇的精确率(NP)、召回率(NR)和F值(NF)。主要原因我们测试的2958个词语中贬义词占的比例比较小,仅有941个。

2)面向Web

实验4:在实验1、实验2中,由于语料规模的限制,词汇的统计数据比较稀疏。为此,本实验进行了面向Web的实验测试。选用Google搜索引擎,将互联网页作为资源,Google作为目前最成功的商业搜索引擎之一,索引的网页数量已超过80亿。由于本文的PMI需要进行批量查询,因此利用了

GoogleAPI。然而Google

API的不足之处在于其

返回的相关网页数量是一个估计值,这可能会给PMI计算模型引入一些噪音。但是从总体上看,几个查询之间返回的网页数量比例还是相对比较稳

定的。

由于Google没有提供NEAR操作,所以观察两个词wordl和word2的同现是将两个词作为查询词共同提交给Google进行检索,即将查询的窗口尺寸大小设定为整篇文档。

实验采用表1和表2中40对褒贬义基准词,当采用词的情感倾向强度时,精确率为70.97%,当采用同义词的词的情感倾向强度时,精确率为76.20%。

由此结果可以看出:

①基于同义词的词汇情感倾向强度方法的分类效果优于基于词的情感倾向强度的方法。再次验证了利用同义词集确实可以改善词的情感倾向识

别。

②与表3对比可知,两种词汇情感强度计算方法在面向Web的测试结果均优于面向语料的测试结果。说明语料规模对词汇情感倾向强度的计算有较大影响。

,●

结束语

词汇作为构成短语、搭配、关联对、句子和文本

的最基本的语言粒度,其情感倾向直接影响更高层次语言粒度的情感倾向。本文提出了基于类别区分能力的基准词选择方法,并根据词汇与其同义词具有相近的褒贬情感倾向的特点,提出了基于同义词的词汇情感倾向判别方法。本文所提出的方法,一方面,从文本情感分类的角度,利用词汇的情感倾向可以确定出短语、搭配、关联对、句子等语言粒度的情感倾向,最终确定出文本的情感倾向,另一方面,从情感词表构建的角度,也可以实现词表的动态

更新。

感谢

感谢哈尔滨工业大学信息检索研究室为我们的研究提供了《同义词词林扩展版》,感谢董振东先生为我们的研究提供《知网》中的评价词汇和情感词汇。

参考文献:

E1]

PETERD.Turney.Thumbsup

or

thumbsdown?Se—

manticorientationappliedtO

unsupervisedclassificationof

reviews[C]//Proceedings

ofthe40thAnnual

Meet—

ingoftheAssociationforComputational

Linguistics

(ACL)//Philadelphia,PA,USA.2002:417-424.

E22PETERD.Turney

andMICHAELL.Littman.

Measuringpraiseandcriticism:inferenceofsemantic

orientation

fromassociation[J].ACMTransactions

on

InformationSystems,2003,21(4):315-346.

[3]PETERD.TurneyandMICHAELL.Littman.Un—

supervisedlearningofsemanticorientationfroma

hun—

dred—billion—word

corpus[R].Tech.Rep.EGB-1094,

NationalResearchCouneilCanada:2002.

[4]DAVEK.,LAWRENCE

S.,andPENNOCKD..

Miningthe

peanut

gallery:opinionextractionand

se—

manticclassificationofproductreviews[C]//Proceed—

ingsofthe22ndInternational

WorldWideWebCon-

ference.Budapest,Hungary:2003.

74

中文信息学报

2009年

[5]

YUEN

RaymondW.M.・CHANTerenceY.W.,LAI

a1.Morpheme-basedderivationofbipo—

三届学生计算语言学研讨会论文集.沈阳.2006:81—

85.

TomB.Y.et

larsemanticorientationofChinese

words[C]//Proc.

on

[9]张伟,刘缙,郭先珍.学生褒贬义词典[M].中国大百科全书出版社.2004.

Ofthe20thInternationalConference

Computational

Linguistics(COLING-2004),Geneva,Switzerland.2004:1008—1014.

[10]史继林,朱英贵.褒义词词典[M].四川:四JIl辞书出

版社.2005.

[11]杨玲,朱英贵.贬义词词典[M].四川:I匹lJIf辞书出版

社.2005.

口2]王素格.基于Web的评论文本的情感分类问题研究

[D].博士论文.上海:上海大学.2008.

[6][7][8]

朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算【J].中文信息学报,2006,21(1):14—20.徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报。2007,21[I]:96—100.王根,赵军.中文褒贬义词语倾向性的分析[c]//第

(上接第61页)

MeetingoftheAssociationforComputationalLin—

guistics,HongKong,China.1999.

ence

on

ArtificialIntelligence。Edinburgh,Scotland。

2005:1067—1072.

[23]K.Uehimoto,Q.Ma,M.Murata,H.Ozaku,and

H.Isahara.NamedEntityExtractionBased

on

[26]H.T.Ng

BasedOr

and

J.K.Low.ChinesePart-Of-Speech

Or

Tagging:One-At-A—Time

All-At-Once?Word—

of

the

MaximumEntropyModelandTransformationRulesCharacter-Based?[C]//Proceedings

on

[C]//Proceedings

Association

for

ofthe38thAnnualComputational

Meetingofthe

Conference

guage

Empirical

MethodsinNaturalLan—

Linguistics。Hong

Processing.Barcelona,Spain.2004.

word

Kong,China.2000.

[27]H.Duan,X.Bai,B.Chang,S.Yu.Chinese

withSup—of

Second

[24]T.Kudo,andY.Matsumoto.Chunking

port

segmentation

of

thesecond

at

PekingSIGHAN

university[C]//Proceedings

workshop

on

Vector

Machines[C]//Proceedings

Chineselan—

MeetingofNorthAmericanChapteroftheAssocia—

tion

for

Computational

Linguistics,Pittsburgh,

guage

processing.Sapporo,Japan,2003:152—155.

importance

rolela一

[28]V.Punyakanok,D.Roth,W.Yih.The

belingFJ].Computational

257—287.

USA.2001.

ofsyntacticparsingandinferenceinsemantic

Argument

[25]Z.P.Jiang,J.Li,H.T.Ng.Semantic

Classification

Exploiting

Linguistics,2008,34(2):

ArgumentInterdependence

[C]//Proceedings

of19thInternational

JointConfer—

基于同义词的词汇情感倾向判别方法

作者:作者单位:

王素格, 李德玉, 魏英杰, 宋晓雷, WANG Su-ge, LI De-yu, WEI Ying-jie, SONG Xiao-lei

王素格,WANG Su-ge(山西大学,数学科学学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006), 李德玉,LI De-yu(山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006), 魏英杰,WEI Ying-jie(科学出版社,北京,100717), 宋晓雷,SONG Xiao-lei(山西大学,数学科学学院,山西,太原,030006)中文信息学报

JOURNAL OF CHINESE INFORMATION PROCESSING2009,23(5)1次

刊名:英文刊名:年,卷(期):被引用次数:

参考文献(12条)

1. PETER D Turney;MICHAEL L Littman Unsupervised learning of semantic orientation from a hundred-billion-word corpus.[Tech.Rep.EGB-1094] 2002

2. PETER D Turney;MICHAEL L Littman Measuring praise and criticism:inference of semantic orientationfrom association[外文期刊] 2003(04)

3. PETER D Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervisedclassification of reviews 2002

4. 王素格 基于Web的评论文本的情感分类问题研究 20085. 杨玲;朱英贵 贬义词词典 20056. 史继林;朱英贵 褒义词词典 20057. 张伟;刘缙;郭先珍 学生褒贬义词典 20048. 王根;赵军 中文褒贬义词语倾向性的分析 2006

9. 徐琳宏;林鸿飞;杨志豪 基于语义理解的文本倾向性识别机制[期刊论文]-中文信息学报 2007(1)10. 朱嫣岚;闵锦;周雅倩 基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(01)

11. YUEN Raymond W M;CHAN Terence Y W;LAI Tom B Y Morpheme-based derivation of bipolar semanticorientation of Chinese words 2004

12. DAVE K;LAWRENCE S;PENNOCK D Mining the peanut gallery.,opinion extraction and semanticclassification of product reviews 2003

引证文献(2条)

1. 彭学仕. 孙春华 面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)2. 彭学仕. 孙春华 面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_zwxxxb200905010.aspx


相关内容

  • 情感倾向性分析调研
  • 意见挖掘研究的目的 目前 , 互联网上的信息与日剧增 , 蕴藏着巨大的信息量.但是 , 要想在很短的时间内获得人们对于诸如人物.事件.传媒.产品等有价值的评价信息 , 往往是十分困难的.例如 , 对产品的各种评价出现在各大论坛.电子公告板以及门户网站上 , 厂商需要了解顾客使用其产品的反馈意见 , ...

  • 基于情感词典扩展技术的网络舆情倾向性分析
  • 小型微型计算机系统 JournalofChineseComputer 2010年4月第4期 VoL3l No.42010 Systems 基于情感词典扩展技术的网络舆情倾向性分析 杨 超2",冯 时2,王大玲1,一,杨 楠2,于 戈1・2 1(东北大学医学影像计算教育部重点实验室,辽宁沈阳 ...

  • 基于标签类型的社会化标签质量测评研究
  • 基于标签类型的社会化标签质量测评研究 南京理工大学信息管理系 李蕾 章成志 (南京理工大学信息管理系,南京 210094) 摘要:随着互联网的发展,Web2.0网站为互联网用户的信息生成.信息共享及信息获取提供了便利 的平台.用户已经从过去的被动接受信息转变到现在的主动发布信息,产生了许多的用户生成 ...

  • 考研英语阅读情感态度题答题技巧
  • 在考研英语阅读材料中会有议论文这样的题材,而在议论文中会有这样的一种考试题目类型,就是情感态度题.这样的题目该如何做呢?中公考研就为考生们分享一下做题方法和答题技巧. (一)情感态度题选项核心词汇 (1)必然不会成为正确答案的中性词 ①indifferent,漠不关心的意思,这个词永远不能成为正确答 ...

  • 西塞罗教育思想观照下的影视翻译策略研究
  • 摘 要:西塞罗教育思想为指导的影视翻译的策略主要有:对应与同步策略.增译与减译策略.引申与替代策略.融合与分切策略.移植与改译策略.仿译与摘译策略. 关键词:影视翻译:方法:策略 [中图分类号]G [文献标识码]B [文章编号]1008-1216(2016)10C-0023-02 一.对应与同步策略 ...

  • 开题报告书
  • 湖 南 科 技 大 学 级硕士学位论文 开 题 报 告 书 学 位 类 型: 学术性学位 拟 定 论 文 题目: 基于语料库的学生英语"形容词-名词"搭配 语义特征研究及教学启示 研 究 生 姓 名: 尹小玲 学 号: 0614104 学 科 专 业: 课程与教学论 研 究 方 ...

  • [词语的兄弟姐妹--同义词]教案2
  • 第四课     第二节   词语的兄弟姐妹(巩固课) 责任编辑:马伯岭     审核:      审批: 一.学习目标 ⑴知识目标①明确同义词(近义词)的概念与分类. ②弄清同义词差别主要表现在哪些方面. ⑵能力目标:掌握辨析同义词的方法,正确使用词语(包括成语). ⑶情感目标:把握词语之间的细微差 ...

  • 同义词的个性特征差异
  • 同义词的个性特征差异 [摘 要] 同义词的个性特征即词因情感.时代.地域.民族.色彩.外来.风格等不同而形成自身具有的特征,它不是同义词的本质的特征,不影响内涵,却是同义词显示个性差异的一个重要方面. [关键词] 同义词:个性特征:个性差异 同义词是词汇意义相同的一组词,共同的词汇意义和共同的概念对 ...

  • 从造词看词的色彩意义
  • 哲学社会科学版〈双月刊〉 山东大学学报 2005年第1期 从造词看词的色彩意义 杨振兰(山东大学文学与新闻传播学院,山东济南250100)3 摘要:造词法..造词法可以作用于多种色彩意义,但尤以形象色彩最为突出和集中,.造词材料的选择同样对色彩意义产生影响,异的,前者偏重形态型,后者偏重意义型.关键 ...