基于同义词的词汇情感倾向判别方法

第２３卷第５期２００９年９月

中文信息学报

ＪＯＵＲＮＡＩ。ｏＦＣＨＩＮＥＳＥＩＮＦＯＲＭＡＴｌ０ＮＰＲｏＣＥＳＳＩＮＧ

Ｖ０１．２３，Ｎｏ．５

Ｓｅｐ．，２００９

文章编号：１００３－００７７（２００９）０５—００６８—０７

基于同义词的词汇情感倾向判别方法

王素格１’３，李德玉２”，魏英杰４，宋晓雷１

（１．山西大学数学科学学院，山西太原０３０００６；２．山西大学计算机与信息技术学院，山西太原０３０００６；３．山西大学计算智能与中文信息处理教育部重点实验室，山西太原０３０００６；４．科学出版社，北京１００７１７）摘要：词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题，该文提出了基于类别区分能力与情感词词袁相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感

倾向，我们提出了基于同义词的词汇情感倾向判别方法，这种方法一定程度上避免了数据稀疏问题。实验结果表

明，基于同义词的词；ｒ－情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。关键词：计算机应用；中文信息处理；词汇情感倾向；基准词；关联强度；同义词

中图分类号：ＴＰ３９１

文献标识码：Ａ

ＡＳｙｎｏｎｙｍｓＢａｓｅｄ

ＷｏｒｄＳｅｎｔｉｍｅｎｔ

ＯｒｉｅｎｔａｔｉｏｎＤｉｓｃｒｉｍｉｎａｔｉｎｇ

ＷＡＮＧＳｕ－ｇｅｌ”，ＬＩＤｅ－ｙｕ２“，ＷＥＩＹｉｎｇ－ｊｉｅ４，ＳＯＮＧＸｉａｏ－ｌｅｉｌ

（１．Ｓｃｈｏｏｌｏｆ

２．Ｓｃｈｏｏｌｏｆ

ＭａｔｈｅｍａｔｉｃｓＳｃｉｅｎｃｅ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；

Ｃｏｍｐｕｔｅｒ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；

ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，

３．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇｏｆ

ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；４．Ｓｃｉｅｎｃｅ

Ｐｒｅｓｓ，Ｂｅｉｊｉｎｇ１００７１７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｄｉｒｅｃｔｌｙｉｎｆｌｕｅｎｃｅｓｔｈｅｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｏｆｈｉｇｈｅｒｌｅｖｅｌｌｉｎｇｕｉｓｔｉｃｕｎｉｔ，ｓｕｃｈ

ｆｌＳ

ｔｈｅｐｈｒａｓｅ，ｔｈｅｓｅｎｔｅｎｃｅ，ｔｈｅｐａｒａｇｒａｐｈａｎｄｔｈｅｔｅｘｔ．Ｔｈｉｓ

ｏｎ

ｐａｐｅｒｐｒｏｐｏｓｅｓ

ａ

ｐａｒａｄｉｇｍｗｏｒｄｓｅｌｅｃｔｉｏｎｍｅｔｈ—

ａ

ｏｄｂａｓｅｄｔｈｅ

ｃａｔｅｇｏｒｙ

ｄｉｓｔｉｎｇｕｉｓｈｉｎｇａｂｉｌｉｔｙｏｆ

ａ

ｗｏｒｄ

ａｎｄｔｈｅｓｅｎｔｉｍｅｎｔｗｏｒｄｔａｂｌｅ．Ｉｎｃｏｎｓｉｄｅｒａｔｉｏｎｏｆｔｈａｔ

ｐｒｏｐｏｓｅ

ａ

ｗｏｒｄｕｓｕａｌｌｙｈａｓｔｈｅｓａｍｅｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｗｉｔｈｉｔｓｓｙｎｏｎｙｍｓ，ｗｅｔａｔｉｏｎ

ｍｅｔｈｏｄｆｏｒｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎ—

ｉｓｓｕｅｉｎ

ｏｎ

ａ

ｄｉｓｃｒｉｍｉｎａｔｉｎｇｂａｓｅｄ

ｏｎ

ｓｙｎｏｎｙｍｓ．Ｔｈｅｍｅｔｈｏｄ

ｃａｎ

ａｖｏｉｄｔｈｅｄａｔａ

ｔＯ

ｓｐａｒｓｅｎｅｓｓ

ｃｅｒｔａｉｎｅｘｔｅｎｔ．Ｔｈｅ

ｐａｒａ＋

ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｉｎｄｉｃａｔｅｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｓｕｐｅｒｉｏｒｄｉｇｍｗｏｒｄｓ．Ｋｅｙ

ｔｈｅｍｅｔｈｏｄｂａｓｅｄｔｈｅ

ｏｂｊｅｃｔｗｏｒｄａｎｄ

ｗｏｒｄｓ：ｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎ；Ｃｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ；ｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎ；ｐａｒａｄｉｇｍｗｏｒｄ；ｒｅ—

ｌａｔｉｏｎｉｎｔｅｎｓｉｔｙ；ｓｙｎｏｎｙｍ

计算语言学中，利用小粒度语言单元研究较大粒度

１

引言

从语言学角度，语言粒度从小到大依次为语素、

语言单元是一种基于解析思想的常用方法。

作为最小语言粒度的语素，它是最小的音义结合体，其主要功能是构词。因此，在已有文本情感倾向分析的研究中，大多选择词作为基本的语言粒度，利用词的情感倾向确定搭配、句子、文本等的情感倾

词、短语、句子、段落、篇章。文本的语义信息蕴含于各个层次的语言粒及语言粒的各种语法关系中。在

收稿日期：２００８一１０一１５定稿日期：２００９－０５－０４

基金项目：国家自然科学基金资助项目（６０８７５０４０）；教育部科学技术研究重点基金（２００７０１８）；教育部高等学校博士点基

金（２００８０１０８０００６）；山两省自然科学基金资助项目（２００７０１１０４２）；山西省重点实验室开放基金资助项目；山西高校科技研究开发项目（２００６１１００２）

作者简介：王素格（１９６４一），女，博士，副教授，主要研究方向为自然语言理解、文本挖掘；李德玉（１９６５一），男，教授，博导，主要研究方向为计算智能与数据挖掘；魏英杰（１９８２一），男，硕士，主要研究方向为文本挖掘与自然语言处理。

５期王素格等：基于同义词的词汇情感倾向判别方法６９

向［１嵋］。Ｔｕｒｎｅｙ９１］通过分析词汇上下文信息研究其情感倾向，采用ＰＭＩ—ＩＲ方法，使用两个词汇作为种子来判断其他短语的语义倾向。之后，他们又在文献［－２－３］中将单对种子扩展成多对种子，选取了正反面各７个词汇，分别采用ＰＭＩ—ＩＲ和ＬＳＡ两种方法来度量给定词汇与基准词的关联度，确定词汇的语义倾向，实验结果表明，ＰＭＩ—ＩＲ算法优于ＬＳＡ方法。Ｄａｖｅ等ｎ１利用信息抽取技术从语料中产生特征（词汇），以Ｂａｙｅｓ网络为丁具分析各词汇与已标定情感类别文档之间的关系，进而计算各词汇的得分用于判定词汇的语义倾向。汉语词汇的情感倾向研究方面，香港城市大学的Ｙｕａｎ等曲３在Ｔｕｒｎｙ的工作基础上，对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等∞］，提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法，通过计算目标词汇与ＨｏｗＮｅｔ中已标注褒贬性词汇间的相似度，获取目标词汇的倾向性。大连理ｔ大学的徐琳宏等【７３采用ＨＯＷＮｅｔ作为基准词，通过计算目标词与基准词的关联度，确定目标词汇的语义倾向。中国科学院自动化研究所的王根、赵军［８１提出了词语倾向性的极坐标方式，并使用了均衡化的互信息方法探讨了词语独立于上下文的自身倾向性。

上述文献［１—３，６—７］仅采用了目标词与基准词的关联强度来确定目标词的情感倾向，并没有考虑目标词与其同义词的关系，同时也没有对基准词的选择进行相关的研究。本文提出了基于类别区分能力与情感词表相结合的基准词选取方法，然后根据词汇与其同义词很大程度上具有相同的情感倾向的特点，提出了基于同义词的词汇情感倾向判别方法，该方法不仅考虑了目标词与基准词的关联强度，而且也考虑了目标词的同义词与基准词的关联强度。

２词与词集间关联强度度量

（１）词与词间的关联强度点互信息（ＰｏｉｎｔＷｉｓｅＭｕｔｕａｌ

Ｉｎｆｏｒｍａｔｉｏｎ，

ＰＭＩ）是信息论中度量两个随机变量间统计依赖性的一种测度。利用ＰＭＩ可以度量人们在使用某两个词的统计依赖性。设有两个词ｗｏｒｄｌ和ｗｏｒｄ２，将两个词的使用看作两个随机变量，仍以ｗｏｒｄｌ和ｗｏｒｄ２记之，进而有随机向量（ｗｏｒｄｌ，ｗｏｒｄ２）。在计算语言学中，常借用随机变量ｗｏｒｄｌ和ｗｏｒｄ２的ＰＭＩ值度量两个词ｗｏｒｄｌ和ｗｏｒｄ２的统计依赖

性０１ｔ２‘。

两个词ｗｏｒｄｌ和ｗｏｒｄ２之间的点互信息ＰＭＩ

（ｗｏｒｄｌ，ｗｏｒｄ２）定义为：

ＰＭＩ（ｚｔｏｒｄｌ，ｕｏｒｄ２）一ｌｏｇｚ（篇黯器）

（１）

在实际应用中，公式（１）中的概率可以通过语料中两个词的同现信息进行估计。因此有下面的近似公式：

ＰＭＩ（ｕｏｒｄｌ，ｕｏｒｄ２）

．

≈ｌｏｇｚ

Ｉ瓦ｉ瓦磊万万丐■万页ｉ丽Ｊ

，Ｎ×ｈｉｔｓ（ｗｏｒｄｌ，ｗｏｒｄ２）、

，”¨’

这里，Ｎ表示语料库中总的词次数，ｈｉｔｓ（ｗｏｒｄｌ）和ｈｉｔｓ（ｗｏｒｄ２）分别表示ｗｏｒｄｌ和ｗｏｒｄ２在语料库中出现的次数，ｈｉｔｓ（ｗｏｒｄｌ，ｗｏｒｄ２）表示ｗｏｒｄｌ和ｗｏｒｄ２在语料库中限定观察范围的同现次数。

（２）词与词集间关联强度

词与词集间关联强度可由词与词间关联强度来计算。设ｗｏｒｄ是一个词，ｗｏｒｄＳｅｔ是一个词集，定义词ｗｏｒｄ与词集ｗｏｒｄＳｅｔ的关联强度如下：

一删乏一崦ｚ（篇揣

Ｐ』Ⅵ，（ｖ．ｏｒｄ，ｚｔｏｒｄＳｅｔ）

（３）

３基于同义词的词汇情感倾向判别

基准词集：基准词集是指褒贬义倾向非常明显、强烈、具有代表性的词汇所构成的集合。基准词集被分为褒义基准词集和贬义基准词集，分别记为

Ｐｗｏｒｄｓ和Ｎｗｏｒｄｓ。

词的情感倾向强度：一个词的情感倾向强度可由该词与褒义基准词集和贬义基准词集的关联强度的差来计算，由公式（３），设ｗｏｒｄ是一个词，则ｗｏｒｄ的情感倾向强度ＳＯ—ＰＭＩ（ｗｏｒｄ）为：

ｓＤ—ＰＭＩ（ｖ．ｏｒｄ）

一

加口ｒ西Ｅｃ口耐，

∑ＰＭＩ（ｗｏｒｄ，ｐｗｏｒｄ）一

。。怠。ｒｄ，

ｙ

ＰＭＩ（ｕｏｒｄ，删ｏｒｄ）

（４）

再由公式＜２）和（４），得出印一ＰＭＩ（ｕｏｒｄ）划０８２

Ｉ彳产面面广亍篙蒜Ｊ

ｆⅡｈｉｔｓ（ｕｏｒｄ，加ｏｒｄ）Ｐｉｈｉｔｓ（ｎｗｏｒｄ）ｌ

Ｉ

Ⅱ

舰ｓ（加一）

Ⅱ

础ｓ（伽耐，舢０耐）Ｊ

（５）

７０

中文信息学报

２００９盔

一个词与褒义基准词集的关联强度越大，则该词倾向于褒义的程度就越大，反之，它与贬义基准词集的关联强度越大，则其倾向于贬义的程度就越大。词的情感倾向强度ＳＯ—ＰＭＩ（ｗｏｒｄ）刻画了一个词更倾向于褒义还是贬义的程度。

基于同义词的词汇情感倾向强度：设ｗｏｒｄ是一个词，Ｔ＝｛口；）譬。是词ｗｏｒｄ的同义词集合，为了区分词与其同义词对词汇情感倾向强度判断的贡献，将口，口作为权重，构造出如下计算ｗｏｒｄ的词汇情感倾向强度公式：

Ｎｅｗ—ｓＤ—ＰＭＩ（饥ｏｒｄ）

一－－－Ｏｇ・ｌｓ０一ＰＭＩ（ｗｏｒｄ）

ｎ

＋ｐ・２：ｓ。一ＰＭＩ（口；）（６）

二五

’这里口＋卢一１，口，ｐ分别表示目标词与其同义词的情感倾向强度对最后目标词的情感倾向强度的影响程度。特别地，当ａ一１、ｐ＝０时，Ｎｅｗ—ＳＯ—ＰＭＩ

（ｗｏｒｄ）＝Ｓ０

ＰＭＩ（ｗｏｒｄ），即为直接使用词的情感

倾向强度。

由于写作的习惯不同，不同的作者在撰写评论时，会使用不同的词汇表达相同的意思。即使同一作者，在一篇评论中也常常为避免重复而使用同义词和近义词表达相同的意思。比如，真实语料中有下面两个例句：

（１）新ＰＯＬＯ的悬架经过调拨后，舒适性有所增强，配合舒适的座椅，那种冲过坑洼的颠簸感只是在踏板上能有清晰感觉。

（２）新车强调驾乘乐趣，即保证宝马良好操纵性能的基础上加强乘坐的舒适性，着力营造良好的

商务空间。

在这两个句子中“增强”和“加强”是同义词，在同义词词林中列出词条“增强”、“加强９９、６‘提高”、“增高”、“增进９９、６６增长”、“滋长”、“如虎添翼”均为同义词。

就考察词的倾向性而言，从统计词的角度看，将一个词与其同义词或近义词按不同词对待，将会导致大量稀疏数据。

在自然语言处理中，数据稀疏一直是困扰人们的一大问题，单纯考察一个词与褒贬义基准词集的同现信息就会遇到数据稀疏问题。这里，我们提出的基于同义词的词汇情感倾向强度计算方法，利用一个词的同义词集来重新定义该词的情感倾向强度，在某种程度上弱化了数据稀疏问题。

词汇情感倾向类别确定：

对一个词ｗｏｒｄ，利用公式（６）可以计算其情感

倾向强度，设口。，晚（曰。≥０２）是两个实数，称为阈值，词ｗｏｒｄ的情感类别Ｓｏ（ｗｏｒｄ）可由判别公式（７）得到。

Ｓｏ（ｗｏｒｄ）

ｆ褒义，Ｎｅｗ—ＳＯ—ＰＭＩ（ｗｏｒｄ）＞０ｌ

一．｛中性，

岛≤Ｎｅｗ一１ｓ。一ＰＭＩ（ｕｏｒｄ）≤０。（７）

【贬义，Ｎｅｗ一＇ｓ０一ＰＭＩ（ｚｍｒｄ）＜０２

４基准词的选取方法

由第３节知，词汇的情感倾向强度计算需要基准词集，而基准词是指具有非常明显、褒贬义倾向的代表性词汇。为此，本文提出了基于词汇的类别区分能力与情感词表相结合的基准词选取方法。

情感词表主要借助ＧｅｎｅｒａｌＩｎｑｕｉｒｅｒ（ＧＩ）词典、《学生褒贬义词典》［９。、《知网》、《褒义词词典》［１０］、《贬义词词典》［１ｕ五种资源构建的中文情感词词表，记为ＳＷＴ。该词表共收录词条１５８８６个（正面

８

４２７个，反面７４５９个），其中仅来源于一部词典的

词条１１６８２个（ｉＥ面为６１２９个，反面为５５５３个）。另有来源于多个词典的词条４２０４个（正面为２２９８

个，反面为１９０６个）。详细情况参见文献［－１２７。

词汇的类别区分能力的度量采用一种与文本长度无关的基于词频（频率）概率估计的Ｆｉｓｈｅｒ准则函数计算方法［１引。

设正面文本有ｍ篇，记为ｄＰ。，（ｉ一１，２，…，ｍ），ｄ蹦的总词次记为铆蹦，特征项ｔｔ在ｄＰ。ｉ中出现的次数记为ＷＰ．，（“）。设反面文本有咒篇，记为ｄ¨（Ｊ一１，２，…，咒），ｄＭ的总词次记为口Ｍ，特征项ｔＩ在ｄ¨中出现的次数记为ＷＭ（“）。从ｍ个正面文本

中任取一篇，显然Ｐ（ｄ蹦）一去，现以竺篆导代替文

本ｄＰ∽则有随机变量Ｘ１：Ｐ（ｄｅ．。）＝Ｐｆ坐型１＝

三（ｉ一１，２，…，７７ｚ）。对反面文本作类似的考虑，则

有随机变量ｘ２：Ｐ（巩≯一Ｐ（竺笔警卫）一丢（』＝

１，２，…，，ｚ）。这样则有，

Ｅ（ｔ。ＩＰ）一Ｅ（Ｘ１）一１∑婴丛盟，

１ｎ；五

‘ｕｐ．ｉ

Ｅ（ｔ。Ｉ

Ｎ）：Ｅ（Ｘ２）＝土∑型，

Ｈ

ｊ一１

。ＵＮ・ｉ

眦・，一去善（掣咽Ｘ１））２，

５期王素格等：基于同义词的词汇情感倾向判别方法７１

粥２，一吾耋（掣一Ｅ（Ｘ２））２

基于词频（频率）概率估计的Ｆｉｓｈｅｒ准则函数计算有：

ｍＸ

ＤＣＢｗｏｒｄＳｅｔ中的正反类别中各前Ｎ个词，作为最终选定的褒贬基准词集ＢＷｏｒｄＳｅｔ。

Ｘ（行×砉掣二ｍ×宴掣）２拟耋（ｍ×掣一耋掣）２耐×骞（以×掣一骞掣）２

ｎ

川一等摧箨帮

５实验结果与分析

为了测试本文提出方法的有效性，我们选用来自汽车点评网自建的语料。本语料收集了国内外１１种品牌的轿车，评论时间集中于２００６年１月至２００７年３月间的部分评论文本，总计１００６篇约１００万字，正面文本５７８篇，反面文本４２８篇。情感词表选用仅来源于一部词典１１６８２个词条，同义词词集采用张伟等人编纂的《学生褒贬义词典》［９］和哈尔滨工业大学信息检索研究室提供的《同义词词林扩展版》［１３３两部词典。

评价指标采用标注精确率（Ｐ）、召回率（Ｒ）和Ｆ值以及正反面精确率（ＰＰ、ＮＰ）、正反面召回率（ＰＲ、ＮＲ）和正反面Ｆ值（ＰＦ、ＮＦ）。由于本文只对词汇的两种情感倾向性进行判别，因此总体的评价指标Ｐ—Ｒ—Ｆ。

根据第４节中基准词选取步骤，选取Ｍ一

４

（８）

基于词汇类别区分能力与情感词表相结合的基准词选取方法的具体步骤：、

１）利用公式（８），计算语料库中名词、形容词和动词的类别区分能力，选出区分能力较强的词Ｍ个，获得词集ＣＷｏｒｄＳｅｔ。

２）用词集ＣＷｏｒｄＳｅｔ与情感词词表ＳｗＴ做交集，得到词集ＣＢＷｏｒｄＳｅｔ，并将ＣＢＷｏｒｄＳｅｔ中的词按照其在语料中出现的次数排序，得到的词集记为

ＤＣＢＷｏｒｄＳｅｔ。

０００，Ｎ一４０，得到褒贬基准词集如表１、表２所示。

３）根据事先设定的基准词个数Ｎ，选取词集

表１褒义基准词集

好

风格乐趣满足

安全优势省油享受

不错保证

先进出色

喜欢加速实在漂亮适合

舒适豪华稳定保护轻松

满意爱品质值得完美

解决提升

全新

成功提高

舒服

最好平稳

方便好车

优点

良好

实用

表２贬义基准词集

碰撞

不足

噪音故障怀疑隐患

事故毛病

不好撞击断粗糙

严重

断裂危险颠簸

下降

失望震动造成

缺点担心损失难看

不够倒噪声不爽

死车祸麻烦伤害

缺陷不行后悔

郁闷

变形

遗憾

冲击

恐怕

测试词集选用语料中的词集与情感词汇词表交集的词汇，共有２９５８个。采用两种方式进行实验。

１）面向语料

为了验证本文方法的有效性以及与领域的相关性，实验选用的测试语料为１００６篇汽车评论，观察同现窗口长度设定为２４个词位，词汇情感强度计算分别采用公式（５）和公式（６），阈值的选取采用试验法。

实验１：为了验证本文提出的情感基准词选取

方法的优势，将本文选出的基准词与文献Ｅ６］列出的基准词进行了对比实验，基准词分别选出４０对、前１０对和前５对。测试结果见表３。

由表３可知：

①随着基准词数量的增加，词汇的情感倾向判别的精确率逐渐升高。

②利用本文选择的基准词得到的词汇情感分类结果整体优于文献１－６］提供基准词的结果。

７２

中文信息学报

２００９焦

表３不同基准词对词汇情感倾向判别的影响

权

基准词

口

值

卢

ＯＯ．５Ｏ

４０对

阈值

—Ｏ．３４０

４

１０对

Ｐ／％

６７．５１６９．８１５６．２８６１．１６

５对

Ｐ／％

阈值

—Ｏ．５５２６一Ｏ．５５２６２．２７４２．２７４

Ｏｏ

阈值

一Ｏ．５５２

６

Ｐ／％

６５．７８

１６７．ＯＯ６８．７３４６；１４５５．１０

本文

０．５１

一Ｏ．１７４５４．０６９

７

一Ｏ．１８２３２．４９０３２．５１４２

６７．４１４５．２０５４．７７

文献Ｅ６］

ｏ．５

Ｏ．５

３．３６１８

③在两种基准词集下，采用基于同义词的词汇的情感倾向判别的精确率相比基于词的词汇的情感倾向判别的精确率有所提高。特别地，采用文献Ｅ６３中的基准词的提高幅度较大，当选用５对基准词时提高了９．５７％，说明文献Ｅ６］中的基准词具有通用性。

综合上述结果说明，在特定领域中，若统计文献Ｅ６３中的基准词与其他词汇的同现次数时，将会出现大量的数据稀疏现象，若采用基于同义词的词汇的情感倾向判别，在一定程度上可以减少数据稀疏，并提高词汇的情感倾向判别精度。但总体上，采用文献Ｆ６］中的基准词得到词汇情感倾向判别的结果逊色于本文的方法，因此，对特定领域的情感倾向性判

表４

权

方法

口

别，应选择面向领域的基准词集，避免使用通用基准词集。以下实验中的基准词集均选用表１和表２中的４０对基准词。

实验２：由于我们采用的基于同义词的词汇的情感倾向判别方法，在一定程度上依赖于词的同义词，因此，采用了以下两种方法进行了对比实验。

方法Ａ（基于同义词的词汇情感倾向判别）：对口和口，分别采用五组不同的值得到词的情感倾向；

方法Ｂ（直接使用同义词词典）：采用基准词的情感倾向和同义词词典，用于词的情感倾向判别。

上述两种方法得到实验结果见表４。

采用方法Ａ和方法Ｂ的词汇情感倾向判别结果

值

阈值

卢

Ｏ０．２Ｏ．３

Ｏ．４

１

ＰＰＰＲＰＦＮＰＮＲ

ＮＦＰ

一０．３４０４—０．０８４９一Ｏ．１３９

７

７２．０９７３．１６７３．０４７３．１０７２．８９９８．７０

８５．４８８８．２１８８．３５８８．６０８８．７５７．５３

７８．２１７９．９８７９．９７８０．１１８０．０４１４．ＯＯ

４８．１４５４．６７５４．５５５５．０８５４．６９９２．３１

２８．９４３０．５１

３０．ＯＯ

３６．１５

３９．１８

６７．５１６９．８８６９．８１６９．９８６９．８１６．３６

Ｏ．８

方法ＡＯ．７Ｏ．６

Ｏ．５

３８．７１３８．８４３８．０３

７．５４

一Ｏ．１９．８８一Ｏ．１７．４５

３０．００２９．１５３．８３

０．５

方法Ｂ

实验３：为了进一步说明同义词在词汇情感倾向判别的作用，我们去掉没有同义词的词，仅仅对含

表５

权

方法

口

有同义词的词采用方法Ａ和方法Ｂ，重复实验２的过程，得到的实验结果见表５。

对含有同义词的词采用方法Ａ和方法Ｂ的词汇情感倾向判别结果

值

阈

卢

Ｏ０．２０．３Ｏ．４

Ｏ．５

值

ＰＰＰＲＰＦＮＰＮＲＮＦＰ

１Ｏ．８

—Ｏ．８０８２

—０．９２８—０．７０９２．１５７

７７５

７５．３９７７．３６

７７．３０

８７．３８９４．５４９４．６６９０．２９９０．２９１８．４５

８０．９４８５．０９８５．１１８４．７４８４．８３３１．０８

４９．５１７０．７８

７１．０５

３０．２７３２．３４３２．０５４４．２１４４．８１１０．６８

３７．５７４４．４０４４．１７５２．６５５３．１７１９．１５

７０．８０７６．４９

７６．４９

方法Ａ

Ｏ．７

Ｏ．６Ｏ．５

７９．８３８０．００

９８．７０

６５．０７６５．３７

９２．３１

７６．９２７７．０９１６．１９

４．２９０５

方法Ｂ

５期王素格等：基于同义词的词汇情感倾向判别方法７３

由表４和表５可知：①方法Ａ和方法Ｂ相比，后者得到的词汇情感倾向判别的精确率优于前者，而其他各项评价指标都明显劣于前者。说明仅仅直接使用同义词词典可以得到比较高的精确率，但却由于匹配的词汇较少，造成了较低的召回率。

②将卢＝０与Ｏ＜卢≤０．５相比，后者得到的词汇情感倾向判别的各项评价指标明显优于前者。而将表４与表５相比，后者得到的词汇情感倾向判别的各项指标均优于前者，说明同义词在词汇情感倾向判别时确实发挥了作用，提高了词的情感倾向识别的的总体精度。

③对于ｏ＜瓞Ｏ．５时，两表中四种情况的词汇

情感倾向判别结果的总体精度（Ｐ）都相差不大，验证了我们在第３节中的最初设想，具有同义词的不同词语可以表达相同的语义信息。

④褒义词汇的精确率（ＰＰ）、召回率（ＰＲ）和Ｆ值（ＰＦ）均优于贬义词汇的精确率（ＮＰ）、召回率（ＮＲ）和Ｆ值（ＮＦ）。主要原因我们测试的２９５８个词语中贬义词占的比例比较小，仅有９４１个。

２）面向Ｗｅｂ

实验４：在实验１、实验２中，由于语料规模的限制，词汇的统计数据比较稀疏。为此，本实验进行了面向Ｗｅｂ的实验测试。选用Ｇｏｏｇｌｅ搜索引擎，将互联网页作为资源，Ｇｏｏｇｌｅ作为目前最成功的商业搜索引擎之一，索引的网页数量已超过８０亿。由于本文的ＰＭＩ需要进行批量查询，因此利用了

ＧｏｏｇｌｅＡＰＩ。然而Ｇｏｏｇｌｅ

ＡＰＩ的不足之处在于其

返回的相关网页数量是一个估计值，这可能会给ＰＭＩ计算模型引入一些噪音。但是从总体上看，几个查询之间返回的网页数量比例还是相对比较稳

定的。

由于Ｇｏｏｇｌｅ没有提供ＮＥＡＲ操作，所以观察两个词ｗｏｒｄｌ和ｗｏｒｄ２的同现是将两个词作为查询词共同提交给Ｇｏｏｇｌｅ进行检索，即将查询的窗口尺寸大小设定为整篇文档。

实验采用表１和表２中４０对褒贬义基准词，当采用词的情感倾向强度时，精确率为７０．９７％，当采用同义词的词的情感倾向强度时，精确率为７６．２０％。

由此结果可以看出：

①基于同义词的词汇情感倾向强度方法的分类效果优于基于词的情感倾向强度的方法。再次验证了利用同义词集确实可以改善词的情感倾向识

别。

②与表３对比可知，两种词汇情感强度计算方法在面向Ｗｅｂ的测试结果均优于面向语料的测试结果。说明语料规模对词汇情感倾向强度的计算有较大影响。

，●

６

结束语

词汇作为构成短语、搭配、关联对、句子和文本

的最基本的语言粒度，其情感倾向直接影响更高层次语言粒度的情感倾向。本文提出了基于类别区分能力的基准词选择方法，并根据词汇与其同义词具有相近的褒贬情感倾向的特点，提出了基于同义词的词汇情感倾向判别方法。本文所提出的方法，一方面，从文本情感分类的角度，利用词汇的情感倾向可以确定出短语、搭配、关联对、句子等语言粒度的情感倾向，最终确定出文本的情感倾向，另一方面，从情感词表构建的角度，也可以实现词表的动态

更新。

感谢

感谢哈尔滨工业大学信息检索研究室为我们的研究提供了《同义词词林扩展版》，感谢董振东先生为我们的研究提供《知网》中的评价词汇和情感词汇。

参考文献：

Ｅ１］

ＰＥＴＥＲＤ．Ｔｕｒｎｅｙ．Ｔｈｕｍｂｓｕｐ

ｏｒ

ｔｈｕｍｂｓｄｏｗｎ？Ｓｅ—

ｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔＯ

ｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆ

ｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅ４０ｔｈＡｎｎｕａｌ

Ｍｅｅｔ—

ｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ

（ＡＣＬ）／／Ｐｈｉｌａｄｅｌｐｈｉａ，ＰＡ，ＵＳＡ．２００２：４１７－４２４．

Ｅ２２ＰＥＴＥＲＤ．Ｔｕｒｎｅｙ

ａｎｄＭＩＣＨＡＥＬＬ．Ｌｉｔｔｍａｎ．

Ｍｅａｓｕｒｉｎｇｐｒａｉｓｅａｎｄｃｒｉｔｉｃｉｓｍ：ｉｎｆｅｒｅｎｃｅｏｆｓｅｍａｎｔｉｃ

ｏｒｉｅｎｔａｔｉｏｎ

ｆｒｏｍａｓｓｏｃｉａｔｉｏｎ［Ｊ］．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓ

ｏｎ

ＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２００３，２１（４）：３１５－３４６．

［３］ＰＥＴＥＲＤ．ＴｕｒｎｅｙａｎｄＭＩＣＨＡＥＬＬ．Ｌｉｔｔｍａｎ．Ｕｎ—

ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｆｒｏｍａ

ｈｕｎ—

ｄｒｅｄ—ｂｉｌｌｉｏｎ—ｗｏｒｄ

ｃｏｒｐｕｓ［Ｒ］．Ｔｅｃｈ．Ｒｅｐ．ＥＧＢ－１０９４，

ＮａｔｉｏｎａｌＲｅｓｅａｒｃｈＣｏｕｎｅｉｌＣａｎａｄａ：２００２．

［４］ＤＡＶＥＫ．，ＬＡＷＲＥＮＣＥ

Ｓ．，ａｎｄＰＥＮＮＯＣＫＤ．．

Ｍｉｎｉｎｇｔｈｅ

ｐｅａｎｕｔ

ｇａｌｌｅｒｙ：ｏｐｉｎｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄ

ｓｅ—

ｍａｎｔｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄ—

ｉｎｇｓｏｆｔｈｅ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌ

ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎ－

ｆｅｒｅｎｃｅ．Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ：２００３．

７４

中文信息学报

２００９年

［５］

ＹＵＥＮ

ＲａｙｍｏｎｄＷ．Ｍ．・ＣＨＡＮＴｅｒｅｎｃｅＹ．Ｗ．，ＬＡＩ

ａ１．Ｍｏｒｐｈｅｍｅ－ｂａｓｅｄｄｅｒｉｖａｔｉｏｎｏｆｂｉｐｏ—

三届学生计算语言学研讨会论文集．沈阳．２００６：８１—

８５．

ＴｏｍＢ．Ｙ．ｅｔ

ｌａｒｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｏｆＣｈｉｎｅｓｅ

ｗｏｒｄｓ［Ｃ］／／Ｐｒｏｃ．

ｏｎ

［９］张伟，刘缙，郭先珍．学生褒贬义词典［Ｍ］．中国大百科全书出版社．２００４．

Ｏｆｔｈｅ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

Ｃｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ－２００４），Ｇｅｎｅｖａ，Ｓｗｉｔｚｅｒｌａｎｄ．２００４：１００８—１０１４．

［１０］史继林，朱英贵．褒义词词典［Ｍ］．四川：四ＪＩｌ辞书出

版社．２００５．

［１１］杨玲，朱英贵．贬义词词典［Ｍ］．四川：Ｉ匹ｌＪＩｆ辞书出版

社．２００５．

口２］王素格．基于Ｗｅｂ的评论文本的情感分类问题研究

［Ｄ］．博士论文．上海：上海大学．２００８．

［６］［７］［８］

朱嫣岚，闵锦，周雅倩，等．基于ＨｏｗＮｅｔ的词汇语义倾向计算【Ｊ］．中文信息学报，２００６，２１（１）：１４—２０．徐琳宏，林鸿飞，杨志豪．基于语义理解的文本倾向性识别机制［Ｊ］．中文信息学报。２００７，２１［Ｉ］：９６—１００．王根，赵军．中文褒贬义词语倾向性的分析［ｃ］／／第

（上接第６１页）

ＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎ—

ｇｕｉｓｔｉｃｓ，ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ．１９９９．

ｅｎｃｅ

ｏｎ

ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ。Ｅｄｉｎｂｕｒｇｈ，Ｓｃｏｔｌａｎｄ。

２００５：１０６７—１０７２．

［２３］Ｋ．Ｕｅｈｉｍｏｔｏ，Ｑ．Ｍａ，Ｍ．Ｍｕｒａｔａ，Ｈ．Ｏｚａｋｕ，ａｎｄ

Ｈ．Ｉｓａｈａｒａ．ＮａｍｅｄＥｎｔｉｔｙＥｘｔｒａｃｔｉｏｎＢａｓｅｄ

ｏｎ

［２６］Ｈ．Ｔ．Ｎｇ

ＢａｓｅｄＯｒ

ａｎｄ

Ｊ．Ｋ．Ｌｏｗ．ＣｈｉｎｅｓｅＰａｒｔ－Ｏｆ－Ｓｐｅｅｃｈ

Ｏｒ

Ａ

Ｔａｇｇｉｎｇ：Ｏｎｅ－Ａｔ－Ａ—Ｔｉｍｅ

Ａｌｌ－Ａｔ－Ｏｎｃｅ？Ｗｏｒｄ—

ｏｆ

ｔｈｅ

ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌａｎｄＴｒａｎｓｆｏｒｍａｔｉｏｎＲｕｌｅｓＣｈａｒａｃｔｅｒ－Ｂａｓｅｄ？［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｎ

［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

Ａｓｓｏｃｉａｔｉｏｎ

ｆｏｒ

ｏｆｔｈｅ３８ｔｈＡｎｎｕａｌＣｏｍｐｕｔａｔｉｏｎａｌ

Ｍｅｅｔｉｎｇｏｆｔｈｅ

Ｃｏｎｆｅｒｅｎｃｅ

ｇｕａｇｅ

Ｅｍｐｉｒｉｃａｌ

ＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎ—

Ｌｉｎｇｕｉｓｔｉｃｓ。Ｈｏｎｇ

Ｐｒｏｃｅｓｓｉｎｇ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ．２００４．

ｗｏｒｄ

Ｋｏｎｇ，Ｃｈｉｎａ．２０００．

［２７］Ｈ．Ｄｕａｎ，Ｘ．Ｂａｉ，Ｂ．Ｃｈａｎｇ，Ｓ．Ｙｕ．Ｃｈｉｎｅｓｅ

ｗｉｔｈＳｕｐ—ｏｆ

Ｓｅｃｏｎｄ

［２４］Ｔ．Ｋｕｄｏ，ａｎｄＹ．Ｍａｔｓｕｍｏｔｏ．Ｃｈｕｎｋｉｎｇ

ｐｏｒｔ

ｓｅｇｍｅｎｔａｔｉｏｎ

ｏｆ

ｔｈｅｓｅｃｏｎｄ

ａｔ

ＰｅｋｉｎｇＳＩＧＨＡＮ

ｕｎｉｖｅｒｓｉｔｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｗｏｒｋｓｈｏｐ

ｏｎ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

Ｃｈｉｎｅｓｅｌａｎ—

ＭｅｅｔｉｎｇｏｆＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａ—

ｔｉｏｎ

ｆｏｒ

Ｃｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ，Ｐｉｔｔｓｂｕｒｇｈ，

ｇｕａｇｅ

ｐｒｏｃｅｓｓｉｎｇ．Ｓａｐｐｏｒｏ，Ｊａｐａｎ，２００３：１５２—１５５．

ｉｍｐｏｒｔａｎｃｅ

ｒｏｌｅｌａ一

［２８］Ｖ．Ｐｕｎｙａｋａｎｏｋ，Ｄ．Ｒｏｔｈ，Ｗ．Ｙｉｈ．Ｔｈｅ

ｂｅｌｉｎｇＦＪ］．Ｃｏｍｐｕｔａｔｉｏｎａｌ

２５７—２８７．

ＵＳＡ．２００１．

ｏｆｓｙｎｔａｃｔｉｃｐａｒｓｉｎｇａｎｄｉｎｆｅｒｅｎｃｅｉｎｓｅｍａｎｔｉｃ

Ａｒｇｕｍｅｎｔ

［２５］Ｚ．Ｐ．Ｊｉａｎｇ，Ｊ．Ｌｉ，Ｈ．Ｔ．Ｎｇ．Ｓｅｍａｎｔｉｃ

Ｃｌａｓｓｉｆｉｃａｔｉｏｎ

Ｅｘｐｌｏｉｔｉｎｇ

Ｌｉｎｇｕｉｓｔｉｃｓ，２００８，３４（２）：

ＡｒｇｕｍｅｎｔＩｎｔｅｒｄｅｐｅｎｄｅｎｃｅ

［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌ

ＪｏｉｎｔＣｏｎｆｅｒ—

基于同义词的词汇情感倾向判别方法

作者：作者单位：

王素格，李德玉，魏英杰，宋晓雷， WANG Su-ge， LI De-yu， WEI Ying-jie， SONG Xiao-lei

王素格,WANG Su-ge(山西大学,数学科学学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006)，李德玉,LI De-yu(山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,山西,太原,030006)，魏英杰,WEI Ying-jie(科学出版社,北京,100717)，宋晓雷,SONG Xiao-lei(山西大学,数学科学学院,山西,太原,030006)中文信息学报

JOURNAL OF CHINESE INFORMATION PROCESSING2009,23(5)1次

刊名：英文刊名：年，卷(期)：被引用次数：

参考文献(12条)

1. PETER D Turney;MICHAEL L Littman Unsupervised learning of semantic orientation from a hundred-billion-word corpus.[Tech.Rep.EGB-1094] 2002

2. PETER D Turney;MICHAEL L Littman Measuring praise and criticism:inference of semantic orientationfrom association[外文期刊] 2003(04)

3. PETER D Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervisedclassification of reviews 2002

4. 王素格基于Web的评论文本的情感分类问题研究 20085. 杨玲;朱英贵贬义词词典 20056. 史继林;朱英贵褒义词词典 20057. 张伟;刘缙;郭先珍学生褒贬义词典 20048. 王根;赵军中文褒贬义词语倾向性的分析 2006

9. 徐琳宏;林鸿飞;杨志豪基于语义理解的文本倾向性识别机制[期刊论文]-中文信息学报 2007(1)10. 朱嫣岚;闵锦;周雅倩基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(01)

11. YUEN Raymond W M;CHAN Terence Y W;LAI Tom B Y Morpheme-based derivation of bipolar semanticorientation of Chinese words 2004

12. DAVE K;LAWRENCE S;PENNOCK D Mining the peanut gallery.,opinion extraction and semanticclassification of product reviews 2003

引证文献(2条)

1. 彭学仕. 孙春华面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)2. 彭学仕. 孙春华面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_zwxxxb200905010.aspx

第２３卷第５期２００９年９月

中文信息学报

ＪＯＵＲＮＡＩ。ｏＦＣＨＩＮＥＳＥＩＮＦＯＲＭＡＴｌ０ＮＰＲｏＣＥＳＳＩＮＧ

Ｖ０１．２３，Ｎｏ．５

Ｓｅｐ．，２００９

文章编号：１００３－００７７（２００９）０５—００６８—０７

基于同义词的词汇情感倾向判别方法

王素格１’３，李德玉２”，魏英杰４，宋晓雷１

倾向，我们提出了基于同义词的词汇情感倾向判别方法，这种方法一定程度上避免了数据稀疏问题。实验结果表

中图分类号：ＴＰ３９１

文献标识码：Ａ

ＡＳｙｎｏｎｙｍｓＢａｓｅｄ

ＷｏｒｄＳｅｎｔｉｍｅｎｔ

ＯｒｉｅｎｔａｔｉｏｎＤｉｓｃｒｉｍｉｎａｔｉｎｇ

ＷＡＮＧＳｕ－ｇｅｌ”，ＬＩＤｅ－ｙｕ２“，ＷＥＩＹｉｎｇ－ｊｉｅ４，ＳＯＮＧＸｉａｏ－ｌｅｉｌ

（１．Ｓｃｈｏｏｌｏｆ

２．Ｓｃｈｏｏｌｏｆ

ＭａｔｈｅｍａｔｉｃｓＳｃｉｅｎｃｅ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；

ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，

ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；４．Ｓｃｉｅｎｃｅ

Ｐｒｅｓｓ，Ｂｅｉｊｉｎｇ１００７１７，Ｃｈｉｎａ）

ｆｌＳ

ｔｈｅｐｈｒａｓｅ，ｔｈｅｓｅｎｔｅｎｃｅ，ｔｈｅｐａｒａｇｒａｐｈａｎｄｔｈｅｔｅｘｔ．Ｔｈｉｓ

ｏｎ

ｐａｐｅｒｐｒｏｐｏｓｅｓ

ａ

ｐａｒａｄｉｇｍｗｏｒｄｓｅｌｅｃｔｉｏｎｍｅｔｈ—

ａ

ｏｄｂａｓｅｄｔｈｅ

ｃａｔｅｇｏｒｙ

ｄｉｓｔｉｎｇｕｉｓｈｉｎｇａｂｉｌｉｔｙｏｆ

ａ

ｗｏｒｄ

ａｎｄｔｈｅｓｅｎｔｉｍｅｎｔｗｏｒｄｔａｂｌｅ．Ｉｎｃｏｎｓｉｄｅｒａｔｉｏｎｏｆｔｈａｔ

ｐｒｏｐｏｓｅ

ａ

ｗｏｒｄｕｓｕａｌｌｙｈａｓｔｈｅｓａｍｅｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｗｉｔｈｉｔｓｓｙｎｏｎｙｍｓ，ｗｅｔａｔｉｏｎ

ｍｅｔｈｏｄｆｏｒｗｏｒｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎ—

ｉｓｓｕｅｉｎ

ｏｎ

ａ

ｄｉｓｃｒｉｍｉｎａｔｉｎｇｂａｓｅｄ

ｏｎ

ｓｙｎｏｎｙｍｓ．Ｔｈｅｍｅｔｈｏｄ

ｃａｎ

ａｖｏｉｄｔｈｅｄａｔａ

ｔＯ

ｓｐａｒｓｅｎｅｓｓ

ｃｅｒｔａｉｎｅｘｔｅｎｔ．Ｔｈｅ

ｐａｒａ＋

ｔｈｅｍｅｔｈｏｄｂａｓｅｄｔｈｅ

ｏｂｊｅｃｔｗｏｒｄａｎｄ

ｌａｔｉｏｎｉｎｔｅｎｓｉｔｙ；ｓｙｎｏｎｙｍ

计算语言学中，利用小粒度语言单元研究较大粒度

１

引言

从语言学角度，语言粒度从小到大依次为语素、

语言单元是一种基于解析思想的常用方法。

词、短语、句子、段落、篇章。文本的语义信息蕴含于各个层次的语言粒及语言粒的各种语法关系中。在

收稿日期：２００８一１０一１５定稿日期：２００９－０５－０４

基金项目：国家自然科学基金资助项目（６０８７５０４０）；教育部科学技术研究重点基金（２００７０１８）；教育部高等学校博士点基

５期王素格等：基于同义词的词汇情感倾向判别方法６９

２词与词集间关联强度度量

（１）词与词间的关联强度点互信息（ＰｏｉｎｔＷｉｓｅＭｕｔｕａｌ

Ｉｎｆｏｒｍａｔｉｏｎ，

性０１ｔ２‘。

两个词ｗｏｒｄｌ和ｗｏｒｄ２之间的点互信息ＰＭＩ

（ｗｏｒｄｌ，ｗｏｒｄ２）定义为：

ＰＭＩ（ｚｔｏｒｄｌ，ｕｏｒｄ２）一ｌｏｇｚ（篇黯器）

（１）

在实际应用中，公式（１）中的概率可以通过语料中两个词的同现信息进行估计。因此有下面的近似公式：

ＰＭＩ（ｕｏｒｄｌ，ｕｏｒｄ２）

．

≈ｌｏｇｚ

Ｉ瓦ｉ瓦磊万万丐■万页ｉ丽Ｊ

，Ｎ×ｈｉｔｓ（ｗｏｒｄｌ，ｗｏｒｄ２）、

，”¨’

（２）词与词集间关联强度

一删乏一崦ｚ（篇揣

Ｐ』Ⅵ，（ｖ．ｏｒｄ，ｚｔｏｒｄＳｅｔ）

（３）

３基于同义词的词汇情感倾向判别

基准词集：基准词集是指褒贬义倾向非常明显、强烈、具有代表性的词汇所构成的集合。基准词集被分为褒义基准词集和贬义基准词集，分别记为

Ｐｗｏｒｄｓ和Ｎｗｏｒｄｓ。

ｓＤ—ＰＭＩ（ｖ．ｏｒｄ）

一

加口ｒ西Ｅｃ口耐，

∑ＰＭＩ（ｗｏｒｄ，ｐｗｏｒｄ）一

。。怠。ｒｄ，

ｙ

ＰＭＩ（ｕｏｒｄ，删ｏｒｄ）

（４）

再由公式＜２）和（４），得出印一ＰＭＩ（ｕｏｒｄ）划０８２

Ｉ彳产面面广亍篙蒜Ｊ

ｆⅡｈｉｔｓ（ｕｏｒｄ，加ｏｒｄ）Ｐｉｈｉｔｓ（ｎｗｏｒｄ）ｌ

Ｉ

Ⅱ

舰ｓ（加一）

Ⅱ

础ｓ（伽耐，舢０耐）Ｊ

（５）

７０

中文信息学报

２００９盔

Ｎｅｗ—ｓＤ—ＰＭＩ（饥ｏｒｄ）

一－－－Ｏｇ・ｌｓ０一ＰＭＩ（ｗｏｒｄ）

ｎ

＋ｐ・２：ｓ。一ＰＭＩ（口；）（６）

二五

（ｗｏｒｄ）＝Ｓ０

ＰＭＩ（ｗｏｒｄ），即为直接使用词的情感

倾向强度。

（１）新ＰＯＬＯ的悬架经过调拨后，舒适性有所增强，配合舒适的座椅，那种冲过坑洼的颠簸感只是在踏板上能有清晰感觉。

（２）新车强调驾乘乐趣，即保证宝马良好操纵性能的基础上加强乘坐的舒适性，着力营造良好的

商务空间。

就考察词的倾向性而言，从统计词的角度看，将一个词与其同义词或近义词按不同词对待，将会导致大量稀疏数据。

词汇情感倾向类别确定：

对一个词ｗｏｒｄ，利用公式（６）可以计算其情感

倾向强度，设口。，晚（曰。≥０２）是两个实数，称为阈值，词ｗｏｒｄ的情感类别Ｓｏ（ｗｏｒｄ）可由判别公式（７）得到。

Ｓｏ（ｗｏｒｄ）

ｆ褒义，Ｎｅｗ—ＳＯ—ＰＭＩ（ｗｏｒｄ）＞０ｌ

一．｛中性，

岛≤Ｎｅｗ一１ｓ。一ＰＭＩ（ｕｏｒｄ）≤０。（７）

【贬义，Ｎｅｗ一＇ｓ０一ＰＭＩ（ｚｍｒｄ）＜０２

４基准词的选取方法

８

４２７个，反面７４５９个），其中仅来源于一部词典的

词条１１６８２个（ｉＥ面为６１２９个，反面为５５５３个）。另有来源于多个词典的词条４２０４个（正面为２２９８

个，反面为１９０６个）。详细情况参见文献［－１２７。

词汇的类别区分能力的度量采用一种与文本长度无关的基于词频（频率）概率估计的Ｆｉｓｈｅｒ准则函数计算方法［１引。

中任取一篇，显然Ｐ（ｄ蹦）一去，现以竺篆导代替文

本ｄＰ∽则有随机变量Ｘ１：Ｐ（ｄｅ．。）＝Ｐｆ坐型１＝

三（ｉ一１，２，…，７７ｚ）。对反面文本作类似的考虑，则

有随机变量ｘ２：Ｐ（巩≯一Ｐ（竺笔警卫）一丢（』＝

１，２，…，，ｚ）。这样则有，

Ｅ（ｔ。ＩＰ）一Ｅ（Ｘ１）一１∑婴丛盟，

１ｎ；五

‘ｕｐ．ｉ

Ｅ（ｔ。Ｉ

Ｎ）：Ｅ（Ｘ２）＝土∑型，

Ｈ

ｊ一１

。ＵＮ・ｉ

眦・，一去善（掣咽Ｘ１））２，

５期王素格等：基于同义词的词汇情感倾向判别方法７１

粥２，一吾耋（掣一Ｅ（Ｘ２））２

基于词频（频率）概率估计的Ｆｉｓｈｅｒ准则函数计算有：

ｍＸ

ＤＣＢｗｏｒｄＳｅｔ中的正反类别中各前Ｎ个词，作为最终选定的褒贬基准词集ＢＷｏｒｄＳｅｔ。

Ｘ（行×砉掣二ｍ×宴掣）２拟耋（ｍ×掣一耋掣）２耐×骞（以×掣一骞掣）２

ｎ

川一等摧箨帮

５实验结果与分析

根据第４节中基准词选取步骤，选取Ｍ一

４

（８）

基于词汇类别区分能力与情感词表相结合的基准词选取方法的具体步骤：、

１）利用公式（８），计算语料库中名词、形容词和动词的类别区分能力，选出区分能力较强的词Ｍ个，获得词集ＣＷｏｒｄＳｅｔ。

ＤＣＢＷｏｒｄＳｅｔ。

０００，Ｎ一４０，得到褒贬基准词集如表１、表２所示。

３）根据事先设定的基准词个数Ｎ，选取词集

表１褒义基准词集

好

风格乐趣满足

安全优势省油享受

不错保证

先进出色

喜欢加速实在漂亮适合

舒适豪华稳定保护轻松

满意爱品质值得完美

解决提升

全新

成功提高

舒服

最好平稳

方便好车

优点

良好

实用

表２贬义基准词集

碰撞

不足

噪音故障怀疑隐患

事故毛病

不好撞击断粗糙

严重

断裂危险颠簸

下降

失望震动造成

缺点担心损失难看

不够倒噪声不爽

死车祸麻烦伤害

缺陷不行后悔

郁闷

变形

遗憾

冲击

恐怕

测试词集选用语料中的词集与情感词汇词表交集的词汇，共有２９５８个。采用两种方式进行实验。

１）面向语料

实验１：为了验证本文提出的情感基准词选取

方法的优势，将本文选出的基准词与文献Ｅ６］列出的基准词进行了对比实验，基准词分别选出４０对、前１０对和前５对。测试结果见表３。

由表３可知：

①随着基准词数量的增加，词汇的情感倾向判别的精确率逐渐升高。

②利用本文选择的基准词得到的词汇情感分类结果整体优于文献１－６］提供基准词的结果。

７２

中文信息学报

２００９焦

表３不同基准词对词汇情感倾向判别的影响

权

基准词

口

值

卢

ＯＯ．５Ｏ

４０对

阈值

—Ｏ．３４０

４

１０对

Ｐ／％

６７．５１６９．８１５６．２８６１．１６

５对

Ｐ／％

阈值

—Ｏ．５５２６一Ｏ．５５２６２．２７４２．２７４

Ｏｏ

阈值

一Ｏ．５５２

６

Ｐ／％

６５．７８

１６７．ＯＯ６８．７３４６；１４５５．１０

本文

０．５１

一Ｏ．１７４５４．０６９

７

一Ｏ．１８２３２．４９０３２．５１４２

６７．４１４５．２０５４．７７

文献Ｅ６］

ｏ．５

Ｏ．５

３．３６１８

表４

权

方法

口

别，应选择面向领域的基准词集，避免使用通用基准词集。以下实验中的基准词集均选用表１和表２中的４０对基准词。

实验２：由于我们采用的基于同义词的词汇的情感倾向判别方法，在一定程度上依赖于词的同义词，因此，采用了以下两种方法进行了对比实验。

方法Ａ（基于同义词的词汇情感倾向判别）：对口和口，分别采用五组不同的值得到词的情感倾向；

方法Ｂ（直接使用同义词词典）：采用基准词的情感倾向和同义词词典，用于词的情感倾向判别。

上述两种方法得到实验结果见表４。

采用方法Ａ和方法Ｂ的词汇情感倾向判别结果

值

阈值

卢

Ｏ０．２Ｏ．３

Ｏ．４

１

ＰＰＰＲＰＦＮＰＮＲ

ＮＦＰ

一０．３４０４—０．０８４９一Ｏ．１３９

７

７２．０９７３．１６７３．０４７３．１０７２．８９９８．７０

８５．４８８８．２１８８．３５８８．６０８８．７５７．５３

７８．２１７９．９８７９．９７８０．１１８０．０４１４．ＯＯ

４８．１４５４．６７５４．５５５５．０８５４．６９９２．３１

２８．９４３０．５１

３０．ＯＯ

３６．１５

３９．１８

６７．５１６９．８８６９．８１６９．９８６９．８１６．３６

Ｏ．８

方法ＡＯ．７Ｏ．６

Ｏ．５

３８．７１３８．８４３８．０３

７．５４

一Ｏ．１９．８８一Ｏ．１７．４５

３０．００２９．１５３．８３

０．５

方法Ｂ

实验３：为了进一步说明同义词在词汇情感倾向判别的作用，我们去掉没有同义词的词，仅仅对含

表５

权

方法

口

有同义词的词采用方法Ａ和方法Ｂ，重复实验２的过程，得到的实验结果见表５。

对含有同义词的词采用方法Ａ和方法Ｂ的词汇情感倾向判别结果

值

阈

卢

Ｏ０．２０．３Ｏ．４

Ｏ．５

值

ＰＰＰＲＰＦＮＰＮＲＮＦＰ

１Ｏ．８

—Ｏ．８０８２

—０．９２８—０．７０９２．１５７

７７５

７５．３９７７．３６

７７．３０

８７．３８９４．５４９４．６６９０．２９９０．２９１８．４５

８０．９４８５．０９８５．１１８４．７４８４．８３３１．０８

４９．５１７０．７８

７１．０５

３０．２７３２．３４３２．０５４４．２１４４．８１１０．６８

３７．５７４４．４０４４．１７５２．６５５３．１７１９．１５

７０．８０７６．４９

７６．４９

方法Ａ

Ｏ．７

Ｏ．６Ｏ．５

７９．８３８０．００

９８．７０

６５．０７６５．３７

９２．３１

７６．９２７７．０９１６．１９

４．２９０５

方法Ｂ

５期王素格等：基于同义词的词汇情感倾向判别方法７３

③对于ｏ＜瓞Ｏ．５时，两表中四种情况的词汇

情感倾向判别结果的总体精度（Ｐ）都相差不大，验证了我们在第３节中的最初设想，具有同义词的不同词语可以表达相同的语义信息。

２）面向Ｗｅｂ

ＧｏｏｇｌｅＡＰＩ。然而Ｇｏｏｇｌｅ

ＡＰＩ的不足之处在于其

返回的相关网页数量是一个估计值，这可能会给ＰＭＩ计算模型引入一些噪音。但是从总体上看，几个查询之间返回的网页数量比例还是相对比较稳

定的。

由此结果可以看出：

①基于同义词的词汇情感倾向强度方法的分类效果优于基于词的情感倾向强度的方法。再次验证了利用同义词集确实可以改善词的情感倾向识

别。

，●

６

结束语

词汇作为构成短语、搭配、关联对、句子和文本

更新。

感谢

参考文献：

Ｅ１］

ＰＥＴＥＲＤ．Ｔｕｒｎｅｙ．Ｔｈｕｍｂｓｕｐ

ｏｒ

ｔｈｕｍｂｓｄｏｗｎ？Ｓｅ—

ｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔＯ

ｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆ

ｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅ４０ｔｈＡｎｎｕａｌ

Ｍｅｅｔ—

ｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ

（ＡＣＬ）／／Ｐｈｉｌａｄｅｌｐｈｉａ，ＰＡ，ＵＳＡ．２００２：４１７－４２４．

Ｅ２２ＰＥＴＥＲＤ．Ｔｕｒｎｅｙ

ａｎｄＭＩＣＨＡＥＬＬ．Ｌｉｔｔｍａｎ．

Ｍｅａｓｕｒｉｎｇｐｒａｉｓｅａｎｄｃｒｉｔｉｃｉｓｍ：ｉｎｆｅｒｅｎｃｅｏｆｓｅｍａｎｔｉｃ

ｏｒｉｅｎｔａｔｉｏｎ

ｆｒｏｍａｓｓｏｃｉａｔｉｏｎ［Ｊ］．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓ

ｏｎ

ＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２００３，２１（４）：３１５－３４６．

［３］ＰＥＴＥＲＤ．ＴｕｒｎｅｙａｎｄＭＩＣＨＡＥＬＬ．Ｌｉｔｔｍａｎ．Ｕｎ—

ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｆｒｏｍａ

ｈｕｎ—

ｄｒｅｄ—ｂｉｌｌｉｏｎ—ｗｏｒｄ

ｃｏｒｐｕｓ［Ｒ］．Ｔｅｃｈ．Ｒｅｐ．ＥＧＢ－１０９４，

ＮａｔｉｏｎａｌＲｅｓｅａｒｃｈＣｏｕｎｅｉｌＣａｎａｄａ：２００２．

［４］ＤＡＶＥＫ．，ＬＡＷＲＥＮＣＥ

Ｓ．，ａｎｄＰＥＮＮＯＣＫＤ．．

Ｍｉｎｉｎｇｔｈｅ

ｐｅａｎｕｔ

ｇａｌｌｅｒｙ：ｏｐｉｎｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄ

ｓｅ—

ｍａｎｔｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄ—

ｉｎｇｓｏｆｔｈｅ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌ

ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎ－

ｆｅｒｅｎｃｅ．Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ：２００３．

７４

中文信息学报

２００９年

［５］

ＹＵＥＮ

ＲａｙｍｏｎｄＷ．Ｍ．・ＣＨＡＮＴｅｒｅｎｃｅＹ．Ｗ．，ＬＡＩ

ａ１．Ｍｏｒｐｈｅｍｅ－ｂａｓｅｄｄｅｒｉｖａｔｉｏｎｏｆｂｉｐｏ—

三届学生计算语言学研讨会论文集．沈阳．２００６：８１—

８５．

ＴｏｍＢ．Ｙ．ｅｔ

ｌａｒｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｏｆＣｈｉｎｅｓｅ

ｗｏｒｄｓ［Ｃ］／／Ｐｒｏｃ．

ｏｎ

［９］张伟，刘缙，郭先珍．学生褒贬义词典［Ｍ］．中国大百科全书出版社．２００４．

Ｏｆｔｈｅ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

Ｃｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ－２００４），Ｇｅｎｅｖａ，Ｓｗｉｔｚｅｒｌａｎｄ．２００４：１００８—１０１４．

［１０］史继林，朱英贵．褒义词词典［Ｍ］．四川：四ＪＩｌ辞书出

版社．２００５．

［１１］杨玲，朱英贵．贬义词词典［Ｍ］．四川：Ｉ匹ｌＪＩｆ辞书出版

社．２００５．

口２］王素格．基于Ｗｅｂ的评论文本的情感分类问题研究

［Ｄ］．博士论文．上海：上海大学．２００８．

［６］［７］［８］

（上接第６１页）

ＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎ—

ｇｕｉｓｔｉｃｓ，ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ．１９９９．

ｅｎｃｅ

ｏｎ

ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ。Ｅｄｉｎｂｕｒｇｈ，Ｓｃｏｔｌａｎｄ。

２００５：１０６７—１０７２．

［２３］Ｋ．Ｕｅｈｉｍｏｔｏ，Ｑ．Ｍａ，Ｍ．Ｍｕｒａｔａ，Ｈ．Ｏｚａｋｕ，ａｎｄ

Ｈ．Ｉｓａｈａｒａ．ＮａｍｅｄＥｎｔｉｔｙＥｘｔｒａｃｔｉｏｎＢａｓｅｄ

ｏｎ

［２６］Ｈ．Ｔ．Ｎｇ

ＢａｓｅｄＯｒ

ａｎｄ

Ｊ．Ｋ．Ｌｏｗ．ＣｈｉｎｅｓｅＰａｒｔ－Ｏｆ－Ｓｐｅｅｃｈ

Ｏｒ

Ａ

Ｔａｇｇｉｎｇ：Ｏｎｅ－Ａｔ－Ａ—Ｔｉｍｅ

Ａｌｌ－Ａｔ－Ｏｎｃｅ？Ｗｏｒｄ—

ｏｆ

ｔｈｅ

ｏｎ

［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

Ａｓｓｏｃｉａｔｉｏｎ

ｆｏｒ

ｏｆｔｈｅ３８ｔｈＡｎｎｕａｌＣｏｍｐｕｔａｔｉｏｎａｌ

Ｍｅｅｔｉｎｇｏｆｔｈｅ

Ｃｏｎｆｅｒｅｎｃｅ

ｇｕａｇｅ

Ｅｍｐｉｒｉｃａｌ

ＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎ—

Ｌｉｎｇｕｉｓｔｉｃｓ。Ｈｏｎｇ

Ｐｒｏｃｅｓｓｉｎｇ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ．２００４．

ｗｏｒｄ

Ｋｏｎｇ，Ｃｈｉｎａ．２０００．

［２７］Ｈ．Ｄｕａｎ，Ｘ．Ｂａｉ，Ｂ．Ｃｈａｎｇ，Ｓ．Ｙｕ．Ｃｈｉｎｅｓｅ

ｗｉｔｈＳｕｐ—ｏｆ

Ｓｅｃｏｎｄ

［２４］Ｔ．Ｋｕｄｏ，ａｎｄＹ．Ｍａｔｓｕｍｏｔｏ．Ｃｈｕｎｋｉｎｇ

ｐｏｒｔ

ｓｅｇｍｅｎｔａｔｉｏｎ

ｏｆ

ｔｈｅｓｅｃｏｎｄ

ａｔ

ＰｅｋｉｎｇＳＩＧＨＡＮ

ｕｎｉｖｅｒｓｉｔｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｗｏｒｋｓｈｏｐ

ｏｎ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

Ｃｈｉｎｅｓｅｌａｎ—

ＭｅｅｔｉｎｇｏｆＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａ—

ｔｉｏｎ

ｆｏｒ

Ｃｏｍｐｕｔａｔｉｏｎａｌ

Ｌｉｎｇｕｉｓｔｉｃｓ，Ｐｉｔｔｓｂｕｒｇｈ，

ｇｕａｇｅ

ｐｒｏｃｅｓｓｉｎｇ．Ｓａｐｐｏｒｏ，Ｊａｐａｎ，２００３：１５２—１５５．

ｉｍｐｏｒｔａｎｃｅ

ｒｏｌｅｌａ一

［２８］Ｖ．Ｐｕｎｙａｋａｎｏｋ，Ｄ．Ｒｏｔｈ，Ｗ．Ｙｉｈ．Ｔｈｅ

ｂｅｌｉｎｇＦＪ］．Ｃｏｍｐｕｔａｔｉｏｎａｌ

２５７—２８７．

ＵＳＡ．２００１．

ｏｆｓｙｎｔａｃｔｉｃｐａｒｓｉｎｇａｎｄｉｎｆｅｒｅｎｃｅｉｎｓｅｍａｎｔｉｃ

Ａｒｇｕｍｅｎｔ

［２５］Ｚ．Ｐ．Ｊｉａｎｇ，Ｊ．Ｌｉ，Ｈ．Ｔ．Ｎｇ．Ｓｅｍａｎｔｉｃ

Ｃｌａｓｓｉｆｉｃａｔｉｏｎ

Ｅｘｐｌｏｉｔｉｎｇ

Ｌｉｎｇｕｉｓｔｉｃｓ，２００８，３４（２）：

ＡｒｇｕｍｅｎｔＩｎｔｅｒｄｅｐｅｎｄｅｎｃｅ

［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌ

ＪｏｉｎｔＣｏｎｆｅｒ—

基于同义词的词汇情感倾向判别方法

作者：作者单位：

王素格，李德玉，魏英杰，宋晓雷， WANG Su-ge， LI De-yu， WEI Ying-jie， SONG Xiao-lei

JOURNAL OF CHINESE INFORMATION PROCESSING2009,23(5)1次

刊名：英文刊名：年，卷(期)：被引用次数：

参考文献(12条)

1. PETER D Turney;MICHAEL L Littman Unsupervised learning of semantic orientation from a hundred-billion-word corpus.[Tech.Rep.EGB-1094] 2002

2. PETER D Turney;MICHAEL L Littman Measuring praise and criticism:inference of semantic orientationfrom association[外文期刊] 2003(04)

3. PETER D Turney Thumbs up or thumbs down? Semantic orientation applied to unsupervisedclassification of reviews 2002

11. YUEN Raymond W M;CHAN Terence Y W;LAI Tom B Y Morpheme-based derivation of bipolar semanticorientation of Chinese words 2004

12. DAVE K;LAWRENCE S;PENNOCK D Mining the peanut gallery.,opinion extraction and semanticclassification of product reviews 2003

引证文献(2条)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_zwxxxb200905010.aspx

基于同义词的词汇情感倾向判别方法

相关内容

热门内容

标签