浅层句法分析方法概述

浅层句法分析方法概述

孙宏林 俞士汶

一、引言

浅层句法分析(shallow parsing) ,也叫部分句法分析(partial parsing) 或语块分析(chunk parsing) ,是近年来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常被称作语块(chunk),语块和短语这两个概念通常可以换用。

浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的一个子图(subgraph),只要加上语块之间的依附关系(attachment),就可以构成完整的句法树。所以浅层句法分析将句法分析分解为两个子任务:(1)语块的识别和分析;(2)语块之间的依附关系分析。浅层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。 90年代以来,国外在英语的浅层句法方面做了不少工作,国内也有一些学者采用英语中的方法探索汉语的浅层句法分析。本文主要就在英语浅层句法分析中所应用的一些技术进行简要的介绍,并简单介绍汉语的有关研究。其中有些方法虽然是面向完全句法分析的,但由于其对完全句法分析的任务进行了分解,所以其技术也可以归入浅层分析的范畴。概括起来,句法分析的方法基本上可以分成两类:基于统计的方法和基于规则的方法。当然也可以采用规则和统计相结合的混合方法。下面第2节介绍基于统计的方法,第3节介绍基于规则的方法,第4节简要介绍汉语的有关研究,最后是结束语。

二、基于统计的方法

随着语料库技术的发展,近10年来许多统计方法被用在短语识别和分析方面。这些方法的理论主要来自概率统计和信息论。以下将介绍其中具有代表性的几种方法:(1)基于隐

2马尔科夫模型的方法;(2)互信息方法;(3) 统计方法;(4)基于中心词依存概率的方法。

2.1 基于隐马尔科夫模型(HMM)的方法

隐马尔科夫模型(Hidden Markov Models,HMMs)是从语音识别中发展出来的一种统计技术(Rabiner,1989),它提供了一种基于训练数据提供的概率自动构造识别系统的技术。一个隐马尔科夫模型包含两层:一个可观察层和一个隐藏层,这个隐藏层是一个马尔科夫过程,即是一个有限状态机,其中每个状态转移都带有转移概率。在语音识别中,可观察层是声音片段的序列,隐藏层是用音素序列表示的词的发音的有限状态模型。用口语录音片段及其转写(transcription)作为训练数据训练HMM ,它就可以用作识别器,用于识别未训练过的声音片段,从而生成口语的转写形式。

计算语言学家最早把HMM 技术应用于英语的词性标注并取得了极大的成功,仅依靠简单的统计方法就可以达到95%左右的正确率。在词性标注中,可观察层是词的序列,隐藏层是词类标记的序列,训练数据是标注好词性的文本语料,经过训练的HMM 就成为自动标注器,它可以给只包含词序列的文本中的每个词标注上词类标记。

Church(1988)进一步把HMM 用于识别英语中简单的非递归的名词短语,他把短语边界识别化为一个在词类标记对之间插入NP 的左边界("[")和NP 的右边界("]")的问题。如果不考虑空短语(即"[])和短语的嵌套(如"[[","]]","][["等),那么在一对词类标记之间只有四种情况:(1) [ ;(2) ] ;(3) ][;(4) 空(即无NP 边界)。进一步可以把最后一种分为两种情况:(a)无NP 边界但在NP 之内(I );(b)无NP 边界但在NP 之外(O )。这样任意一

对词类标记之间就只存在5种可能的状态: (1) [ ;(2) ] ;(3) ][;(4) I ;(5) O 。Church 的方法是:首先,在标注词性的语料中人工或半自动标注NP 边界,以此作为训练数据,然后统计出任意一对词类标记之间出现以上5种状态的概率。统计得到的概率就成为短语边界标注的根据。这实际上把短语边界的识别变成了一个与词性标注类似的问题。如: 输入: $ the procecutor said in closing that (词序列) DT NN VB IN NN CS (词性序列) 输出:

(词性标记对) | | | | | |

[ I ] O [ ] (NP 边界)

2.2 互信息方法

互信息(mutual information) 是信息论中的一个概念(Fano,1961),它用来度量一个消息中两个信号之间的相互依赖程度。二元互信息是两个事件的概率的函数:

(1)

我们可以把词类序列看成随机事件,这样就可以计算一对词类标记之间的互信息。如果X 和Y 在一起出现的机会多于它们随机出现的机会,则P(X,Y)>>P(X) ×P(Y),即MI(X,Y)>>0;如果X 和Y 是随机分布的,则P(X,Y)≈P(X)×P(Y),即MI(X,Y) ≈0;如果X 和Y 是互补分布的,则P(X,Y)
为了确定句子中短语的边界,不能局限于bigram (两个符号的组合)内部的互信息,需要看更多的上下文,即把二元互信息扩展为n-gram (n 个符号的组合)内部的互信息。Magerman & Marcus(1990)提出了广义互信息(generalized mutual information) 的概念,它根据两个相邻的词类标记的上下文(在一个观察窗口内)来决定它们之间是否是一个短语边界所在。在下面的公式中,MI 表示二元互信息,MI n 是一个向量,它表示n-gram(x 1„x n ) 中任意两个部分之间的互信息,表示这个向量中的第k 个分量(1≤k
一个n-gram(x 1„x n ) 内部有n-1个二分切分点,每一个切分点的二元互信息为:

(x 1„x n ) = MI (x 1„x k , xk+1„x n ) (2)

(3)

在公式(3)中,对于每个(k=1,2, „, n-1),分子都相同,当分母最大时,互信息值最小。

基于互信息的短语边界划分的理论基础是:在n-gram 中,局部广义互信息值最小的一对标记之间就是短语边界所在的位置。理论推导参见Mamerman & Marcus (1990)。

在n-gram(x 1„x i ,y 1„y j ) (1≤i
(4)

这里,GMI n(i+j)(x1„x i ,y 1„y j ) 表示在一个n-gram 中两个相邻的元素x i 和y 1之间的广义互信息,X 表示n-gram 中以x i 结束的词类标记串,Y 表示n-gram 中以y 1开始的词类标记串。σXY 是XY 中

2(|XY | = i+j,0
22.3 φ统计方法 Gale & Church(1991)用φ统计方法来度量两个词之间的关联度。Chen & Lee(1995)用

这种方法来确定短语的边界。

对于两个词w 1和w 2,可以建立如下的联立表(contingency table):

在上表中,a 表示串1212w 1的出现次数,c 表示不在w 1 w2 中的w 2的出现次数,d 表示既不是w 1又不是w 2的词的次数。a+b是w 1的出现次数,a+c是w 2的出现次数,c+d是非w 1的总词次,b+d是非w 2的总词次,N=a+b+c+d表

2示语料库中的总词次。根据上面的联立表,φ统计量定义如下:

(5)

222当a=0时,φ近于0,即当w 1 和w 2从不共现时,φ取极小值。当b=c=0时,φ=1,即

22当w 1和w 2总是共现时,φ取极大值。φ值越大,说明w 1 和w 2 共现的机会越多,相反,

2φ值越小,则说明w 1 和w 2 共现的机会越少。

如果把上面的两个词换成两个词类标记,则可以进行标记对之间的φ2统计。进一步推广则可以在一个词类序列的两个子序列之间进行φ2统计。

2.4 基于中心词依存概率的方法

Collins(1996)提出了一种基于分析树中中心词之间依存概率的统计分析算法,该方法的要点是:把分析树归结为一个非递归的基本名词短语(base noun phrase, 简称base NP )集合及依存关系的集合。在这些依存关系中,base NP 中除了中心词其他词都被忽略,所以依存关系就是base NP 的中心词和其他词之间的依存关系,

依存概率可以通过树库中的统计得到。分析算法是一个自底向上的线图分析器,利用动态规划来查找训练数据中所有的依存关系空间。

例如,由(a

)中句子的分析树(b)可以得到

base NP 的集合

B 及中心词之间的依存关系集合

D(c)。

(a )

John/NNP Smith/NNP, the/DT president/NN of/IN IBM/NNP,announced/VBD his/PRP$ resignation/NN yesterday/NN .

(b )(S (NP (NP John/NNP Smith/NNP),(NP (NP the/DT president/NN) (PP of/IN IBM/NNP)) ,)

(VP announced/VBD (NP his/PRP$ resignation/NN) yesterday/NN ) .) (c [John ] B={[John Smith],[the president],[IBM],[his resignation], [yesterday]} NP S VP NP NP NP NP NP PP IN PP NP

D={ VBD VP NP VBD VP NP

基于以上模型的分析器的分析过程可以描述如下:对于一个输入句,首先分析出其中的base NP,然后根据训练数据中得到的依存概率计算各个依存关系集合的可能性,可能性最大的依存关系集合就成为句子成分结构的最佳估计。由于依存关系表示为一个三元组,因此依存关系集合和base NP集合就可以映射为句子的短语结构树。

Collins 的算法是以大规模树库为基础的,而且以完全句法分析为目标。但这种方法以基本名词短语识别为前提,而且其利用具体词之间依存概率的思想和把短语归结为其中心词的思想对于部分句法分析也是很有借鉴意义的。

三、基于规则的方法

规则方法就是根据人工书写的或(半)自动获取的语法规则标注出短语的边界和短语的类型。根据标注策略的不同可以把规则方法分为两种:(1)增加句法标记法(incremental /constructive approach),即在词串中插入短语边界和短语类型等句法标记。(2)删除句法标记法(reductionist approach),即从多个候选的句法标记中删除不合法的标记。

3.1 增加句法标记法

增加句法标记的句法分析包括一个状态转换器(transducers)序列,转换器由正则式(regular expression)构成,即语法规则是有限状态语法的形式。大部分的规则系统都采用这种方法,如Abney 的语块分析系统CASS(Abney,1991,1996b), Mokhtar & Chanod(1997)等。下面以Abney 的有限状态层叠(finite-state cascades)方法为例对此加以说明。

有限状态层叠包括多个层级,分析逐层进行。每一级上短语的建立都只能在前一级的基础之上进行,没有递归,即任何一个短语都不包含同一级的短语或高一级的短语。 分析过程包括一系列状态转换,用T i 表示。通常的状态转换操作的结果是在词串中插入句法标记,而有限状态层叠则在每一级转换上用单个的元素来替换输入串中的一个元素序列,就跟传统的自底向上的句法分析一样。

每一个转换定义为一个模式的集合。每一个模式包括一个范畴符号和一个正则式。正则式转换为有限状态自动机,模式自动机合在一起就产生一个单一的、确定性的有限状态层级识别器(level recognizer)Ti ,它以L i-1级的输出为输入,并产生Li 作为输出。在模式匹配过程中,如遇到冲突(即两个或两个以上的模式都可以运用),则按最长匹配原则选择合适的模式。如果输入中的一个元素找不到相应的匹配模式,则把它直接输出,继续下一个元素的匹配。

例如,给定下面的规则:

T 1: NP --> (D) A* N+

VP --> V-tns | Aux V-ing

NP --> Pron

T 2: PP --> P NP }

T 3: { S -->PP* NP PP* VP PP* }

对输入句" the woman in the lab coat thought you were sleeping."的分析过程如下所示: L 3 -----------------------------------------------------S -------------------------S (T3) L 2 ---------NP ----------------------PP VP NP ---------------VP (T2) L 1 ---------NP P ----------------NP VP NP ---------------VP (T1) L 0 D N P D N N V-tns Pron Aux V-ing

the woman in the lab coat thought you were sleeping

0 1 2 3 4 5 6 7 8 9 识别器T 1从第0个词开始,在L 0级上进行匹配,在到达位置2时,得到一个与NP 模式相匹配的状态序列,于是在L 1级上,从位置0到位置2输出一个NP 。然后从位置2重新开始,因为没有与之匹配的模式,所以把P 直接输出。然后又从位置3开始,在位置5和位置6上分别有一个与NP 模式相匹配的模式,这时采用最长匹配,于是在L 1级上从位置3到6输出一个NP ,然后又从位置6继续匹配。

3.2 删除句法标记法

这种方法的思想来自词性标注。在词性标注中,首先从词典中查出每个词可能具有的所有词性,然后根据上下文来消歧,从中选择一个正确的词性。这种思想用到句法标注上就是首先标注出每个词可能的句法功能,然后根据上下文来消歧,从中选择出一个正确的句法功能标记。也就是说,句法分析包括两个主要步骤:

(1)给出输入词可能的句法功能标记(与上下文无关,可能有多个候选);

(2)删去在上下文中不可接受的句法标记,或从几个候选中选出一个最合理的句法标记(即同时排除其他标记)。

这样,句法分析实际上成了一个删除在上下文中不合法的句法标记过程。下面举例加以说明。

输入句: others moved away from traditional jazz practice.

经过词性标注后,加上可能的句法标记:

"" "other" PRON @>N @NH

"" "move" V @V

"" "away" ADV @>A @AH

"" "from" PREP @DUMMY

"" "traditional" A @>N @N
"" "jazz" N @>N @NH

"" "practice" N @>N @NH

标记注释:@>N (前定语) @NA (前状语) @NH

@A
在上面的例子中,第1列是词语,第2列是词的原形,第3列是词性标记,第四列是句法标记。所有的句法标记都以@开头。如果一个词有两个或两个以上的句法标记,则说明它在句法上是有歧义的。在句法分析过程中根据语法规则进行消歧。如果一个词只有一个标记,则不运用规则,如果一个词虽有歧义的标记,但没有与之匹配的规则则保留歧义。即分析结束后不保证每个词都只有一个句法标记。

规则采用所谓限制语法(Constraint Grammar)的形式。如:

REMOVE (@>N) (*1C
这条规则的含义是:如果上下文满足下面的条件则从有歧义的词中删去前定语标记 @>N:其右边某个词(*1,*表示一个或多个,1表示右边)是非歧义的(C ),这个词是句子边界(
这些规则主要是人工书写的(Voutilainen,1993;V outilainen&Padro,1997),但完全靠人工总结这些上下文限制规则十分费时费力。因此有必要研究从语料库中自动获取这些语法规则的方法(Brill,1995; Samuellson et al.,1996)。

3.3 语法规则的自动学习

在基于规则的方法中,主要的困难在于语法规则的获取以及语法规则之间的优先顺序排列。Eric Brill (1995)提出了一种基于转换的错误驱动的学习方法,这种方法首先被用于词性标注,得到的结果可以和统计方法相媲美。Ramshaw & Marcus(1995)把这种自学习方法用于识别英语中的基本名词短语(base NP)。这种方法通过学习得到一组有序的识别基本名词短语的规则。另一种语法规则自动获取的方法是采用机器学习中基于实例的方法(instance-based learning )或基于记忆的方法(memory-based learning),如Cardie & Pierce(1998)和Argamon et al.(1998)。下面首先介绍基于转换的学习方法,然后介绍基于实例的方法。

3.3.1 基于转换的规则学习方法

图如图1所示,基于转换的学习方法以下列三部分资源为基础:(1)带标注的训练语料库。对于base NP识别任务来说,训练语料要标注出其中所有正确的base NP(在此之前当然要先标注词性)。(2)规则模板集合。规则模板集合用于确定可能的转换规则空间。(3)一个初始标注程序。

基于转换的错误驱动的学习算法是:

(1)初始标注。把训练语料中所有的base NP 标记去掉,用一个简单的初始标注程序标注出训练集中可能的base NP。把这个结果作为系统的底线(baseline)。

(2)生成候选规则集。在每个初始标注错误的地方,规则模板便用来生成候选规则,规则的条件就是词的上下文环境,动作就是改正错误标记所要做的动作。

(3)获取规则。把候选规则集中的每条规则分别运用于初始标注的结果,选出得分最高的规则(得分为正确的修改数减去错误的修改数得到的结果)。把这条规则运用于初始标注的结果作为下一轮循环的基础,并把这条规则作为规则序列中的第一条规则输出。重复以下过程直到得分最高的规则的得分为0或低于某个阈值为止:获取候选规则集,给其中每条规则打分,选择得分最高的规则输出到规则集中,并把这条规则作用于当前语料库。

通过以上的自动学习过程就可以得到一个有序的规则集。base NP识别的过程是:首先运用初始标注程序标注出输入句中可能的base NP,然后顺序运用规则集中的规则对初始标注的结果进行转换操作。

3.3.2 基于实例的规则学习方法

前面所介绍的基于转换的学习方法在学习过程之后得到的是识别短语的规则,这样的的规则描述在什么条件下一个序列是一个基本名词短语,在什么条件下不是一个基本名词短语。而基于实例的学习方法是通过学习得到一组短语的组成模式,分析的时候利用这样的模式去和文本中的词类序列进行匹配。

Cardie & Pierce(1998)把标注好短语信息的语料库分为两个部分,一部分用于训练,另一部分用于剪枝。首先从训练的语料中得到一组名词短语的组成模式规则,然后把得到的这些规则应用到剪枝的语料中,对这些规则进行打分。比如,如果一个规则识别出一个正确的短语得1分,识别出一个错误的短语得-1分,这样根据每条规则的总的得分情况对规则进行删减,去掉那些得分低的规则。最后得到的一组规则能保证得到较高的正确率。应用这些规则来识别文本中的名词短语的方法很简单,就是简单的模式匹配方法,在遇到规则冲突时,采用最长匹配原则。

Argamon et al.(1998)并不是通过学习过程显性地得到一组短语的组成模式(词类序列及其上下文环境),这些模式隐含在标注好短语的实例中。在训练阶段,把标注好词性和短语边界的语料用一种可以快捷检索的数据结构存储起来,在识别阶段,拿文本中的词类序列和训练语料中的实例进行匹配:把句子中的每个子串作为候选,对于每个候选,通过查找实例库计算它的概率分数,对分数高于某个阈值的候选予以保留。这一技术的关键在于候选子串和实例的匹配,因为子串可能是若干词的序列,而且还要考虑上下文,如果拿整个子串去和实例匹配的话就有严重的数据稀疏问题,这是基于事例的方法中普遍存在的一个问题。他们提出的一种覆盖(cover)技术较好地解决了这一问题。覆盖技术的基本思想是对待分析的串(包括上下文)进行分解,把它分解成若干更小的子串,利用这些子串去匹配。最后找到一个覆盖原串的子串集合,这些子串的总的概率分数最高。这种基于实例的方法把语法规则隐含在标注好的实例之中,跟前两种学习方法相比,它并没有一套显性的用于识别的语法规则,所以这种方法似乎更像基于统计的方法。

四、汉语的有关研究

近年来,中国学者也开始借鉴国外的方法进行汉语浅层句法分析的探索。李文捷等(1995)用短语边界与词性标记对共现概率的方法研究汉语中最长名词短语的识别。首先在训练集中统计NP 起始和NP 终止两个概率矩阵,然后根据这些概率信息在输入句的词性标记对之间插入NP 起始标记和NP 终止标记,然后对标记进行匹配处理。张国煊等(1995)用简单的互信息方法划分短语边界,郭志立等(1996)用互信息方法确定汉语“的”字短语的边界。这些研究都是基于统计方法的。

孙宏林(1997)用规则方法识别汉语的VO (动宾)结构,刘长征(1998)采用规则方法识别由名词序列构成的NP 。这两项研究中的语法规则是根据语料库中的统计通过人工归纳得到。

赵军(1998)系统地研究了汉语基本名词短语的识别和分析。在识别方面,从预先定义的句法模板(组成base NP的词类序列)出发,探讨了两种base NP识别方法:一种是统计的N 元模型,该模型利用了base NP组成成分的词性信息、音节信息及上下文信息,研究表明这种模型比单纯的基于词类序列的模型要好。另一种是规则方法,其规则通过基于转换的学习算法从训练语料中自动获取(赵军、黄昌宁,1999)。

周强(1996)的研究目标虽是句子的完整句法分析,但其第一步是短语边界的初界定,利用从树库中得到的统计信息确定一个词前后的边界类型。

穗志方(1998)的目标也是完全分析,这种方法的基本思想是:首先确定谓语中心词,然后围绕谓语中心词进行自底向上的组块分析,以确定谓语中心词的支配成分。其中的组块分析如果独立出来,就是一个部分句法分析器。在这个组块分析过程中主要利用了词语之间的依存关系。

五、结束语

本文简要地介绍了近年来在浅层句法分析领域出现的一些有代表性的方法,由于我们掌握的文献有限,难免会有一些遗漏。但由此基本上可以看到该领域近年来的基本动向。九十年代以来,在自然语言处理的技术发展中出现了两个十分突出的现象:一是统计方法得到了广泛的应用,二是有限状态方法进一步扩大了其应用领域。这两种现象都在浅层句法分析领域得到了充分的反映。另外值得注意的是,采用机器学习方法进行语言知识的自动获取研究成为一个十分明显的趋势。人们常常有这样一种认识,即基于统计的方法是经验主义的,基于规则的方法是理性主义的,而且这两种方法是根本对立的。但如果语法规则都是从语料库中自动或半自动获取的,那么这两种方法还是那样泾渭分明吗?由此可以看到,目前的自然处理研究不管是采用统计方法还是采用规则方法,都离不开语料库这一基础资源。宾州大学的英语树库(Marcus et al. 1993) 极大地推动了英语在这方面的研究,以上介绍的许多研究工作都是以这一语料库为基础的。所以,要想真正提高汉语信息处理的水平,首先必须开发大规模、高质量的标注多种信息的能够共享的汉语语料库。

参考文献

[1]Abney, Steven,1991. Parsing by chunks. In Principle_Based Parsin g. Berwick, Abney and Tenny (eds.),. Kluwer Academic Publishers.

[2]Abney, Steven,1996a. Part-of-speech tagging and partial parsing. In Corpus- Based Methods in Language and Speech . Church, Young and Bloothooft (eds.),Kluwer Academic Publishers. pp. 119-136.

[3]Abney, Steven,1996b. Partial parsing via finite-state cascades. In Proceedings of the ESSLLI'96 Robust Parsing Workshop.

[4]Argamon, S. , Dagon I., and Krymolowsky Y., 1998. A memory-based approach to learning shallow natural language patterns. In Proceedings of COLING-ACL’98. pp. 67-73.

[5]Brill, Eric, 1995. Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the 3rd Workshop on Very Large Corpora. pp. 1-13.

[6]Cardie,Claire and Pierce,David, 1998. Error-driven pruning of treebank grammars for base noun phrase identification. In Proceedings of COLING-ACL’98. pp. 218-224.

[7]Chen, Kuang-hua and Chen, Hsin-His,1994. Extracting Noun Phrases from Large-Scale Texts: A hybrid approach and its automatic evaluation. In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, pp. 234-241.

[8]Chen, Hsin-Hsi & Lee, Yue-Shi,1995. Development of a partially bracketed corpus with part-of-speech

information only. In Proceedings of the 3rd Workshop on Very Large Corpora.. pp.162-172.

[9]Church,,K.,1988.A stochastic parts program and noun phrase parser for unrestricted text. In Proceedings of the

Second Conference on Applied Natural Language Processing, pp136-143.

[10]Collins,M., 1996.A new statistical parser based on bigram lexical dependencies, In Proceedings of the 34th

Annual Meeting of the Association for Computational Linguistics, pp.184-191.

[11]Fano, R. M., 1961. Transmission of Information , A Statistical Theory of Communication. MIT Press.

[12]Gale,W.A. & Church, K.W.1991. Identifying word correspondences in parallel texts, in Proceedings of DARPA

Speech and Natural Language Workshop, pp.152-157.

[13]Magerman, D. & Marcus, M. 1990, Parsing a natural language using mutual information statistics, in

Proceedings of AAAI ’90. pp.984-989.

[14]Marcus,M., Santorini, B., and Marcinkiewicz, M. 1993. Building a large annotated corpus of English: The

Penn Treebank, Computational Linguistics, 19(2): 313-330.

[15]Mokhtar S.,Chanod J.,1997. Incremental finite-state parsing. In Proceedings of the 5th Conference on Applied

Natural Language Processing. pp.72-79.

[16]Rabiner,Lawrence R. 1989. A tutorial on hidden Markov models and selected applications in speech

recognition. In Proceedings of the IEEE, reprinted in Readings in Speech Recognition , Waibel and Lee(eds.), Morgan Kaufmann ,1990, pp. 267-96.

[17]Ramshaw L., and Marcus M. 1995. Text chunking using transformation-based learning. In Proceedings of the

Third Workshop on Very Large Corpora.

[18]Samuelsson C., Tapanainen P. and V outilainen A.,1996. Inducing constraint grammars. In Grammatical

Inference: Learning Syntaxfrom Sentences, Springer-Verlag.

[19]Skut, W. and Brants,T.,1998. A maximum-entropy partial parser for unrestricted text. In Proceedings of the 6th

Workshop on Very Large Corpora, Montreal,Quebec,1998. Also available at cmp-lg/9807006.

[20]Voutilainen A.,1993. Nptool, a detector of English noun phrases. In Proceedings of the First Workshop on Very

Large Corpora.

[21]Voutilainen A. and Padro L.,1997. Developing a hybrid NP parser. In Proceedings of the 5th Conference on

Applied NaturalLanguage . pp.80-87.

[22]郭志立,苑春法,黄昌宁(1996),用统计方法研究“的”字短语的结构与边界,载《计算机时代的汉语

和汉字研究》(罗振声、袁毓林主编),清华大学出版社。174-183页。

[23]刘长征(1998),基于词性标注语料库中普通名词序列的捆绑研究,载《1998中文信息处理国际会议论

文集》(黄昌宁主编),清华大学出版社。244-250页。

[24]李文捷,周明等(1995),基于语料库的中文最长名词短语的自动抽取,载《计算语言学进展与应用》(陈

力为、袁琦主编),清华大学出版社。119-124页。

[25]穗志方(1998),语句相似度研究中的骨架依存分析法及其应用,北京大学计算机系博士论文。

[26]孙宏林(1997),从标注语料库中归纳语法规则:“V+N”序列实验分析,载《语言工程》(陈力为、袁

琦主编),清华大学出版社。157-163页。

[27]张国煊,郁梅,王小华(1995),基于语料库的汉语边界划分的研究,载《计算语言学进展与应用》(陈

力为、袁琦主编),清华大学出版社。94-99页。

[28]赵军(1998),汉语基本名词短语识别及结构分析,清华大学计算机系博士论文。

[29]赵军、黄昌宁(1999),基于转换的汉语基本名词短语识别模型,《中文信息学报》第13卷第2期。

[30]周强(1996),一个短语自动定界模型,《软件学报》第7卷增刊,315-322页。

发表于《当代语言学》,2000年第2期

浅层句法分析方法概述

孙宏林 俞士汶

一、引言

浅层句法分析(shallow parsing) ,也叫部分句法分析(partial parsing) 或语块分析(chunk parsing) ,是近年来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常被称作语块(chunk),语块和短语这两个概念通常可以换用。

浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的一个子图(subgraph),只要加上语块之间的依附关系(attachment),就可以构成完整的句法树。所以浅层句法分析将句法分析分解为两个子任务:(1)语块的识别和分析;(2)语块之间的依附关系分析。浅层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。 90年代以来,国外在英语的浅层句法方面做了不少工作,国内也有一些学者采用英语中的方法探索汉语的浅层句法分析。本文主要就在英语浅层句法分析中所应用的一些技术进行简要的介绍,并简单介绍汉语的有关研究。其中有些方法虽然是面向完全句法分析的,但由于其对完全句法分析的任务进行了分解,所以其技术也可以归入浅层分析的范畴。概括起来,句法分析的方法基本上可以分成两类:基于统计的方法和基于规则的方法。当然也可以采用规则和统计相结合的混合方法。下面第2节介绍基于统计的方法,第3节介绍基于规则的方法,第4节简要介绍汉语的有关研究,最后是结束语。

二、基于统计的方法

随着语料库技术的发展,近10年来许多统计方法被用在短语识别和分析方面。这些方法的理论主要来自概率统计和信息论。以下将介绍其中具有代表性的几种方法:(1)基于隐

2马尔科夫模型的方法;(2)互信息方法;(3) 统计方法;(4)基于中心词依存概率的方法。

2.1 基于隐马尔科夫模型(HMM)的方法

隐马尔科夫模型(Hidden Markov Models,HMMs)是从语音识别中发展出来的一种统计技术(Rabiner,1989),它提供了一种基于训练数据提供的概率自动构造识别系统的技术。一个隐马尔科夫模型包含两层:一个可观察层和一个隐藏层,这个隐藏层是一个马尔科夫过程,即是一个有限状态机,其中每个状态转移都带有转移概率。在语音识别中,可观察层是声音片段的序列,隐藏层是用音素序列表示的词的发音的有限状态模型。用口语录音片段及其转写(transcription)作为训练数据训练HMM ,它就可以用作识别器,用于识别未训练过的声音片段,从而生成口语的转写形式。

计算语言学家最早把HMM 技术应用于英语的词性标注并取得了极大的成功,仅依靠简单的统计方法就可以达到95%左右的正确率。在词性标注中,可观察层是词的序列,隐藏层是词类标记的序列,训练数据是标注好词性的文本语料,经过训练的HMM 就成为自动标注器,它可以给只包含词序列的文本中的每个词标注上词类标记。

Church(1988)进一步把HMM 用于识别英语中简单的非递归的名词短语,他把短语边界识别化为一个在词类标记对之间插入NP 的左边界("[")和NP 的右边界("]")的问题。如果不考虑空短语(即"[])和短语的嵌套(如"[[","]]","][["等),那么在一对词类标记之间只有四种情况:(1) [ ;(2) ] ;(3) ][;(4) 空(即无NP 边界)。进一步可以把最后一种分为两种情况:(a)无NP 边界但在NP 之内(I );(b)无NP 边界但在NP 之外(O )。这样任意一

对词类标记之间就只存在5种可能的状态: (1) [ ;(2) ] ;(3) ][;(4) I ;(5) O 。Church 的方法是:首先,在标注词性的语料中人工或半自动标注NP 边界,以此作为训练数据,然后统计出任意一对词类标记之间出现以上5种状态的概率。统计得到的概率就成为短语边界标注的根据。这实际上把短语边界的识别变成了一个与词性标注类似的问题。如: 输入: $ the procecutor said in closing that (词序列) DT NN VB IN NN CS (词性序列) 输出:

(词性标记对) | | | | | |

[ I ] O [ ] (NP 边界)

2.2 互信息方法

互信息(mutual information) 是信息论中的一个概念(Fano,1961),它用来度量一个消息中两个信号之间的相互依赖程度。二元互信息是两个事件的概率的函数:

(1)

我们可以把词类序列看成随机事件,这样就可以计算一对词类标记之间的互信息。如果X 和Y 在一起出现的机会多于它们随机出现的机会,则P(X,Y)>>P(X) ×P(Y),即MI(X,Y)>>0;如果X 和Y 是随机分布的,则P(X,Y)≈P(X)×P(Y),即MI(X,Y) ≈0;如果X 和Y 是互补分布的,则P(X,Y)
为了确定句子中短语的边界,不能局限于bigram (两个符号的组合)内部的互信息,需要看更多的上下文,即把二元互信息扩展为n-gram (n 个符号的组合)内部的互信息。Magerman & Marcus(1990)提出了广义互信息(generalized mutual information) 的概念,它根据两个相邻的词类标记的上下文(在一个观察窗口内)来决定它们之间是否是一个短语边界所在。在下面的公式中,MI 表示二元互信息,MI n 是一个向量,它表示n-gram(x 1„x n ) 中任意两个部分之间的互信息,表示这个向量中的第k 个分量(1≤k
一个n-gram(x 1„x n ) 内部有n-1个二分切分点,每一个切分点的二元互信息为:

(x 1„x n ) = MI (x 1„x k , xk+1„x n ) (2)

(3)

在公式(3)中,对于每个(k=1,2, „, n-1),分子都相同,当分母最大时,互信息值最小。

基于互信息的短语边界划分的理论基础是:在n-gram 中,局部广义互信息值最小的一对标记之间就是短语边界所在的位置。理论推导参见Mamerman & Marcus (1990)。

在n-gram(x 1„x i ,y 1„y j ) (1≤i
(4)

这里,GMI n(i+j)(x1„x i ,y 1„y j ) 表示在一个n-gram 中两个相邻的元素x i 和y 1之间的广义互信息,X 表示n-gram 中以x i 结束的词类标记串,Y 表示n-gram 中以y 1开始的词类标记串。σXY 是XY 中

2(|XY | = i+j,0
22.3 φ统计方法 Gale & Church(1991)用φ统计方法来度量两个词之间的关联度。Chen & Lee(1995)用

这种方法来确定短语的边界。

对于两个词w 1和w 2,可以建立如下的联立表(contingency table):

在上表中,a 表示串1212w 1的出现次数,c 表示不在w 1 w2 中的w 2的出现次数,d 表示既不是w 1又不是w 2的词的次数。a+b是w 1的出现次数,a+c是w 2的出现次数,c+d是非w 1的总词次,b+d是非w 2的总词次,N=a+b+c+d表

2示语料库中的总词次。根据上面的联立表,φ统计量定义如下:

(5)

222当a=0时,φ近于0,即当w 1 和w 2从不共现时,φ取极小值。当b=c=0时,φ=1,即

22当w 1和w 2总是共现时,φ取极大值。φ值越大,说明w 1 和w 2 共现的机会越多,相反,

2φ值越小,则说明w 1 和w 2 共现的机会越少。

如果把上面的两个词换成两个词类标记,则可以进行标记对之间的φ2统计。进一步推广则可以在一个词类序列的两个子序列之间进行φ2统计。

2.4 基于中心词依存概率的方法

Collins(1996)提出了一种基于分析树中中心词之间依存概率的统计分析算法,该方法的要点是:把分析树归结为一个非递归的基本名词短语(base noun phrase, 简称base NP )集合及依存关系的集合。在这些依存关系中,base NP 中除了中心词其他词都被忽略,所以依存关系就是base NP 的中心词和其他词之间的依存关系,

依存概率可以通过树库中的统计得到。分析算法是一个自底向上的线图分析器,利用动态规划来查找训练数据中所有的依存关系空间。

例如,由(a

)中句子的分析树(b)可以得到

base NP 的集合

B 及中心词之间的依存关系集合

D(c)。

(a )

John/NNP Smith/NNP, the/DT president/NN of/IN IBM/NNP,announced/VBD his/PRP$ resignation/NN yesterday/NN .

(b )(S (NP (NP John/NNP Smith/NNP),(NP (NP the/DT president/NN) (PP of/IN IBM/NNP)) ,)

(VP announced/VBD (NP his/PRP$ resignation/NN) yesterday/NN ) .) (c [John ] B={[John Smith],[the president],[IBM],[his resignation], [yesterday]} NP S VP NP NP NP NP NP PP IN PP NP

D={ VBD VP NP VBD VP NP

基于以上模型的分析器的分析过程可以描述如下:对于一个输入句,首先分析出其中的base NP,然后根据训练数据中得到的依存概率计算各个依存关系集合的可能性,可能性最大的依存关系集合就成为句子成分结构的最佳估计。由于依存关系表示为一个三元组,因此依存关系集合和base NP集合就可以映射为句子的短语结构树。

Collins 的算法是以大规模树库为基础的,而且以完全句法分析为目标。但这种方法以基本名词短语识别为前提,而且其利用具体词之间依存概率的思想和把短语归结为其中心词的思想对于部分句法分析也是很有借鉴意义的。

三、基于规则的方法

规则方法就是根据人工书写的或(半)自动获取的语法规则标注出短语的边界和短语的类型。根据标注策略的不同可以把规则方法分为两种:(1)增加句法标记法(incremental /constructive approach),即在词串中插入短语边界和短语类型等句法标记。(2)删除句法标记法(reductionist approach),即从多个候选的句法标记中删除不合法的标记。

3.1 增加句法标记法

增加句法标记的句法分析包括一个状态转换器(transducers)序列,转换器由正则式(regular expression)构成,即语法规则是有限状态语法的形式。大部分的规则系统都采用这种方法,如Abney 的语块分析系统CASS(Abney,1991,1996b), Mokhtar & Chanod(1997)等。下面以Abney 的有限状态层叠(finite-state cascades)方法为例对此加以说明。

有限状态层叠包括多个层级,分析逐层进行。每一级上短语的建立都只能在前一级的基础之上进行,没有递归,即任何一个短语都不包含同一级的短语或高一级的短语。 分析过程包括一系列状态转换,用T i 表示。通常的状态转换操作的结果是在词串中插入句法标记,而有限状态层叠则在每一级转换上用单个的元素来替换输入串中的一个元素序列,就跟传统的自底向上的句法分析一样。

每一个转换定义为一个模式的集合。每一个模式包括一个范畴符号和一个正则式。正则式转换为有限状态自动机,模式自动机合在一起就产生一个单一的、确定性的有限状态层级识别器(level recognizer)Ti ,它以L i-1级的输出为输入,并产生Li 作为输出。在模式匹配过程中,如遇到冲突(即两个或两个以上的模式都可以运用),则按最长匹配原则选择合适的模式。如果输入中的一个元素找不到相应的匹配模式,则把它直接输出,继续下一个元素的匹配。

例如,给定下面的规则:

T 1: NP --> (D) A* N+

VP --> V-tns | Aux V-ing

NP --> Pron

T 2: PP --> P NP }

T 3: { S -->PP* NP PP* VP PP* }

对输入句" the woman in the lab coat thought you were sleeping."的分析过程如下所示: L 3 -----------------------------------------------------S -------------------------S (T3) L 2 ---------NP ----------------------PP VP NP ---------------VP (T2) L 1 ---------NP P ----------------NP VP NP ---------------VP (T1) L 0 D N P D N N V-tns Pron Aux V-ing

the woman in the lab coat thought you were sleeping

0 1 2 3 4 5 6 7 8 9 识别器T 1从第0个词开始,在L 0级上进行匹配,在到达位置2时,得到一个与NP 模式相匹配的状态序列,于是在L 1级上,从位置0到位置2输出一个NP 。然后从位置2重新开始,因为没有与之匹配的模式,所以把P 直接输出。然后又从位置3开始,在位置5和位置6上分别有一个与NP 模式相匹配的模式,这时采用最长匹配,于是在L 1级上从位置3到6输出一个NP ,然后又从位置6继续匹配。

3.2 删除句法标记法

这种方法的思想来自词性标注。在词性标注中,首先从词典中查出每个词可能具有的所有词性,然后根据上下文来消歧,从中选择一个正确的词性。这种思想用到句法标注上就是首先标注出每个词可能的句法功能,然后根据上下文来消歧,从中选择出一个正确的句法功能标记。也就是说,句法分析包括两个主要步骤:

(1)给出输入词可能的句法功能标记(与上下文无关,可能有多个候选);

(2)删去在上下文中不可接受的句法标记,或从几个候选中选出一个最合理的句法标记(即同时排除其他标记)。

这样,句法分析实际上成了一个删除在上下文中不合法的句法标记过程。下面举例加以说明。

输入句: others moved away from traditional jazz practice.

经过词性标注后,加上可能的句法标记:

"" "other" PRON @>N @NH

"" "move" V @V

"" "away" ADV @>A @AH

"" "from" PREP @DUMMY

"" "traditional" A @>N @N
"" "jazz" N @>N @NH

"" "practice" N @>N @NH

标记注释:@>N (前定语) @NA (前状语) @NH

@A
在上面的例子中,第1列是词语,第2列是词的原形,第3列是词性标记,第四列是句法标记。所有的句法标记都以@开头。如果一个词有两个或两个以上的句法标记,则说明它在句法上是有歧义的。在句法分析过程中根据语法规则进行消歧。如果一个词只有一个标记,则不运用规则,如果一个词虽有歧义的标记,但没有与之匹配的规则则保留歧义。即分析结束后不保证每个词都只有一个句法标记。

规则采用所谓限制语法(Constraint Grammar)的形式。如:

REMOVE (@>N) (*1C
这条规则的含义是:如果上下文满足下面的条件则从有歧义的词中删去前定语标记 @>N:其右边某个词(*1,*表示一个或多个,1表示右边)是非歧义的(C ),这个词是句子边界(
这些规则主要是人工书写的(Voutilainen,1993;V outilainen&Padro,1997),但完全靠人工总结这些上下文限制规则十分费时费力。因此有必要研究从语料库中自动获取这些语法规则的方法(Brill,1995; Samuellson et al.,1996)。

3.3 语法规则的自动学习

在基于规则的方法中,主要的困难在于语法规则的获取以及语法规则之间的优先顺序排列。Eric Brill (1995)提出了一种基于转换的错误驱动的学习方法,这种方法首先被用于词性标注,得到的结果可以和统计方法相媲美。Ramshaw & Marcus(1995)把这种自学习方法用于识别英语中的基本名词短语(base NP)。这种方法通过学习得到一组有序的识别基本名词短语的规则。另一种语法规则自动获取的方法是采用机器学习中基于实例的方法(instance-based learning )或基于记忆的方法(memory-based learning),如Cardie & Pierce(1998)和Argamon et al.(1998)。下面首先介绍基于转换的学习方法,然后介绍基于实例的方法。

3.3.1 基于转换的规则学习方法

图如图1所示,基于转换的学习方法以下列三部分资源为基础:(1)带标注的训练语料库。对于base NP识别任务来说,训练语料要标注出其中所有正确的base NP(在此之前当然要先标注词性)。(2)规则模板集合。规则模板集合用于确定可能的转换规则空间。(3)一个初始标注程序。

基于转换的错误驱动的学习算法是:

(1)初始标注。把训练语料中所有的base NP 标记去掉,用一个简单的初始标注程序标注出训练集中可能的base NP。把这个结果作为系统的底线(baseline)。

(2)生成候选规则集。在每个初始标注错误的地方,规则模板便用来生成候选规则,规则的条件就是词的上下文环境,动作就是改正错误标记所要做的动作。

(3)获取规则。把候选规则集中的每条规则分别运用于初始标注的结果,选出得分最高的规则(得分为正确的修改数减去错误的修改数得到的结果)。把这条规则运用于初始标注的结果作为下一轮循环的基础,并把这条规则作为规则序列中的第一条规则输出。重复以下过程直到得分最高的规则的得分为0或低于某个阈值为止:获取候选规则集,给其中每条规则打分,选择得分最高的规则输出到规则集中,并把这条规则作用于当前语料库。

通过以上的自动学习过程就可以得到一个有序的规则集。base NP识别的过程是:首先运用初始标注程序标注出输入句中可能的base NP,然后顺序运用规则集中的规则对初始标注的结果进行转换操作。

3.3.2 基于实例的规则学习方法

前面所介绍的基于转换的学习方法在学习过程之后得到的是识别短语的规则,这样的的规则描述在什么条件下一个序列是一个基本名词短语,在什么条件下不是一个基本名词短语。而基于实例的学习方法是通过学习得到一组短语的组成模式,分析的时候利用这样的模式去和文本中的词类序列进行匹配。

Cardie & Pierce(1998)把标注好短语信息的语料库分为两个部分,一部分用于训练,另一部分用于剪枝。首先从训练的语料中得到一组名词短语的组成模式规则,然后把得到的这些规则应用到剪枝的语料中,对这些规则进行打分。比如,如果一个规则识别出一个正确的短语得1分,识别出一个错误的短语得-1分,这样根据每条规则的总的得分情况对规则进行删减,去掉那些得分低的规则。最后得到的一组规则能保证得到较高的正确率。应用这些规则来识别文本中的名词短语的方法很简单,就是简单的模式匹配方法,在遇到规则冲突时,采用最长匹配原则。

Argamon et al.(1998)并不是通过学习过程显性地得到一组短语的组成模式(词类序列及其上下文环境),这些模式隐含在标注好短语的实例中。在训练阶段,把标注好词性和短语边界的语料用一种可以快捷检索的数据结构存储起来,在识别阶段,拿文本中的词类序列和训练语料中的实例进行匹配:把句子中的每个子串作为候选,对于每个候选,通过查找实例库计算它的概率分数,对分数高于某个阈值的候选予以保留。这一技术的关键在于候选子串和实例的匹配,因为子串可能是若干词的序列,而且还要考虑上下文,如果拿整个子串去和实例匹配的话就有严重的数据稀疏问题,这是基于事例的方法中普遍存在的一个问题。他们提出的一种覆盖(cover)技术较好地解决了这一问题。覆盖技术的基本思想是对待分析的串(包括上下文)进行分解,把它分解成若干更小的子串,利用这些子串去匹配。最后找到一个覆盖原串的子串集合,这些子串的总的概率分数最高。这种基于实例的方法把语法规则隐含在标注好的实例之中,跟前两种学习方法相比,它并没有一套显性的用于识别的语法规则,所以这种方法似乎更像基于统计的方法。

四、汉语的有关研究

近年来,中国学者也开始借鉴国外的方法进行汉语浅层句法分析的探索。李文捷等(1995)用短语边界与词性标记对共现概率的方法研究汉语中最长名词短语的识别。首先在训练集中统计NP 起始和NP 终止两个概率矩阵,然后根据这些概率信息在输入句的词性标记对之间插入NP 起始标记和NP 终止标记,然后对标记进行匹配处理。张国煊等(1995)用简单的互信息方法划分短语边界,郭志立等(1996)用互信息方法确定汉语“的”字短语的边界。这些研究都是基于统计方法的。

孙宏林(1997)用规则方法识别汉语的VO (动宾)结构,刘长征(1998)采用规则方法识别由名词序列构成的NP 。这两项研究中的语法规则是根据语料库中的统计通过人工归纳得到。

赵军(1998)系统地研究了汉语基本名词短语的识别和分析。在识别方面,从预先定义的句法模板(组成base NP的词类序列)出发,探讨了两种base NP识别方法:一种是统计的N 元模型,该模型利用了base NP组成成分的词性信息、音节信息及上下文信息,研究表明这种模型比单纯的基于词类序列的模型要好。另一种是规则方法,其规则通过基于转换的学习算法从训练语料中自动获取(赵军、黄昌宁,1999)。

周强(1996)的研究目标虽是句子的完整句法分析,但其第一步是短语边界的初界定,利用从树库中得到的统计信息确定一个词前后的边界类型。

穗志方(1998)的目标也是完全分析,这种方法的基本思想是:首先确定谓语中心词,然后围绕谓语中心词进行自底向上的组块分析,以确定谓语中心词的支配成分。其中的组块分析如果独立出来,就是一个部分句法分析器。在这个组块分析过程中主要利用了词语之间的依存关系。

五、结束语

本文简要地介绍了近年来在浅层句法分析领域出现的一些有代表性的方法,由于我们掌握的文献有限,难免会有一些遗漏。但由此基本上可以看到该领域近年来的基本动向。九十年代以来,在自然语言处理的技术发展中出现了两个十分突出的现象:一是统计方法得到了广泛的应用,二是有限状态方法进一步扩大了其应用领域。这两种现象都在浅层句法分析领域得到了充分的反映。另外值得注意的是,采用机器学习方法进行语言知识的自动获取研究成为一个十分明显的趋势。人们常常有这样一种认识,即基于统计的方法是经验主义的,基于规则的方法是理性主义的,而且这两种方法是根本对立的。但如果语法规则都是从语料库中自动或半自动获取的,那么这两种方法还是那样泾渭分明吗?由此可以看到,目前的自然处理研究不管是采用统计方法还是采用规则方法,都离不开语料库这一基础资源。宾州大学的英语树库(Marcus et al. 1993) 极大地推动了英语在这方面的研究,以上介绍的许多研究工作都是以这一语料库为基础的。所以,要想真正提高汉语信息处理的水平,首先必须开发大规模、高质量的标注多种信息的能够共享的汉语语料库。

参考文献

[1]Abney, Steven,1991. Parsing by chunks. In Principle_Based Parsin g. Berwick, Abney and Tenny (eds.),. Kluwer Academic Publishers.

[2]Abney, Steven,1996a. Part-of-speech tagging and partial parsing. In Corpus- Based Methods in Language and Speech . Church, Young and Bloothooft (eds.),Kluwer Academic Publishers. pp. 119-136.

[3]Abney, Steven,1996b. Partial parsing via finite-state cascades. In Proceedings of the ESSLLI'96 Robust Parsing Workshop.

[4]Argamon, S. , Dagon I., and Krymolowsky Y., 1998. A memory-based approach to learning shallow natural language patterns. In Proceedings of COLING-ACL’98. pp. 67-73.

[5]Brill, Eric, 1995. Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the 3rd Workshop on Very Large Corpora. pp. 1-13.

[6]Cardie,Claire and Pierce,David, 1998. Error-driven pruning of treebank grammars for base noun phrase identification. In Proceedings of COLING-ACL’98. pp. 218-224.

[7]Chen, Kuang-hua and Chen, Hsin-His,1994. Extracting Noun Phrases from Large-Scale Texts: A hybrid approach and its automatic evaluation. In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, pp. 234-241.

[8]Chen, Hsin-Hsi & Lee, Yue-Shi,1995. Development of a partially bracketed corpus with part-of-speech

information only. In Proceedings of the 3rd Workshop on Very Large Corpora.. pp.162-172.

[9]Church,,K.,1988.A stochastic parts program and noun phrase parser for unrestricted text. In Proceedings of the

Second Conference on Applied Natural Language Processing, pp136-143.

[10]Collins,M., 1996.A new statistical parser based on bigram lexical dependencies, In Proceedings of the 34th

Annual Meeting of the Association for Computational Linguistics, pp.184-191.

[11]Fano, R. M., 1961. Transmission of Information , A Statistical Theory of Communication. MIT Press.

[12]Gale,W.A. & Church, K.W.1991. Identifying word correspondences in parallel texts, in Proceedings of DARPA

Speech and Natural Language Workshop, pp.152-157.

[13]Magerman, D. & Marcus, M. 1990, Parsing a natural language using mutual information statistics, in

Proceedings of AAAI ’90. pp.984-989.

[14]Marcus,M., Santorini, B., and Marcinkiewicz, M. 1993. Building a large annotated corpus of English: The

Penn Treebank, Computational Linguistics, 19(2): 313-330.

[15]Mokhtar S.,Chanod J.,1997. Incremental finite-state parsing. In Proceedings of the 5th Conference on Applied

Natural Language Processing. pp.72-79.

[16]Rabiner,Lawrence R. 1989. A tutorial on hidden Markov models and selected applications in speech

recognition. In Proceedings of the IEEE, reprinted in Readings in Speech Recognition , Waibel and Lee(eds.), Morgan Kaufmann ,1990, pp. 267-96.

[17]Ramshaw L., and Marcus M. 1995. Text chunking using transformation-based learning. In Proceedings of the

Third Workshop on Very Large Corpora.

[18]Samuelsson C., Tapanainen P. and V outilainen A.,1996. Inducing constraint grammars. In Grammatical

Inference: Learning Syntaxfrom Sentences, Springer-Verlag.

[19]Skut, W. and Brants,T.,1998. A maximum-entropy partial parser for unrestricted text. In Proceedings of the 6th

Workshop on Very Large Corpora, Montreal,Quebec,1998. Also available at cmp-lg/9807006.

[20]Voutilainen A.,1993. Nptool, a detector of English noun phrases. In Proceedings of the First Workshop on Very

Large Corpora.

[21]Voutilainen A. and Padro L.,1997. Developing a hybrid NP parser. In Proceedings of the 5th Conference on

Applied NaturalLanguage . pp.80-87.

[22]郭志立,苑春法,黄昌宁(1996),用统计方法研究“的”字短语的结构与边界,载《计算机时代的汉语

和汉字研究》(罗振声、袁毓林主编),清华大学出版社。174-183页。

[23]刘长征(1998),基于词性标注语料库中普通名词序列的捆绑研究,载《1998中文信息处理国际会议论

文集》(黄昌宁主编),清华大学出版社。244-250页。

[24]李文捷,周明等(1995),基于语料库的中文最长名词短语的自动抽取,载《计算语言学进展与应用》(陈

力为、袁琦主编),清华大学出版社。119-124页。

[25]穗志方(1998),语句相似度研究中的骨架依存分析法及其应用,北京大学计算机系博士论文。

[26]孙宏林(1997),从标注语料库中归纳语法规则:“V+N”序列实验分析,载《语言工程》(陈力为、袁

琦主编),清华大学出版社。157-163页。

[27]张国煊,郁梅,王小华(1995),基于语料库的汉语边界划分的研究,载《计算语言学进展与应用》(陈

力为、袁琦主编),清华大学出版社。94-99页。

[28]赵军(1998),汉语基本名词短语识别及结构分析,清华大学计算机系博士论文。

[29]赵军、黄昌宁(1999),基于转换的汉语基本名词短语识别模型,《中文信息学报》第13卷第2期。

[30]周强(1996),一个短语自动定界模型,《软件学报》第7卷增刊,315-322页。

发表于《当代语言学》,2000年第2期


相关内容

  • 基于词性的语块识别
  • 基于词性的语块识别 摘要:汉语语块识别在自然语言中有着重要的作用.本文主要以基于规则的方法为出发点来对语块进行识别,主要根据词性在句中所起的作用和来区分语块,进而用基于互信息的方法来对语块进行进一步的划分,此方法既有效又简单,从简单的角度对语块进行了分析起到了一定的效果. 关键词:汉语语块识别:词性 ...

  • 生成语义学与结构主义语言学发展的关联性研究
  • 第18卷第1期2009年3月 吉林农业科技学院学报 JournalofJilinAgriculturalScienceandTechnology.College V01.18,No.1March.2009 生成语义学与结构主义语言学发展的关联性研究 王雪玲 (黑龙江科技学院外语系,哈尔滨150027 ...

  • 哈工大信息检索研究室(HIT-IRLab)共享资源步骤
  • 哈工大信息检索研究室(HIT-IRLab)语言技术平台共享资源和程序步骤 一.语言技术平台相关资源和程序库说明: 全部资源介绍如表1所示: 表 1. 哈工大信息检索研究室对外共享语料库资源 Table 1. Sharing corpora of Information Retrieval Labor ...

  • 局部解剖学
  • 局部解剖学教学大纲 (供临床医学本科专业使用) 前 言 本课程教学大纲是按照卫生部要求,结合我院实际情况,通过讲授理论.解剖尸体.观察标本.触摸活体.放映录像.投影片.幻灯片,以及自学等方式进行教学. 本课程的教学目的是通过教师课堂讲授和学生实地解剖操作,要求学生掌握本学科的基础理论,能够写出解剖记 ...

  • 地坪质量问题处理专项施工方案
  • 厂房地坪质量问题处理专项施工方案 编制: 审核: 审批: 目录 1编制依据 ................................................................................................................ ...

  • 问答式信息检索技术
  • 2008年10月第25卷第5期沈阳航空工业学院学报 JournalofShenyangInstituteofAeronauticalEngineeringOct.2008Vol.25 No. 5 文章编号:1007-1385(2008)05-0063-05 问答式信息检索技术 白 宇 周俏丽 蔡东风 ...

  • 考点一:叙事线索
  • 优质解答 考点一:叙事线索 考查类型:直接让考生回答"本文的线索是什么?" 1.了解叙事线索的几种类型: ①人物线索:人物的见闻感受或者事迹 ②物品线索:某一有特殊意义的物品. ③感情线索:作者或作品中主要人物的思想感情变化. ④事件线索:中心事件 ⑤时间线索 2.寻找线索的几种 ...

  • 大学生qq空间中自我表露
  • 大学生QQ空间中的自我表露 Hdt 应用心理学 2012110810 摘要 通过综述国内有关的网络自我表露文献的基础上,使用内容分析法,对QQ空间中的自我表露行为进行探究结果发现,大学生在空间中表露层次较浅,不存在性别差异:男女生表露层次都较浅. 关键词 自我表露 QQ空间 内容分析 自我表露(se ...

  • 目标定向在自我调节学习中的作用
  • 心理学报2001,33(4):349-353 AcmPsyclmlagicaSiniea 目标定向在自我调节学习中的作用 雷 雳 汪 玲 TanjaCULJAK (Universityof (首都师范大学心理系,北京100089Zagreb,克罗地亚) 摘要该研究主要探讨了目标定向与认知策略.失败应 ...