对中文信息处理技术的认识

陶国成

（河南信阳农业高等专科学校计算机科学系，河南信阳，464000）

摘要：随着世界信息化的高速发展，针对我国而言，探索中文信息处理的需求是至关重要的。本文从中文信息处理的重要组成部分：汉字信息处理和汉语信息处理以及随后兴起的HNC理论等几个方面谈了对计算机中文信息处理的认识。

关键词：汉字编码　汉语处理　自动分词　HNC理论

中文信息处理，是用计算机对中文（包括口语和书面语）进行转换、传输、存贮、分析等加工的科学。中文信息处理技术是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学样相联系的边缘交叉性学科。中文信息是自动化处理，意义之重大是无须多说的。首先是节省时间。但是这还在其次，更为重要的是，这是人们应付未来信息社会的必需手段。现在世界范围内，信息最之大是以往任何时候无法比拟的，以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里，无法比较全面地掌握自己所需要的信息，当然就更谈不到对这些信息按照需要进一步处理。

信息在当代是极其重要的资源，不能充分掌握它、利用它，无论是对个人还是对整个社会，都是巨大的灾难。因此，获取、处理和运用信息的手段至关重要。可以这样说，中文信息自动化处理每提高一步，给我国的科学技术（包括国家的信息化）、文化教育、经济建设、国家安全所带来的效益，将是无法用金钱的数额来计算的。反之，如果我们落后了，不管是落后于国际水平还是落后于现实需要，后果也是严重的。随着科学技术的发展，中文信息处理技术已到社会生活的各个方面，它包括汉字信息处理和汉语信息处理以及刚刚兴起的HNC理论。

一．汉字信息处理

汉字也是字符，但它远比西方字符量多且复杂。我国是创造和使用汉字的国家。汉字字形优美、生动、形象，是我国表示信息的主要手段，但由于数量大且字形复杂，也给计算机处理带来困难。从60年代开始我国就对汉字信息处理技术进行探索和研究，现在已取得许多成功的经验和实用的成果，比如：CCDOS、 SPDOS、ACIOS、UCDOS、China Star和Rich-

win等都是微机上使用的汉字操作系统和汉字环境。汉字信息处理是中文信息处理的关键和基础，包括汉字信息的输入，汉字信息的加工和汉字信息的输出等方面，其难点是汉字编码问题。汉字编码的设计，应从系统的角度出发，根据不同用户（专业录入员、一般用户等）的需要制定出不同的技术指标，如：输入速度、存贮空间、处理效率、以及掌握输入方法所需的训练

时间等。并且，应由国家统一评选出几种标准的编码方案，以实现汉字编码方案的标准化。

根据在汉字信息处理过程中的不同要求，有多种汉字编码，主要可以分为四类，即汉字输入编码，汉字标准编码，汉字内码和汉字形码。

（一）汉字输入编码

这是一种用计算机标准键盘上按键的不同排列顺序来对汉字进行编码。用户按照这个编码顺序按动键盘上指定的按键就可将汉字输入到计算机中去，即用键盘上的字符或数字串来表示汉字。一个好的汉字输入编码应该具有以下特点：

（1）简明易学，也就是说编码规则应尽可能与日常生活逻辑与常识接近，以方便记忆，甚至不需要记忆。

（2）编码短，重码（既不同的汉字采用同样的编码）少，即使出现重码时也能提供简便的处理方法，这样可减少输入一个汉字的击键次数，从而提高输入速度。

（3）编码的容量应足够大，至少应包括国家标准GB2312-80中规定的全部汉字。

（二）汉字标准编码

这是在汉字信息处理系统间进行汉字信息交换时所使用的编码。同一汉字在不同的系统或计算机内部采用的编码可以不一样，但是一旦不同的系统间要交换信息时就必须对同一汉字规定统一的标准，才能被双方接受和识别。我国已制定并公布了国家标准《GB2312-80信息交换用汉字编码字符集------基本集》，该字符集规定了6763个汉字和一些其他基本图形字符的编码。通常被称为国标交换码，简称为国标码。该标准编码字符集共收录汉字和图形字符7445 个，其中：

（1）汉字6763个。分为两级，常用汉字为一级，共3755个，在字符集中是按汉语拼音编排的；次常用汉字为二级，共3008个，是按部首顺序编排的。

（2）汉语拼音符号26个。

（3）汉语注音符号37个。

（4）数字22个，既0 ~ 9，Ⅰ~ Ⅻ。

（5）序号60个，既① ~ ②，⑴~ ⑵，⒈ ~ ⒛ ，（-）~ （+）。

（6）一般符号202个，包括标点符号，运算符号以及制表符号等。

（7）英文字母大小写，共52个。

（8）日文假名169个，其中平假名83个，片假名86个。

（9）希腊字母大小写，共48个。

（10）俄文字母大小写，共66个。

该字符集用两个7位二进制数字来编码：第一个7位表示区号，后一个7位表示位号。按照标准编码，一个汉字7位区号和7位位号各加上32后的相应二进位代码，既是该汉字的国标码。比如：“啊”的国标码为（3021）16进制。

（三）汉字内码

这是汉字信息处理系统在计算机内存储和处理汉字信息时使用的编码。不同的计算机可以有不同汉字内码，但在它们之间要交换汉字信息时都必须将内码转换成标准的交换码。同一汉字信息处理系统只能

有一种内码，但可允许使用不同的汉字输入编码方法来输入，每种输入方法软件都应带有各自的转换或加工处理程序，将输入的汉字转换成同一种汉字内码。

在确定内码时要考虑汉字和西文字符的区分或兼容的问题。为了使得面向西方国家设计的微机和大量系统软件和应用软件能为我所利用，目前应用最广的一种汉字内码是在国标汉字交换码的区号和位号的最高位都分别加上1位“1”，构成两个8位的字节。因为ASCII码在按字节存放时最高位都位“0”，这样就区分开了，从而成功地实现了汉字和西文的并存兼容。比如：“啊”的国标内码为（BOA1）16进制。

（四）汉字字形码

汉字字形码用在输出时产生汉字的字形，通常有两大类主要字形编码方式：点阵字形与轮廓字形。在实际显示或打印时最终都采用点阵字形。因为不论汉字的笔画多少，都可以写在同样大小的方块中，从而可以把这一方块划分为许多小方块，组成一个点阵，每一个小格就是点阵中的一个点。点阵中的每个点可以有“黑”， “白”两种颜色，用这样的点阵就可以描出汉字的字形。

相对而言，轮廓字形编码方式比较复杂，既采用一组直线和曲线来描绘出汉字笔画的轮廓，记下每一直线与曲线的数学描述公式。其优点是占用存区小，精度高，可方便的缩放。当显示时，可按一定的算法取出字形轮廓将其转换成为点阵。

目前，除了上面提到的四类汉字编码，我国还研制出了其它数百种汉字编码方案，其中部分方案已通过了上机试验，或已被采用。除此之外，还研制出了各种汉字输入键盘、汉字字库、仿真汉字终端、汉字打印机。汉字内码有效地解决了中西文兼容的问题；计算机激光汉字照排系统也已研制成功；同时，手写体和印刷体汉字识别的研究工作已取得了一定成绩。

二．汉语信息处理

汉语信息处理是汉字信息处理的进一步发展，它要在汉字输入的基础上，研究汉语的词汇、句法、语义、语境的自动处理问题，是中文信息处理的高级阶段。目前，汉语信息处理在机器翻译、汉语的人机对话和中文情报检索等方面，已经取得了一定的成果。机器翻译目前已研制出英汉、俄汉、法汉、日汉和汉外等系统，其中有的系统已经迈向了实用化和商品化的道路。现在，我国已出现了不少研究情报检索系统的单位，并取得了一定成果。情报检索的关键是情报检索语言的建立，词的切分问题也将直接影响情报检索系统的工作；目前全文情报检查系统已经实用化。

汉语信息处理，还包括言语统计、计算机辅助语言教学（编制各种语言教学软件）、语音识别和言语合成、编辑照排

系统、方言研究、修辞学研究（用统计的方法研究风格特征，并进行风格比较等）、索引、词表和词典的编制工作等。

汉语书面语不像西方文字那样分词连写，词与词之间没有明显的界限，进入计算机后是等距排列的汉字字串序列。而在进行词频统计时或中文信息处理进入到句以上单位的处理阶段时,例如在机器翻译、自然语言理解、文献检索等语言工程中,都需要一个个词分开。自动分词,即用计算机把语料按词切分开,注上切分标记。我国的自动分词技术已经比较成熟,一些自动分词系统已经达到实用水平,切分精度超过了99%。但是,要在这基础上把切分率再提高哪怕一点点,还要付出很大努力。现在切分的错误90%以上发生在“交集型歧义字段”上。所谓交集型歧义字段,是与“多义组合歧义字段”相对而言的,前者是指字段“AB”,“AB”成词,“A”和“B”也独立成词；后者是指字段“AJB”,既可分为“AJ/B”,也可分“A/JB”(J为交集字串)。显然,要解决这个问题,关键不在计算机的技术方面,而在语言学。现在,语言学对词的研究还没有给中文信息处理提供足够的工具,例如对“什么是一个词”的研究,至今还没有一个差强人意的成果。虽然我国的自动分词技术已经比较成熟，但是问题还没有彻底解决，所以在言语统计工作中，许多统计是在人工辅助切词的基础上进行的。用计算机对汉语进行方言研究，即让计算机对各种方言特征，如声母、韵母、声调，鼻化、腭化等现象进行描写和比较。目前，我国已开始利用计算机进行方言研究和绘制方言地图的工作了。

中文信息处理，只有进入到语言处理阶段，才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段，给人以假象，使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪，可以成篇地把文件输入到计算机里。其实，扫描仪是把整页纸当成一个图像输进去的；输入后，经过OCR的处理，图像转化了可以用键盘处理的文字文件，这时则仍是“字处理”。再如，现在有些语音输入产品（像IBM语音板），是基于在一定量的语料中对词汇进行统计，依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品，对汉语研究的基本思路和水平与语音输入基本上是一样的。二十年前，我国计算机专家和汉语汉字专家为能在计算机上显示汉字，曾经付出了极大的心血，完成了历史性的突破。自那以后，中文信息处理技术虽然在有些方面有所进步，但是汉语的人机对话，目前还只限于书面语部分，至今还没有跨上“语言处理”这个台阶。我们在“字处

理”阶段停留的时间太久了。

三．中文信息处理的新发展——HNC理论

出于对传统研究方法（词→短语→句→句群→篇章）是基于西方语言而建立的，其总体与汉语实际不适应的考虑，黄曾阳先生提出了概念层次网络理论（HNC）。

HNC理论认为，计算语言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏低和偏高的不足，不是描述人的语言感知过程的适当模式，因为 “思维的机制绝不是语法或句法，而是概念联想网络的建立、激活、扩展、浓缩与存储”，从而提出计算机对汉语的处理不应该以图灵检验为标准，而应该以对语言模糊的消解能力为第一标准。

“自然语言的语句呈现出无限和不确定的表现特征，……在其背后是否存在一种有限和确定的语句结构？人们对此进行过多方面和多层次的探索。”传统语言学、乔姆斯基理论、依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模型等的各种统计处理，各有自己的答案。对自然语言特性的把握必须是微观和宏观并重的，对语句特性的把握更是如此。上述四种答案“与语言微观和宏观特性的联系大体依次呈现出反变和正变的趋向。”HNC的答案是：应该描述语言感知过程，为此，应从语言的深层入手，以语义表达为基础，把自然语言所表述的知识划分为概念、语言和常识三个独立的层面，建立语义完备性的概念表述数学表示式和语句的语义表述模式。人的语言交流过程，就是消解“模糊”的过程。因此，HNC把消解模糊作为自然语言理解初级阶段的标准（就书面而言，有词的多义模糊、语义块构成的分合模糊、指代冗缺模糊），即以消解模糊为攻克的第一步。

HNC认为，汉语以“字义基元化，词义组合化”方式构造新词，因此可以构建概念表述体系，亦即概念层次网络。HNC同时认为自然语言无限的语句可以用有限的句类物理表示式来表达。“语句的宏观特性可以用语句的句类表示式来表达，语句的微观特性可以用语义块的构成表示式来表达。”他们据此设计了局部联想网络解决词汇层面问题，设计了全局联想网络解决句类和语义块问题（句类是语句的语义类型）。据HNC课题组的研究，自然语言共有7个句类：作用、过程、转换、效应、关系、状态和判断。每个句类有自己的句类表示式，基本句类表示式共57个。此外，自然语言还有单个全局特征语义块的混合类和两个或多个全局特征语义块的复合句类。理论上二者应有3192+57×56+57×3192+3192×3192=10377192种。但是常见的混合句类只有理论值的十分之一左右，在计算机上是可以解决的。从理论上说，HNC的句类分析是对

大脑语言感知过程的初步模拟，应该接近人的语言过程，但这需要长时间的逐步完善。

现在HNC课题组正按照“语义块感知和句类假设、句类检验、语义块构成分析”三步曲策略努力工作，期望能研究和开发出具有“自知之明”（即能在译文疑点处自动做出标记并给出多种解决方案）的汉/英互译系统。这一策略在规模较小的知识库支持下已经取得可喜结果。而其准确性最终要在更大的知识库支持下，在大规模语料中运行才能得到信度较高的印证。这正是这一课题当前工作的难点所在。

在知识表示方式上，HNC知识库不再象CYC等一样用自然语言充当表述符号，而是创立了两套描述自然语言的数学表示式，即概念表述的数学表示式和语句表示的数学表示式。

另外，HNC理论还建立了这样的体系，该体系由五元组（动态、静态、属性、值、效应五大特征）、语义网络和概念组合结构组成，它是计算机把握并理解语言概念的基本前提，称为局部联想脉络，是HNC理论的基本内容之一。局部联想脉络的基本思路和做法是：把概念分为抽象概念和具体概念，对抽象概念用语义网络和五元组来表达，对具体概念采取挂靠展开近似表达的方法。概念有抽象与具体之分。在一般人看来，抽象概念总是比具体概念难于把握，中文信息处理界已做的汉语语义分类工作，对抽象概念总有力不从心之感。HNC理论认为，实际上，抽象概念比具体概念更具有基元性、系统性，因而更容易表达；具体概念是客观存在物在人的思维中的直接反映，它里面包含了许多世界知识，而对世界知识是很难进行详尽表达的，所幸的是，人对具体概念理解和认识的深度可以比抽象概念浅，所以可以采取实用原则，“不求甚解”。HNC理论侧重于抽象概念的表达。

HNC理论是相当成熟的全新的理论，它是中国人创立的、基于汉语特点的自然语言理解理论。它的创立为我国开创自己的语言信息产业创造了契机。有人说，中国的信息产业当前面临八国联军入侵的局势，有关外国大公司早已看到中文信息处理的巨大市场，他们在向中国进军，凭着雄厚的经济实力，大力“收买”中国的人才、技术和成果，如此长久下去，中国人还哪有自己的信息产业。不久前，IBM公司推出了汉语语音输入系统，他们有一个不错的语音模型，但是，他们还没有一个好的语言模型。HNC建立的语言表述和处理模型目前在国内外都是无人可比的，它应该成为中国人的财富，我国应该以它为基础来开创有中国特色的信息产业。我们期待着HNC理论大展鸿图。

总之，面对信息技术的高速发展，对信息处理的要求标准就不断提高

。中国是汉语汉字的故乡，中文信息处理技术的发展直接影响着我国信息产业的发展；虽然我们在汉字信息处理方面取得了重大的成就，HNC理论的提出也为汉语信息处理技术的发展做出了重大贡献，但是，我们在语音识别、手写识别、光学字符识别和汉语的人机对话以及机器翻译等方面还存在着众多不足，甚至有的还只限于书面语部分，这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。而如果一旦这些难题能较及时地得到解决,就将是"失之东隅,收之桑榆"的局面。

参考文献

1 曹邦伟，高传善. 计算机与信息处理[M]. 上海：复旦大学出版社，2001

2 黄曾阳. HNC理论概要.中文信息学报,1997,(4)

3 许嘉璐.未成集——论新时期语言文字工作[M]. 北京：语文出版社，2000年

4 张普.论语义场.中文信息处理应用平台工程. 北京:：电子工业出版社, 1995

5 苗传江.自然语言理解的新进展——简评黄曾阳先生创立的HNC理论.科技导报,1998(3)

6 姚天顺等.自然语言理解——种让机器懂得人类语言的研究.北京:清华大学出版社,1995.12

The comprehension —handles to the calculator information

TAO Guo-cheng

(Department of Computer Science, Xinyang Agriculture Advanced College, Xinyang, 46400, China)

Abstract：The high speed that turn develops along with the information of world, In regard to our country, investigate need that Chinese information handles is to pass important.This text importance that handles from the Chinese information constitutes the part:The Chinese characters information handles to handles with the Chinese language information and HNC theories etc. several a cognition for talking to calculator Chinese information handling risen later on.

Key words：Chinese characters codes ；Chinese language handles

Automatic participle ；Theories of HNC

对中文信息处理技术的认识

陶国成

（河南信阳农业高等专科学校计算机科学系，河南信阳，464000）

关键词：汉字编码　汉语处理　自动分词　HNC理论

一．汉字信息处理

时间等。并且，应由国家统一评选出几种标准的编码方案，以实现汉字编码方案的标准化。

根据在汉字信息处理过程中的不同要求，有多种汉字编码，主要可以分为四类，即汉字输入编码，汉字标准编码，汉字内码和汉字形码。

（一）汉字输入编码

（1）简明易学，也就是说编码规则应尽可能与日常生活逻辑与常识接近，以方便记忆，甚至不需要记忆。

（3）编码的容量应足够大，至少应包括国家标准GB2312-80中规定的全部汉字。

（二）汉字标准编码

（1）汉字6763个。分为两级，常用汉字为一级，共3755个，在字符集中是按汉语拼音编排的；次常用汉字为二级，共3008个，是按部首顺序编排的。

（2）汉语拼音符号26个。

（3）汉语注音符号37个。

（4）数字22个，既0 ~ 9，Ⅰ~ Ⅻ。

（5）序号60个，既① ~ ②，⑴~ ⑵，⒈ ~ ⒛ ，（-）~ （+）。

（6）一般符号202个，包括标点符号，运算符号以及制表符号等。

（7）英文字母大小写，共52个。

（8）日文假名169个，其中平假名83个，片假名86个。

（9）希腊字母大小写，共48个。

（10）俄文字母大小写，共66个。

（三）汉字内码

（四）汉字字形码

二．汉语信息处理

汉语信息处理，还包括言语统计、计算机辅助语言教学（编制各种语言教学软件）、语音识别和言语合成、编辑照排

系统、方言研究、修辞学研究（用统计的方法研究风格特征，并进行风格比较等）、索引、词表和词典的编制工作等。

理”阶段停留的时间太久了。

三．中文信息处理的新发展——HNC理论

大脑语言感知过程的初步模拟，应该接近人的语言过程，但这需要长时间的逐步完善。

总之，面对信息技术的高速发展，对信息处理的要求标准就不断提高

参考文献

1 曹邦伟，高传善. 计算机与信息处理[M]. 上海：复旦大学出版社，2001

2 黄曾阳. HNC理论概要.中文信息学报,1997,(4)

3 许嘉璐.未成集——论新时期语言文字工作[M]. 北京：语文出版社，2000年

4 张普.论语义场.中文信息处理应用平台工程. 北京:：电子工业出版社, 1995

5 苗传江.自然语言理解的新进展——简评黄曾阳先生创立的HNC理论.科技导报,1998(3)

6 姚天顺等.自然语言理解——种让机器懂得人类语言的研究.北京:清华大学出版社,1995.12

The comprehension —handles to the calculator information

TAO Guo-cheng

(Department of Computer Science, Xinyang Agriculture Advanced College, Xinyang, 46400, China)

Key words：Chinese characters codes ；Chinese language handles

Automatic participle ；Theories of HNC

对中文信息处理技术的认识

相关内容

热门内容

标签