面向外文科技文献信息的知识组织体系建设思路

作者：孙坦刘峥

图书与情报 2013年06期

　　1 导论

　　信息过载是网络时代面临的一个重要问题。近些年来西方发达国家、组织、企业(如欧盟、美国医学图书馆、联合国粮农组织等)纷纷开展信息组织开放应用的研发项目，来推动信息建设基础平台的创新性实践和技术改善，如美国医学图书馆建设的统一医学语言系统(Unified Medical Language System，UMLS)，谷歌收购了语义搜索公司Metaweb，采用其主打产品Freebase——大规模的开放结构化信息数据库，来推出知识地图服务。我国在“十一五”期间，在国家层面推进了1.7万台大型科学仪器设备(单台套原值50万元以上)、105个野外科学观测研究台站，135万份自然资源实物、970万号标本、4000余种标准物质，22万种科技图书、6万种科技期刊、138万余条标准和技术法规、41万项科技成果信息，以及160TB的科学数据等大量科技资源的整合、开放与共享[1]。

　　面对海量的信息，如何从传统图书馆基于文献知识组织方法，向适应计算机海量信息处理基于概念单元或知识单元方向发展，如何从资源链接的整合，向提供深入知识内容的整合，成为了我国在“十二五”期间信息资源建设的一项重要任务。因此由国家科技文献信息中心牵头，组织实施了国家科技支撑计划“面向外文科技文献信息的知识组织体系建设和示范应用”项目，来构建我国面向外文科技文献的知识组织体系，以支持信息揭示、组织和发现。本文通过知识组织建设模式的现状分析，论述面向外文科技文献信息的知识组织体系建设的目标和主要内容，并对信息组织基础设施建设中存在的难点进行探讨。

　　2 知识组织建设模式分析

　　通过大量的跟踪调研和凝练，可以把西方发达国家或组织推进知识组织实践应用归纳为四种模式：基于传统知识组织体系关联的语义网络模式、基于传统知识组织体系整合抽取的本体仓库模式、基于语义网的参考网络模式和本体网络模式。

　　2.1 基于传统知识组织体系关联扩展的语义网络模式

　　UMLS(Unified Medical Language System)是美国国家医学图书馆建立的关于生物医学和健康的知识组织体系，是基于传统知识组织体系关联扩展建设语义网络模式的典型代表。UMLS共有三个知识源数据库，它们是Metathesaurus、语义网络(Semantic Network)和专家词典(SPECIALIST Lexicon)。Metathesaurus是集成了各种叙词表、分类表、编码集、用于病人护理的可控词汇表、健康服务表、公共健康统计、生物医学文献目录和索引等基础医学、临床医学和健康服务的知识组织体系。Metathesaurus通过概念来组织，其目的是将同一概念的不同名称和形式连接在一起，标识不同概念之间的关系。每个概念都分配了至少一个语义网络的语义类型，这样保证了Metathesaurus中的所有概念在语义网络中相对一致的分类。语义网络的目的是提供Metathesaurus中所有概念的统一分类和一系列概念之间的关系。语义网络由两部分组成：①一组较为宽泛的主题类目，也称语义类型；②一组语义类型之间的关系，或称语义关系。专家词典是NLM建立的三个知识源数据库之一，是UMLS项目的组成部分。专家词典的作用是为自然语言处理系统提供词汇信息。专家词典的词汇包括通用英语词汇和生物医学专业词汇。UMLS试图强大多语言词汇库，用于多种类型的信息系统，如病例、科学文献、指引和公共健康数据，从而在读者查询请求和资源之间建立概念上的关联，在具有相同知识内容的资源之间建立关联。

　　2.2 基于传统知识组织体系整合抽取的本体仓库模式

　　该模式的典型代表是联合国联农组织发起的FOS项目，旨在通过创建、整合和利用本体，来加强渔业信息系统的信息整合和语义互操作能力。FOS项目整合的资源包括：①OneFish：一个渔业项目的门户，采用等级主题树方式对信息进行组织，大约有超过1800个主题，主题含有简短的摘要、标识符、相关联的材料，如文件、网站、元数据。②AGROVOC叙词表：包含大约2000个渔业的叙词和16000相关的扩展词。③ASFA叙词表：超过6000个叙词。④FIGIS:一个整合渔业信息的全球化网络，其采用参考表来组织资源，主要包括水生物种、地理对象、水生资源、海洋渔业、渔业技术，大约有300个顶级概念，向下分成4级，共含有30000个资源对象，并能支持多语种互操作。FOS希望设计出一个全面的本体参考模型以满足：是(部分是)以领域为基础本体，能分享规范的KOS；足够的灵活性，能在同一背景下包括不同的观点或者视角；聚焦在渔业领域的核心推理框架[2]。FOS建立一个多层级的本体仓库来整合资源，主要包括三层内容：

　　顶层本体或称为基础本体，用来表示通用一般性的概念。FOS采用了WonderWeb European项目建立DOCLCE本体模型作为基础，DOCLCE分为三个基本的大类，即：持久性和临时性；品质和品质属性及抽象概念。并采用了乘法的方式来扩展下位类。

　　核心本体是在顶层本体的基础上，结合本体描述与情景的原理(根据情景的作用、任务、参数、状态来具体化说明)来构建了核心本体。将FOS需要整合的资源按照ODP的本体描述模型转化成术语数据库，提取术语数据库顶层概念，保留TDB框架，专家精简以及采用其他本体设计模型[3]。最终，在ASFA的1600个顶级类、AGROVOC的83个顶级类和FIGIS的约400个顶级类中选取了10%作为核心本体。

　　领域本体是在核心本体设计和检验后，将术语数据库中遗留的数据转化为本体数据模型，被称为“原形本体”。将COF(核心本体)与OntoWordNet和“原形本体”进行映射、模块化、合并，形成领域本体。

　　2.3 基于语义网的参考网络模式

　　该模式的核心是通过元数据的RDF模型和用SKOS格式描述的网络参考模型实现对分散异构资源进行分布式语义检索，其典型代表是STERNA(Semantic Web-based Thematic European Reference Network Application)。该项目在2008年6月到2010年11月获得eContentplus项目的1500万欧元支持下，与12个欧洲自然史和生物多样性机构合作，以鸟类和各种鸟类相关的信息为核心，将各种关于鸟、鸟类物种和他们习惯的多媒体资源，包括科学数据、文章、图片、视频和声频文件，汇集和显示在同一个信息空间，以支持欧洲数字图书馆，整合在自然科学、生物多样性及保护领域带有语义的丰富数字资源。

　　STERNA基础架构是通过元数据的RDF模型和用SKOS格式描述的网络参考模型对成员网站的内容进行分布式语义检索。整个系统分为三部分：最基础是语义检索，用于实现对不同成员网站的分散异构数据库的检索；网络工具集，用于内容拥有的机构整合和丰富现有的内容和元数据，并链接到用SKOS的参考模型；API层，用于每个成员网站实现STERNA系统的检索功能。

　　元数据是整个知识组织中的基础组成部分，项目制订了元数据生成和受控词表示的规范。元数据采用RDF元数据模型，RDF的三元组结构易于链接，使一个物体即可以作为主语，也可以作为宾语；也易于机器处理，利用URI来链接相关资源。

　　受控词表示在STERNA系统中被称为“参考结构”，采用SKOS进行描述。参考结构中包含各种的不同组织描述资源的方式，即有低结构化，如词表和术语，也有高结构化能揭示词和词间关系，如叙词表、本体、知识组织系统。为了在语义网络环境下充分利用现有的知识组织系统，使其能被机器处理和整合到发现层，STERNA项目采用了SKOS方式对ITIS(Integrated Taxonomic Information System)、ISO3166国别名称和代码、自建的标准化列表，如机构结构、人员结构进行描述。

　　RNA(Reference Network Architecture)参考网络架构，在系统中内容条目使用了多个参考模型，它们通过等级结构将内容相连接，同时内容条目又通过各自间的元数据相连，从而形成了参考网络架构。参考网络架构中内容条目之间的关系最基本是通过参考模型形成的等级结构，同时还存在虚拟的等级关系，RDF的三元组则形成了属性链接的关系，而在RNA之外，内容条目可以通过超链与系统外的文本、网页链接。RNA被用于创建一个发现层，来检索不同语言的各种数字资源，同时被用来帮助创建和维护发现层及产生结构化文本内容。

　　2.4 本体网络模式

　　该模式的核心思想是网络化本体，通过发展一套整合的方法来进化网络化的本体和相关元数据，通过场景与模式构建实现现有本体的重构、映射、模块化、本体化，并将非本体资源进行整合。NeOn项目是该模式的典型代表，其由欧盟第六框架计划资助，14个欧盟研究机构参与，旨在通过本体网络进行大规模语义应用，通过发展工具和相应方法，产生经济有效方式处理方式解决整个过程应用问题，尽可能促进新一代语义应用。

　　作为NeOn实践案例，联合国粮农组织(FAO)采用NeOn技术方法搭建了以本体驱动的鱼产品消耗评估系统(Fish Stock Depletion Assessment System,FSDAS)。联合国粮农组织的渔业和水产部管理和维护着多个渔业和水产信息和知识组织系统，尽管他们含有的数据多是结构化数据，却难以互操作。在NeOn项目的帮助下，FAO基于联合国的资源创建了一个渔业本体化网络，包括了FIGIS的渔业时间序列参考表、AGROVOC、ASFA、渔业和水产的分面表、FAO地理本体。FSDAS采用本体网络化的方法以集成来自FAO不同信息系统的数据。根据渔业本体生命周期管理的要求，分别从本体工程师和本体编辑人员两个角度，归纳出FSDAS的一般性要求。根据来自FIGIS的数据创建本体，即形成了6个本体模型：地域、渔业区域、生物物种、渔业商品、船只类型和载重、工具类型。通过对渔业领域范畴的分析，将对同一实体的多重知识组织方式进行分析，来扩展和修订本体模型；参考表作为本体化的网络的基础，由于已建立的单个本体在覆盖范围上不存在重复，采用数据连接的方式，即以连接数据到参考表，链接数据到半结构化文件、链接数据是从数据或本体中被推理获取，形成本体化网络[4]。

　　上述四种模式各有特色，但同时具有一些典型的共性：充分借用已有各类知识组织体系；无论是语义网、本体仓库、参考网络还是网络本体，均是以实现网络环境下计算机语义处理和知识组织为目标。

　　需要综合运用上述四种模式确定本支撑计划项目的可操作的解决方案：

　　(1)充分借用目前可获得的各类知识组织体系素材和元数据素材，作为遴选规范概念名称的来源。

　　(2)借鉴“基于语义网的参考网络”模式构建本项目的超级科技词表体系，包括：在利用现有分类范畴的基础上构建超级科技词表的等级结构，以支持面向外文科技文献的结构化呈现与知识导航；选用合适的专业领域知识组织体系作为领域内的参考结构，并实现范畴(等级结构)与各专门知识组织体系(参考结构)的关联映射。

　　(3)借鉴“基于知识组织体系关联扩展的语义网”模式构建各知识组织体系(参考结构)间的关联网络，通过规范概念名称与各知识组织体系的关联实现各知识组织体系的关联整合，构建多元化的面向外文科技文献的超级科技词表网络。

　　(4)结合中国科技工作的具体环境与需求，探索实现基于英文超级科技词表网络的中英文混合检索的技术路线，包括在医学领域建设英文规范概念名称汉译名和工程技汉表与英文超级科技词表网络映射关键技术两种方式。

　　(5)借鉴“本体网络”模式构建本项目的本体层，包括：本体转化、重构、模块化、本体化等的机制、方法和工具模型及4～5个领域本体构建的应用示范。

　　图1 面向外文科技文献的知识组织体系构成

　　3 STKOS知识组织体系的建设目标

　　构建“面向外文科技文献的知识组织体系”，开展应用示范的总目标是：采用国际上先进的知识组织技术和方法，借鉴国内外已有的知识组织系统建设成果与应用经验，在“十二五”期间基本建成面向计算机应用的，以面向外文科技文献信息组织为主要应用目标的科技知识组织体系，为我国海量外文科技文献信息的组织和利用提供支撑，实现国家科技文献信息战略资源的有效组织、深度揭示和知识关联，提供知识检索服务，推进基于国家科技文献信息战略资源的知识发现、知识挖掘和知识计算应用示范，整体提升我国科技文献信息机构的知识服务能力。

　　面向外文科技文献的知识组织体系建设，由知识组织体系内容建设，加工协作平台建设，开放服务平台，自动处理、智能检索的应用，知识服务的应用示范和关键技术研究六个部分组成(见图1)。具体目标是：

　　(1)构建外文科技知识组织体系。建设具有我国自主知识产权的、有效服务于科技文献组织的科技知识组织体系，重点建成具有一定规模的统一的超级科技词表。超级科技词表预计收集科技词汇素材约1000万条，收录科技术语不少于500万条，科技概念规范名称80万条，其中理学领域科技概念规范名称20万条，工学领域20万条，医学领域30万条，农学领域10万条。

　　在此基础上，在各学科领域分别选择两个学科方向初步建成领域本体。完成科研本体的总体框架设计、标准规范制定，并开展应用示范。

　　(2)建立国家科技知识组织体系的可持续发展机制。通过建立STKOS协同工作系统、STKOS的评价体系，以及参建单位、领域专家、知识组织专家的长期稳定的协同工作机制，支持STKOS的持续维护更新，对STKOS的测评和修正，保证STKOS可持续发展。

　　(3)推进科技知识组织体系的开放服务。支持面向国家科技图书文献中心海量科技文献的规模应用，支持面向全国科技信息服务机构的开放应用服务，支持面向科学研究机构的深层次的科学研究服务，使科技知识组织体系成为支撑国内各类信息机构和科研机构开展知识服务的信息基础设施。

　　(4)实现海量文献信息的自动处理和智能检索。开发基于科技知识组织体系的海量文献信息自动处理和智能检索系统，实现科技文献信息资源的结构化深度整序，提升我国科技信息资源整体的知识化组织程度，使国家科技文献信息资源得到充分揭示和利用，有效推动国家科技文献战略资源的知识化服务。

　　(5)开展基于科技知识组织体系的应用示范。有效提高我国科技信息机构在知识发现、科技信息监测、知识结构和知识演化分析、领域学术关系研究、领域态势分析、战略情报研究、决策支持等方面的知识服务能力和水平。

　　4 知识组织体系的建设内容

　　面向外文科技文献的知识组织体系建设的核心是知识组织体系内容建设，它主要由两个主要部分组成：超级科技词表和本体。超级科技词表是一个融合词表、术语表、叙词表等各种知识组织素材，以科技术语为基本单元，以概念为核心，以来源词表的原有关系为依托，通过概念与来源词表术语进行语义关系的词网络。本体是以STKOS超级词表收集的概念为基础，发展一套根据情景来设计和构建网络本体的方法和工具，将超级科技词表及其他知识组织体系进行本体化表达，形成轻量型本体，建设4～5个面向领域应用的本体网络和1个科研本体知识库，为知识组织体系的语义应用奠定基础。

　　4.1 超级词表建设

　　超级词表由基础词库、规范概念集和范畴体系三个层次构成，三部分相互依托，构成一个有机的整体。

　　基础词库是将两部分的内容，一是来自各种词表、术语表，二是来自作者关键词和用户检索的关键词等，经过对比分析、评价、遴选，作为建立超级词表的来源素材。随后，来源素材经过去重形成基础术语，基础术语再经过词形规范形成规范术语，最后规范术语经词义规范形成基础概念。基础词库处理的关键是：需要将相同含义的不同形式的术语合并成同一概念，同时也要将相同形式不同含义的术语进行区分。因而需要借助词形规范化工具和专家词典，将不同来源的术语进行原型化处理，将完全相同归并在一起。同时需要进行词义鉴别，建立同形异义词典，一个术语经常存在多个词义，基础词库从不同来源获得的术语，同形词可能具有不同的词义，需要按词义进行聚类，将同义词结果分为几个集合，集合内属于同一词义，集合之间属于不同词义，从每个术语的多个词义中，选择其中一个属于自己领域的语义，只保留该语义对应的术语集合。

　　图2 STKOS的本体构建场景

　　规范概念集是将基础词库处理后的所有术语，通过学科之间的术语冲突检测，遴选出概念的优选术语，从而形成以概念为基本单元，保留不同来源术语的定义，继承不同来源术语的各种关系的集合。

　　范畴体系是构建在规范概念集的基础上，通过建立分类框架，对概念进行聚类、分类、浏览，以辅助检索。

　　4.2 本体建设

　　STKOS本体建设是根据本体建设的目标场景和本体的生命周期，确定本体建设需要路径和活动，来构建相应的工具集以支持本体网络的建设，从而实现创建4个领域本体和1个科研本体及知识库。

　　NeOn项目设计了9个本体构建场景：从头开始创建；重用和重建非本体资源；重用本体资源；重用和重构本体资源；重用和整合本体资源；重用、整合、重构本体资源；重用本体设计模型；重组本体资源[5]。STKOS本体构建主要涉及其中的前3个场景：从零开始创建本体、重建和重构非本体资源、本体资源的重用(见图2)。

　　本体生命周期模型是表明本体建设者在本体网络实施过程中需要开展的活动和遵循顺序，主要有两种：瀑布模型和迭代模型。瀑布模型主要应用于建设周期短、需求具体、小而理解充分的领域，它必须按照阶段依次开展相应活动；迭代模型主要应用于需求不完全明确，大型复杂本体的构建过程，它是采用瀑布模型构建单个本体的一组迭代。

　　由于本体构建的场景不同，所需要的构建阶段也有所不同：从头创建本体需要4个阶段，初始阶段、设计阶段、实施阶段和维护阶段；本体资源的重用分为5个阶段，在初始阶段之后增加了重用阶段；非本体资源的重用和重构，分成了6个阶段，在初始阶段之后增加了重用和重构阶段。本体构建的不同阶段——初始、设计、实施、维护、重用、重构，对应着不同的本体构建活动。

　　根据STKOS本体构建的场景和生命周期活动，整个本体工具和平台分为3个层次：

　　(1)本体存储与管理层：存储领域本体、科研本体，并建立本体索引。通过API调用对本体进行访问，并可进行用户管理、多本体管理。

　　(2)本体工具层：搭建插件运行环境，可加载本体创建、本体查询、本体裁切、非本体资源转换、本体语义丰富、本体合并、本体浏览、本体评估、本体推理等本体工具。

　　(3)用户界面：根据用户不同的本体构建需求，来组合本体活动和相应的工具，从而实现新建本体、非本体资源转换、现有本体资源复用等。

　　5 STKOS知识组织体系建设中的难点

　　作为我国外文科技文献知识组织的基础设施，STKOS知识组织体系涉及学科众多、内容庞杂，在构建超级词表和本体建设的过程中，遇到了各种各样的问题，其中主要的难点为：

　　(1)对概念的规范整理、凝练、范畴归类：要将多来源的词汇，以概念为核心，形成继承来源属性关系的词网络，需要保证以概念汇集的术语规范整理、聚类归类的准确性和一致性，其关系到构建后的超级科技词表对知识资源组织的准确性、可用性，因而如何对来源术语进行规范整理，实现术语的聚类归类、概念关系继承，成为了超级词表构建中的一个难点，需要在现有叙词表标准的基础上设计规范整理规则和数据格式，对术语的相似度计算方法和模型、设计概念同义归并和归类以及概念同形异义区分的方法和算法，从而实现计算机辅助人工处理。

　　(2)本体构建与应用的结合：随着本体研究的完善，单纯构建一个本体并不困难，但如何将本体构建与应用场景、应用模式相结合，形成可复用的本体资源，能面向应用形成本体，需要深入地探讨。因而将本体构建通过动态建模的方法，以情境分析为基础采取合作方式，来实现本体的重用、重构、映射、关联和模块化，实现非本体的知识组织体系向本体转换构建本体网络，成为了本体构建的难点。

作者介绍：孙坦(1970-)，男，中科院国家科学图书馆研究馆员，博士生导师，北京 100190；刘峥(1979-)，女，中科院国家科学图书馆副研究馆员，北京 100190