本体理念的信息检索方案查询与应用初探

  摘 要:信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程。本体作为一种客观描述,有着良好的概念层次结构,能够利用公理对概念及概念间关系进行推理,从而明确各种关系,建立知识间的概念模型。本体理念的信息检索可对信息源进行语义标引,提高查全率和查准率,帮助用户准确的找到真正需要的信息。本文将从本体的基本概念出发,对本体理念在信息检索中的应用进行初步探析,建立基于本体的信息检索系统,提高信息检索效率。

  关键词:本体;信息检索;信息检索系统

  中图分类号:TP393.08

  随着计算机技术和网络技术的不断进步和发展,互联网进入了人们生活的各个领域,检索方式也由原来的脱机检索、联机检索发展为今天的网络检索。然而,网络检索给人们带来方便的同时,也给信息检索带来了麻烦。信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程,如何快速、准确地检索到用户所需要的信息是信息检索面临的问题。因此,提高检索效率,提高查全率、查准率,探讨新的检索模式是信息检索发展的必然趋势。本体理念有着良好的概念层次结构,是近几年学术研究的热点,它的应用和推广必然推动信息检索的发展。

  1 本体的基本概念

  本体作为一种信息表达形式,有着良好的概念层次结构,具有较强的表达能力。本体对逻辑推理的支持能够更好地表达概念之间的关系,使得信息具有一定的层次结构。

  1.1 本体的概念。本体是指对客观存在物体的一种系统地描述,它并不是具体指某个人描述该事物使用的具体语言,而是将计算机的表达方式和人类的表达方式统一。Gruber认为:本体就是指给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。Borst Pim则认为:本体是概念模型的规范说明。Studer认为:本体是指共享概念模型的形式化规范说明。第一,概念模型。所谓概念模型,是将客观世界中一些现象抽象为形同概念而得到得到的,独立于具体的环境。第二,形式化。指本体是计算机可读的。第三,共享。共享指本体是针对团体所达成的共同认可的知识。

  1.2 本体的功能。本体作为知识的一种表达形式,它能够将计算机与人类的表达方式统一,也能够将术语和概念统一。我们通常认为本体的功能有以下几种:首先,本体为所有的语言提供了一个共同的标准,将语言规范化,为人们的交流提供了方便。其次,本体可以将不同软件系统集合在一起,给不同的软件系统提供了平台,促进软件系统的互操作。最后,本体能够将检索系统规范化,使得信息更容易被共享和重用。此外,形式化的本体可以提高软件的可靠性,方便设计者对软件的检查。

  1.3 本体的分类。本体按照其研究范围的分类标准进行分类,可以分为通用本体和领域本体。通用本体是指研究通用的概念、通用属性,如空间、时间等等,并不局限在特定的领域。构建通用本体的过程与构造词典相似,目前常用的通用本体有Wordnet 和 Hownet。领域本体是指描述具体领域知识的概念和属性,描述某个领域的知识。目前,领域本体比较匮乏,相对成熟的是生物学本体、医学本体。领域本体库的构建需要领域专家的参与,并且要与共同达到的学术一致。

  1.4 本体的构建方法。根据目前认可度较高的Gruber提出的本体构建规则,学界提出了多种构建方法。认可度最高的是斯坦福大学医院开发的七步法:确定专业领域范围;考查现有本体寻找复用机会;列出该领域的术语;对该领域事务进行分类;定义类的属性、类与类之间的关系;定义属性的分娩;创建属于该类的实例。

  1.5 本体描述语言。本体描述语言随着网络发展而发展,并且具备多种功能使得本体在不同系统之间互操作。本体描述语言需要提供机器可读的形式,能够实现自然语言与机器表达形式的转化。目前,常用的本体描述语言主要有RDF、OWL,本文介绍RDF模型,以下是对这种语言的具体介绍。

  RDF包括3种实体:资源和实体、属性、声明。资源和实体是对资源进行标识;属性是对资源的各个方面进行定义,如特征等;声明是指对已经被命名的属性且被赋值的特定资源,即RDF声明。

  RDF模型的描述方式通常有以下几种方式:简化三元组方式,用尖括号将三元组的主语、位于、宾语隔离;RDF模型图方式,是以图形的方式将三元组描述的声明表现出来,资源、字符串节点、属性分别用椭圆、方框、连线来表示;RDF/XML方式,这种表达方式是按照RDF/XML语法和编码规则描述RDF模型,并将这种模型存放在计算机中。

  2 基于本体的信息检索系统

  随着互联网技术的发展,传统的信息检索已无法满足人们的需求。传统的信息检索主要采用结构化信息表示方式,要求有较高的查准率。但是,传统的信息检索存在一定局限性,如文档的添加较为复杂,增加了工作人员的工作量;结构化信息表达形式限制了用户的输入,只能输入与数据库一致的信息才能得到检索结果,而非结构化信息表达形式在一定程度上放宽了用户的输入限制,采用关键字匹配的方式,但是不能满足语义检索的要求,因此,不能提高查全率,出现漏检的情况。

  基于本体的信息检索系统能够主动理解用户要求,通过逻辑推理后进行检索。同时,本体理念的信息检索系统可以将计算机的表达方式与人类的表达方式统一,实现计算机与人类的同语言交流。

  基于本体的信息检索包含以下几个模块:文档预处理操作、构建索引、扩展合并用户查询词、构造检索模型、排序算法。文档预处理操作是指利用分词技术将大段文字分割成词语,经过词法分析后,删除没有语义的词汇,减少文档的冗余。利用倒排文档可将索引与原文档相连,检索词作为索引大大提高了检索效率。用户输入检索词后,系统需要通过一定的预处理、或者是通过查询处理算法,扩展合并查询词,推理用户的检索需求,从而提高查准率。构造检索模型能够迅速匹配用户查询的相关信息,提高检索效率。排序算法是指利用某种算法将与检索词相关性最强的检索结果放在前面,让用户先看到想要的结果。

  为了提高检索的查全率、查准率,基于本体的信息检索系统还可以提供多类型的检索模式,本体检索作为基础检索,关系检索和属性检索为用户提供高级检索,为用户提供知识间的联系,如果用户需要个性化服务,还可以提供回溯检索。本体理念的信息检索系统可以将关键词进行概念匹配,用户在不具备专业检索技能的情况下,也能迅速并准确的检索到所需要的的信息,给用户带来全新的极富人性化的体验。

  3 结束语

  基于本体的信息检索需要构建本体领域知识库,以本体的相关理论为基础。由于理论的复杂性和技术难关等原因,目前国内外还没有对本体信息检索系统进行大规模应用。本体知识库虽然在技术上较为先进,但是就目前的发展水平来看,本体信息检索只能停留在研究的初期,还有许多技术难关要攻克。如何构建本体知识库、充分利用本体表示形式带来的优势仍有待进一步研究,使用本体直接进行匹配,将文档进行本体化,实现文档的自动标引,提供以自然语言为主的概念检索和关系检索模式,提供更人性化的服务。总之,基于本体的信息检索,能够同时提高查全率和查准率,提高检索效率。本文的观点仍有不成熟之处,希望诸位同仁对本体信息检索系统模式进行进一步分析和研究,随着本体技术的不断发展,基于本体的信息检索也会不断发展和完善。

  参考文献:

  [1]易运晖,朱畅华,裴昌幸.偏振旋转的量子私有信息检索方案[J].电子与信息学报,2012(10).

  [2]李宏佳,刘国华,李金才.相互协作中的私有信息检索方案[J].计算机工程与设计,2010(13).

  [3]邢晓辉,牟义军.一种基于本体的信息检索方案[J].山东科学,2011(02).

  作者简介:方鹏(1974-),男,教师,研究方向:数据库技术应用。

  作者单位:长江职业学院,武汉 430074

  基金项目:本文为长江职业学院校级教科研项目“基于数据库技术的信息检索应用研究”(项目编号:2011X011)阶段性成果。

  摘 要:信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程。本体作为一种客观描述,有着良好的概念层次结构,能够利用公理对概念及概念间关系进行推理,从而明确各种关系,建立知识间的概念模型。本体理念的信息检索可对信息源进行语义标引,提高查全率和查准率,帮助用户准确的找到真正需要的信息。本文将从本体的基本概念出发,对本体理念在信息检索中的应用进行初步探析,建立基于本体的信息检索系统,提高信息检索效率。

  关键词:本体;信息检索;信息检索系统

  中图分类号:TP393.08

  随着计算机技术和网络技术的不断进步和发展,互联网进入了人们生活的各个领域,检索方式也由原来的脱机检索、联机检索发展为今天的网络检索。然而,网络检索给人们带来方便的同时,也给信息检索带来了麻烦。信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程,如何快速、准确地检索到用户所需要的信息是信息检索面临的问题。因此,提高检索效率,提高查全率、查准率,探讨新的检索模式是信息检索发展的必然趋势。本体理念有着良好的概念层次结构,是近几年学术研究的热点,它的应用和推广必然推动信息检索的发展。

  1 本体的基本概念

  本体作为一种信息表达形式,有着良好的概念层次结构,具有较强的表达能力。本体对逻辑推理的支持能够更好地表达概念之间的关系,使得信息具有一定的层次结构。

  1.1 本体的概念。本体是指对客观存在物体的一种系统地描述,它并不是具体指某个人描述该事物使用的具体语言,而是将计算机的表达方式和人类的表达方式统一。Gruber认为:本体就是指给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。Borst Pim则认为:本体是概念模型的规范说明。Studer认为:本体是指共享概念模型的形式化规范说明。第一,概念模型。所谓概念模型,是将客观世界中一些现象抽象为形同概念而得到得到的,独立于具体的环境。第二,形式化。指本体是计算机可读的。第三,共享。共享指本体是针对团体所达成的共同认可的知识。

  1.2 本体的功能。本体作为知识的一种表达形式,它能够将计算机与人类的表达方式统一,也能够将术语和概念统一。我们通常认为本体的功能有以下几种:首先,本体为所有的语言提供了一个共同的标准,将语言规范化,为人们的交流提供了方便。其次,本体可以将不同软件系统集合在一起,给不同的软件系统提供了平台,促进软件系统的互操作。最后,本体能够将检索系统规范化,使得信息更容易被共享和重用。此外,形式化的本体可以提高软件的可靠性,方便设计者对软件的检查。

  1.3 本体的分类。本体按照其研究范围的分类标准进行分类,可以分为通用本体和领域本体。通用本体是指研究通用的概念、通用属性,如空间、时间等等,并不局限在特定的领域。构建通用本体的过程与构造词典相似,目前常用的通用本体有Wordnet 和 Hownet。领域本体是指描述具体领域知识的概念和属性,描述某个领域的知识。目前,领域本体比较匮乏,相对成熟的是生物学本体、医学本体。领域本体库的构建需要领域专家的参与,并且要与共同达到的学术一致。

  1.4 本体的构建方法。根据目前认可度较高的Gruber提出的本体构建规则,学界提出了多种构建方法。认可度最高的是斯坦福大学医院开发的七步法:确定专业领域范围;考查现有本体寻找复用机会;列出该领域的术语;对该领域事务进行分类;定义类的属性、类与类之间的关系;定义属性的分娩;创建属于该类的实例。

  1.5 本体描述语言。本体描述语言随着网络发展而发展,并且具备多种功能使得本体在不同系统之间互操作。本体描述语言需要提供机器可读的形式,能够实现自然语言与机器表达形式的转化。目前,常用的本体描述语言主要有RDF、OWL,本文介绍RDF模型,以下是对这种语言的具体介绍。

  RDF包括3种实体:资源和实体、属性、声明。资源和实体是对资源进行标识;属性是对资源的各个方面进行定义,如特征等;声明是指对已经被命名的属性且被赋值的特定资源,即RDF声明。

  RDF模型的描述方式通常有以下几种方式:简化三元组方式,用尖括号将三元组的主语、位于、宾语隔离;RDF模型图方式,是以图形的方式将三元组描述的声明表现出来,资源、字符串节点、属性分别用椭圆、方框、连线来表示;RDF/XML方式,这种表达方式是按照RDF/XML语法和编码规则描述RDF模型,并将这种模型存放在计算机中。

  2 基于本体的信息检索系统

  随着互联网技术的发展,传统的信息检索已无法满足人们的需求。传统的信息检索主要采用结构化信息表示方式,要求有较高的查准率。但是,传统的信息检索存在一定局限性,如文档的添加较为复杂,增加了工作人员的工作量;结构化信息表达形式限制了用户的输入,只能输入与数据库一致的信息才能得到检索结果,而非结构化信息表达形式在一定程度上放宽了用户的输入限制,采用关键字匹配的方式,但是不能满足语义检索的要求,因此,不能提高查全率,出现漏检的情况。

  基于本体的信息检索系统能够主动理解用户要求,通过逻辑推理后进行检索。同时,本体理念的信息检索系统可以将计算机的表达方式与人类的表达方式统一,实现计算机与人类的同语言交流。

  基于本体的信息检索包含以下几个模块:文档预处理操作、构建索引、扩展合并用户查询词、构造检索模型、排序算法。文档预处理操作是指利用分词技术将大段文字分割成词语,经过词法分析后,删除没有语义的词汇,减少文档的冗余。利用倒排文档可将索引与原文档相连,检索词作为索引大大提高了检索效率。用户输入检索词后,系统需要通过一定的预处理、或者是通过查询处理算法,扩展合并查询词,推理用户的检索需求,从而提高查准率。构造检索模型能够迅速匹配用户查询的相关信息,提高检索效率。排序算法是指利用某种算法将与检索词相关性最强的检索结果放在前面,让用户先看到想要的结果。

  为了提高检索的查全率、查准率,基于本体的信息检索系统还可以提供多类型的检索模式,本体检索作为基础检索,关系检索和属性检索为用户提供高级检索,为用户提供知识间的联系,如果用户需要个性化服务,还可以提供回溯检索。本体理念的信息检索系统可以将关键词进行概念匹配,用户在不具备专业检索技能的情况下,也能迅速并准确的检索到所需要的的信息,给用户带来全新的极富人性化的体验。

  3 结束语

  基于本体的信息检索需要构建本体领域知识库,以本体的相关理论为基础。由于理论的复杂性和技术难关等原因,目前国内外还没有对本体信息检索系统进行大规模应用。本体知识库虽然在技术上较为先进,但是就目前的发展水平来看,本体信息检索只能停留在研究的初期,还有许多技术难关要攻克。如何构建本体知识库、充分利用本体表示形式带来的优势仍有待进一步研究,使用本体直接进行匹配,将文档进行本体化,实现文档的自动标引,提供以自然语言为主的概念检索和关系检索模式,提供更人性化的服务。总之,基于本体的信息检索,能够同时提高查全率和查准率,提高检索效率。本文的观点仍有不成熟之处,希望诸位同仁对本体信息检索系统模式进行进一步分析和研究,随着本体技术的不断发展,基于本体的信息检索也会不断发展和完善。

  参考文献:

  [1]易运晖,朱畅华,裴昌幸.偏振旋转的量子私有信息检索方案[J].电子与信息学报,2012(10).

  [2]李宏佳,刘国华,李金才.相互协作中的私有信息检索方案[J].计算机工程与设计,2010(13).

  [3]邢晓辉,牟义军.一种基于本体的信息检索方案[J].山东科学,2011(02).

  作者简介:方鹏(1974-),男,教师,研究方向:数据库技术应用。

  作者单位:长江职业学院,武汉 430074

  基金项目:本文为长江职业学院校级教科研项目“基于数据库技术的信息检索应用研究”(项目编号:2011X011)阶段性成果。


相关内容

  • 基于语义网的信息检索研究
  • RESEARCH ONLIBRARYSCIENCE 79 基于语义网的信息检索研究 肖芙蓉 [摘 要]文章对传统信息检索中存在的问题进行了分析,简单介绍了语义网,并针对基于语义网的信息检索进行了简单的论述,最后对语义网信息检索进行了展望.[关键词]语义网 信息检索 :T,aerivesAbstrac ...

  • 基于本体的CAPP知识库管理系统研究
  • 2007年第26卷7月第7期机械科学与技术 Mechanical Science and Technol ogy for Aer os pace Engineering July Vol . 262007 No . 7 基于本体的C APP 知识库管理系统研究 马 安, 王宁生, 刘建刚 (南京航空 ...

  • _农业网络信息_2011年总目次
  • <农业网络信息>2011年总目次 高职院校图书馆文献传递服务探析 苏建英蔡立(83) 郭 凌(85) 第1期 高校图书馆和谐阅览环境的构建 基于读者信息行为规律的信息服务管理策略构建高校硕博士论文数据库的意义与作用 综述与专论 基于三网融合的农村科技远程服务平台构建 任玉珍(88) 贺兰 ...

  • 几种典型网格搜索引擎系统的结构体系分析
  • 图书情报工作 第52卷第5期 2008年5月 ・工作研究・ 几种典型网格搜索引擎系统的结构体系分析 高劲松 张俊丽 华中师范大学信息管理系 武汉 430079 [摘要]基于网格的搜索引擎系统能够提高信息的查全率和更新率,提供个性化信息搜索,具有一定的智能性.分析比较GRACE,SE4SEE,Grid ...

  • 面向外文科技文献信息的知识组织体系建设思路
  • 作者:孙坦刘峥 图书与情报 2013年06期 1 导论 信息过载是网络时代面临的一个重要问题.近些年来西方发达国家.组织.企业(如欧盟.美国医学图书馆.联合国粮农组织等)纷纷开展信息组织开放应用的研发项目,来推动信息建设基础平台的创新性实践和技术改善,如美国医学图书馆建设的统一医学语言系统(Unif ...

  • 目前信息检索系统的优缺点
  • 目前信息检索系统的优缺点 摘要 目前,Internet 上信息检索的方式主要分为二种:即非WEB 信息检索方式和WEB 信息检索方式.这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB 信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索 ...

  • 法院信息化建设初探_马叶敏
  • 法律文献信息与研究 2012年第 68 期 法院信息 化建设初探 马叶敏(北大法律信息网编辑 法学硕士) 郭 叶(北大法律信息网 主编) [摘 要]进入二十一世纪后,人类已经站在了信息时代的门槛上,时代开始对传统的司法审 判方式提出挑战.司法信息化是信息化社会的必然要求和产物,信息技术将在司法系统中 ...

  • 某市档案目录中心数据整合方法初探
  • 某市档案目录中心数据整合方法初探 经过十多年的努力,某市档案信息化工作取得了一定成效,档案管理系统被广泛应用:档案数字化系统日趋成熟:档案数据库建设不断丰富:文件档案管理系统应用取得初步成果.从发展状况看,我市档案信息化建设开始进入集成阶段,"十二五"期间,将建立以某市14个市. ...

  • 基于本体的语义标注工具比较与分析
  • 第Z 4卷Z 004年6月 计算机应用Co m p t er A pp 1i cati onS Vo1 Z4 J ne ,Z 004 文章编号21001-9081(Z 004) 06Z -03Z 8-03 基于本体的语义标注工具比较与分析 邹亮1 廖述梅Z C 湖北武汉430074; 江西南昌330 ...