目前信息检索系统的优缺点

目前信息检索系统的优缺点

摘要

目前,Internet 上信息检索的方式主要分为二种:即非WEB 信息检索方式和WEB 信息检索方式。这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB 信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索工具的代称,因而本文在论述网络信息检索工具时以搜索引擎为主要代表。然而目前网络信息检索又面临一系列的挑战,如网络信息量的迅猛增加,以至人工己经无法对它们进行有效的分类、索引和利用; 简单的关键词搜索; 返回的信息量过大已经让用户无法承担; 网络信息组织的无序性; 网络信息日新月异的更变; 信息媒体的多样化等等,这些都给Internet 信息的获取和利用造成了极大的阻碍[1]。

引言

信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。

信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。例如Cornell 大学的SMART 系统和Massachusetts 大学的INQUERY 系统等。Web 的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web 信息检索系统应运而生,例如Yahoo !,Alta-vista 等[2]。

目前信息检索系统的优缺点

1. 评价标准

目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要[1]。综合国内外关于搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几种。

(1) 实验方法

(2) 调查方法

(3) 数据分析法

(4) 观察法

(5) 综述和评论

综合评价指标是指对搜索引擎各个方面进行考量时依据的参考标准,如

Carpineto 等就提出了3个一级指标,分别为:检索界面、检索性能和检索输入。其中,检索界面包括搜索引擎存在、主页检索框、结果页面检索框以及高级检索界面等4个二级指标; 检索性能有7个二级指标:大小写敏感度、词干检索、禁用词、部分匹配、短语检索、布尔逻辑检索、全站检索等; 检索输出包括基于相关度的排序、标记检索式、结果建议、无死链4个二级指标[3]。

2. 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

2.1目录式搜索引擎:

以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

这类搜索引擎的代表是:Yahoo 、LookSmart 、Open Directory、Go Guide等。

2.2机器人搜索引擎:

由一个称为蜘蛛(Spider )的机器人程序以某种策略自动地在互联网中搜集和发现信息,然后索引器为搜集到的信息建立索引,再由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大,更新及时,毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

这类搜索引擎的代表是:AltaVista ,Northern Light,Excite ,Infoseek ,Inktomi ,FAST/FastSearch,Lycos ,Google ,“天网”,悠游,OpenFind 等。

2.3搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全,缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。

这类搜索引擎的代表是WebCrawler ,InfoMarket 等[4]。

3. 新一代的智能Web 信息检索系统:

3.1移动agent 技术

一般来说,所有用移动agent 实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动agent 呢?这是因为移动agnet 为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动agent 已成为继CORBA 、DCOM 后新一代分布处理技术。移动agent 具有以下5个优点:

(1)节约网络带宽和减少网络延时;

(2)移动agent 能够使传统的C/S计算模式下的计算任务更加动态均匀地分配;

(3)在分布式环境下,移动agent 系统能实现较好的并行性即并行任务求解;

(4)基于移动agent 的分布式系统具有较好的可理解性;

(5) 异步移动计算能力。

3.2本体技术

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义。

本体的研究与应用主要包括3方面:(1)理论研究,主要研究概念及其分类和本体上的代数运算;(2)在信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统互操作问题,(3)本体作为一种能在知识层提供知识共享和重用的工具在语义Web 中的应用[4]。

3. 个性化搜索引擎技术

当前,个性化搜索引擎技术主要表现在如下两个方面:

(1)搜索引擎提供的搜索结果满足用户的个性化需求。由个性化搜索服务获得的搜索结果更加准确,使不同用户能够得到各自需要的搜索结果,同时避免出现不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索词,跟踪用户的搜索行为和环境,结合用户的需求变化和网络信息的动态变化实时更新等资料进行信息检索,从而为用户提供更为个性化的、准确的、真正需求的搜索结果。

(2)个性化搜索引擎所提供的服务和功能具有优势和特色,与通用搜索引擎不同。由于各大搜索引擎为了获得竞争优势,不断推出新的特色服务和功能,因此出现了从核心搜索衍生出的各种其他服务,如桌面搜索、地图搜索、生活搜索、RSS 订阅等服务。

目前不少搜索引擎都加入了个性化服务和功能,他们提出了各种技术和方法以实现个性化搜索服务。他们主要采用了基于规则的和基于信息、过滤的推荐技术。其中,基于信息过滤的技术又包括协作过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用户的动态和静态属性生成规则,规则决定了在不同情况下如何提供不同的务,一个规则本质上是一个if-then 语句。该方法的优点是简单、直接,缺点是规则不能动态更新,质量难以保证,随着规则数的增加,系统将更难管理。典型的系统有IBM 的Webshere ,BroadVision 和ILOG 等。

基于内容过滤的技术利用资源和用户兴趣的相似度进行信息过滤。该方法的优点是简单、高效,缺点是不能发现用户新的兴趣,并且难以区分资源内容的质量和风格。典型的系统有 Personal web Watcher,syskill&webert,CiteSeer ,和Web personalizer等。

基于协作的过滤技术是利用用户之间的相似度来进行信息过滤。该方法的优点是能发现用户新的兴趣点,但缺点是当系统用户和资源逐渐增多时,系统性能会逐渐降低; 另外,在系统使用的初期,难以发现相似的用户。典型的系统有Web watcher ,Let ’s Browse,GrouLens ,Firefly 和Siteseer 等。

还有其它的一些提供个性化服务的信息搜索系统同时采用了基于内容和协作过滤两种技术。如:webSIFT,FAB ,Anatagonomy 和Dynamicprofiler 等,结合这两种过滤技术可以克服协作过滤的稀疏性难题,使用用户已浏览的内容来预测用户对其它资源的评价,进而增加资源评价的密度,再利用这些评价进行协作过滤,从而改善协作过滤的效率[5]。

参考文献

[1] 网络信息检索及其发展趋势研究

[2] 基于结构化向量空间模型的中文信息检索系统研究与实现

[3] 搜索引擎检索功能的性能评价研究

[4] 基于本体的Web 信息检索系统及其关键技术研究

[5] 基于内容的个性化Web 信息检索系统的设计与实现

目前信息检索系统的优缺点

摘要

目前,Internet 上信息检索的方式主要分为二种:即非WEB 信息检索方式和WEB 信息检索方式。这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB 信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索工具的代称,因而本文在论述网络信息检索工具时以搜索引擎为主要代表。然而目前网络信息检索又面临一系列的挑战,如网络信息量的迅猛增加,以至人工己经无法对它们进行有效的分类、索引和利用; 简单的关键词搜索; 返回的信息量过大已经让用户无法承担; 网络信息组织的无序性; 网络信息日新月异的更变; 信息媒体的多样化等等,这些都给Internet 信息的获取和利用造成了极大的阻碍[1]。

引言

信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。

信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。例如Cornell 大学的SMART 系统和Massachusetts 大学的INQUERY 系统等。Web 的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web 信息检索系统应运而生,例如Yahoo !,Alta-vista 等[2]。

目前信息检索系统的优缺点

1. 评价标准

目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要[1]。综合国内外关于搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几种。

(1) 实验方法

(2) 调查方法

(3) 数据分析法

(4) 观察法

(5) 综述和评论

综合评价指标是指对搜索引擎各个方面进行考量时依据的参考标准,如

Carpineto 等就提出了3个一级指标,分别为:检索界面、检索性能和检索输入。其中,检索界面包括搜索引擎存在、主页检索框、结果页面检索框以及高级检索界面等4个二级指标; 检索性能有7个二级指标:大小写敏感度、词干检索、禁用词、部分匹配、短语检索、布尔逻辑检索、全站检索等; 检索输出包括基于相关度的排序、标记检索式、结果建议、无死链4个二级指标[3]。

2. 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

2.1目录式搜索引擎:

以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

这类搜索引擎的代表是:Yahoo 、LookSmart 、Open Directory、Go Guide等。

2.2机器人搜索引擎:

由一个称为蜘蛛(Spider )的机器人程序以某种策略自动地在互联网中搜集和发现信息,然后索引器为搜集到的信息建立索引,再由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大,更新及时,毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

这类搜索引擎的代表是:AltaVista ,Northern Light,Excite ,Infoseek ,Inktomi ,FAST/FastSearch,Lycos ,Google ,“天网”,悠游,OpenFind 等。

2.3搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全,缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。

这类搜索引擎的代表是WebCrawler ,InfoMarket 等[4]。

3. 新一代的智能Web 信息检索系统:

3.1移动agent 技术

一般来说,所有用移动agent 实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动agent 呢?这是因为移动agnet 为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动agent 已成为继CORBA 、DCOM 后新一代分布处理技术。移动agent 具有以下5个优点:

(1)节约网络带宽和减少网络延时;

(2)移动agent 能够使传统的C/S计算模式下的计算任务更加动态均匀地分配;

(3)在分布式环境下,移动agent 系统能实现较好的并行性即并行任务求解;

(4)基于移动agent 的分布式系统具有较好的可理解性;

(5) 异步移动计算能力。

3.2本体技术

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义。

本体的研究与应用主要包括3方面:(1)理论研究,主要研究概念及其分类和本体上的代数运算;(2)在信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统互操作问题,(3)本体作为一种能在知识层提供知识共享和重用的工具在语义Web 中的应用[4]。

3. 个性化搜索引擎技术

当前,个性化搜索引擎技术主要表现在如下两个方面:

(1)搜索引擎提供的搜索结果满足用户的个性化需求。由个性化搜索服务获得的搜索结果更加准确,使不同用户能够得到各自需要的搜索结果,同时避免出现不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索词,跟踪用户的搜索行为和环境,结合用户的需求变化和网络信息的动态变化实时更新等资料进行信息检索,从而为用户提供更为个性化的、准确的、真正需求的搜索结果。

(2)个性化搜索引擎所提供的服务和功能具有优势和特色,与通用搜索引擎不同。由于各大搜索引擎为了获得竞争优势,不断推出新的特色服务和功能,因此出现了从核心搜索衍生出的各种其他服务,如桌面搜索、地图搜索、生活搜索、RSS 订阅等服务。

目前不少搜索引擎都加入了个性化服务和功能,他们提出了各种技术和方法以实现个性化搜索服务。他们主要采用了基于规则的和基于信息、过滤的推荐技术。其中,基于信息过滤的技术又包括协作过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用户的动态和静态属性生成规则,规则决定了在不同情况下如何提供不同的务,一个规则本质上是一个if-then 语句。该方法的优点是简单、直接,缺点是规则不能动态更新,质量难以保证,随着规则数的增加,系统将更难管理。典型的系统有IBM 的Webshere ,BroadVision 和ILOG 等。

基于内容过滤的技术利用资源和用户兴趣的相似度进行信息过滤。该方法的优点是简单、高效,缺点是不能发现用户新的兴趣,并且难以区分资源内容的质量和风格。典型的系统有 Personal web Watcher,syskill&webert,CiteSeer ,和Web personalizer等。

基于协作的过滤技术是利用用户之间的相似度来进行信息过滤。该方法的优点是能发现用户新的兴趣点,但缺点是当系统用户和资源逐渐增多时,系统性能会逐渐降低; 另外,在系统使用的初期,难以发现相似的用户。典型的系统有Web watcher ,Let ’s Browse,GrouLens ,Firefly 和Siteseer 等。

还有其它的一些提供个性化服务的信息搜索系统同时采用了基于内容和协作过滤两种技术。如:webSIFT,FAB ,Anatagonomy 和Dynamicprofiler 等,结合这两种过滤技术可以克服协作过滤的稀疏性难题,使用用户已浏览的内容来预测用户对其它资源的评价,进而增加资源评价的密度,再利用这些评价进行协作过滤,从而改善协作过滤的效率[5]。

参考文献

[1] 网络信息检索及其发展趋势研究

[2] 基于结构化向量空间模型的中文信息检索系统研究与实现

[3] 搜索引擎检索功能的性能评价研究

[4] 基于本体的Web 信息检索系统及其关键技术研究

[5] 基于内容的个性化Web 信息检索系统的设计与实现


相关内容

  • 检索工具分类
  • 1.检索工具的分类 (1)按照信息搜集方法分类 按照信息搜集方法的不同,搜索引擎系统可以分为三大类: 1)目录式搜索引擎(Directory Search Engine) 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中.信息大多面向网站,提供 ...

  • 文献检索的基本方法和途径--内容
  • 所谓检索工具是按一定学科一走主题进行收集.整理 ,并给以文献检索标识,及时报道的二次文献,具有存储.检索和报道信息的功能. 检索工具应具备下述三个条件: (1)详细记录所著录文献线索,读者可根据这些线索查找所需文献. (2)根据检索标识,如分类号.主题词.文献号代码等寻找所需文献. (3)提供检索的 ...

  • 信息检索论文
  • 大数据时代信息检索的相关性 一.摘要 随着大数据时代的来临,信息资源也变的纷繁复杂.海量.如何便捷.准确地检索到所需信息已成为全球用户关注的焦点问题.今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放.动态.更新快. ...

  • 第二次课检索策略全
  • -检索策略 华东理工大学图书馆 李楠 [email protected]文献检索 本章内容 1了解检索工具 2如何获取文献 检索工具类型仅有搜索引擎足够了吗? 常见的文献检索工具 搜索引擎 门户网站(垂直搜索) 专业检索工具(文献数据库) 文献检索工具的要素 检索工具中可以有一种或多种类型 ...

  • 信息组织与管理
  • 结课大作业 信息组织与管理 学 学 专 生生业姓学班名 号 级 汪厚连 08580101 08信息管理1班 管理工程系 2011年6月7日 目录 1 根据第三章,分别用800字.500字.200字和120字概括第三章内容 ......................... 1 1.1 800字概括 ...

  • 搜索技术在人工智能领域的实际应用
  • 搜索技术在人工智能领域的实际应用 摘要:介绍了搜索引擎的分类.工作原理,并具体分析了搜索引擎的体系结构,包括信息的搜集系统.索引系统以及查询接口.基于现在人工智能技术的迅速发展,对于在搜索引擎中运用的人工智能技术进行了研究,且着重分析了搜索引擎重要模块: Robot的智能化.智能代理技术以及查询接口 ...

  • 人工智能技术在搜索引擎中的应用
  • 人工智能技术在搜索引擎中的应用 [摘要] 文章介绍了搜索引擎的分类.工作原理以及体系结构.并且基于人工智能技术,对搜索引擎中运用的人工智能技术进行了研究和分析.描述了搜索引擎发展的智能化方向与方法,对智能型搜索引擎所面临的挑战以及未来发展进行了展望.文中对网络搜索引擎的搜索策略进行了分析,介绍了如何 ...

  • 科技文献检索与利用
  • 实验一: 中文图书.期刊信息资源的检索(报告) 专业:一.实验目的: 1.了解图书.期刊信息资源.相关数据库的概况及其馆藏的情况: 2.掌握盐城工学院图书馆馆藏中文图书资源的检索方法: 3.掌握相关图书.期刊数据库的检索技术与检索方法. 班级:姓名: 二.实验内容: 1.盐城工学院图书馆书刊查询系统 ...

  • 网络资源与信息检索(本科)讲课要点与考试重点
  • 网络资源与信息检索(本科)讲课要点 第一章 信息检索的基础知识 讲课要点: 一.信息 (一)基本概念(P1-2) 1.信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息. 2.文献:大凡人类的知识用文字.图形.符号.声频.视频的手段记录下来的东 ...