信息检索论文

大数据时代信息检索的相关性

一.摘要

随着大数据时代的来临,信息资源也变的纷繁复杂、海量。如何便捷、准确地检索到所需信息已成为全球用户关注的焦点问题。今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放、动态、更新快、分布广泛、管理松散的网络内容。本文阐述并分析信息检索相关性的内涵和影响相关性的因素,最后提出一些大数据时代环境下提高检索系统相关性的一些路径。

二.概述

2.1检索相关性的定义及其内涵

信息检索的相关性一般是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。我们可以从用户进行检索的途径和检索语言的分类这两个方面来分析这种匹配关系。建立信息检索系统的目的就是使用户能够查找出所需要的信息,即检出相关信息,屏蔽无关信息。当代信息环境下,信息检索的核心是在系统文档集中为用户检出最相关的子文档集,并如用户所期望的那样把检出文档按相关度降序排列。实际上相关性问题涉及到检索系统的诸多环节。如何提高检索相关度是信息检索实践和理论研究要解决的核心问题。 检索系统组成框架如下图所示:

2.2影响检索相关性的因素

由上图分析,检索系统的工作过程包含存储和检索两个互逆的过程。信息检索是建立在信息存储有序化的基础之上的。系统根据自身特性、用户特征在一定专业范围内对信息源进行连续性的采集、分析、选择,建立充足而适用的系统待检数据库,还要进行标引、描叙、加工等产生的一条条记录作为一篇篇文章的代表。检索是存储的逆过程,但同样用户需要先对自己的信息需求进行概念分析形成内容标识,然后把这些标识以及各标识之间的关系形式化地表示为查询表达式,检索时用户输入查询表达式,系统的检索代理软件自动将其与数据库倒排文档中的标识进行匹配运算。将命中的结果以一定的顺序显示给用户,用户对初步检索结果集进行相关性判断,如果满意则获取信息,如果不满意,可以修改或重构查询表达式,继续检索,直到得到满意结果为止。从而可见检索的相关性判断有两个环节:(1).系统的相关性判断,即系统自动对相关度进行计算输出检索结果。(2).用户的相关性判断,即用户在选择系统,拟定查询表达式及在系统命中的结果集中进行取舍时所做出的主观判断。

根据检索系统工作原理,影响检索的相关性有以下几个因素:

2.2.1用户检索经验

丰富的信息检索经验的用户可以更好地,更有效地使用的IR系统检索出自己想要的信息。相反,缺乏经验的用户可能需要花大量的时间对检索结果的查看,分析等,才能找到理想的检索式子。实际上一般用户识别到的信息需求与实际真正的信息需求有差距,而用户表达出的信息需求即构造的查询表达式又与上述二者有区别。

2.2.2检索系统的数据库

文献数据库的规模,收录范围等是能否检索到以及检索到多少相关文献的前提。当数据库收录多,信息量广,那么检索的相关结果相应来说也会多,相关的结果可能性也会增大。相反,检索的结果就会少,检索出想要的结果概率就低。

2.2.3几种基本的检索模型

(1).布尔模型

布尔模型是一个以集合论和布尔代数为理论基础的简单检索模型,它用关键 字组合来表示文档信息,关键词的权值为布尔变量,如果某关键字在文档中出现,则取值为1,否则为0。其中查询和文档均表示为布尔表达式,文档表示成所有词

的“与”关系。

优点:(1).简单:形式清楚、检索速度快、实现方法简单易于用户理解现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索。(2).自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好。

缺点:(1).只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序

(2). 无法精确表达文档信息的内容,因此检索性能较差,一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少。

(2).向量空间模型

向量空间模型对所有文档以及用户的查询提问式都用一组关键字(标引词)集合所形成的向量来表示。其中查询和文档都转化成标引项及其权重组成的向量表示,都可以看成空间中的点。

优点:把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相对相关程度。因而可以 很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现。

缺点:模型假设向量空间的各维之间相互正交(即各关键字之间相互独立),没有考虑关键字间的相关性,事实上不是完全独立的。

(3).概率检索模型

通过概率的方法将查询和文档联系起来,考虑关键字之间、关键字和文档之间的内在联系,以贝叶斯公式为理论基础,利用它们的概率相依性进行信息检索。利用关键词在文档中的权重,描述出各关键词在相关和不相关文档中的分布,

这样每个查询的文档就按照符合提问的关键词权重之和进行排序。包括Logistic Regression模型和最经典的二元独立概率模型等。

优缺点:概率模型中文档可以按照他们相关概率递减的顺序来计算秩,其缺点在于开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率,因为所有的权重都是二元的,而索引术语都是相互独立的。

三.提高检索相关性的路径

3.1提高检索相关性的用户分析

用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息 需求的时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从用户的角度看,提高信息检索相关性需提高用户的一下几种能力。

3.1.1提高用户对检索系统选择的能力

用户在信息检索之前也必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,是应用型的还是研究型的等。

3.1.2提高用户对检索结果判断的能力

针对同样的一个检索结果,相关领域知识水平高,判断力强的人在进行检索时表现得更有目的性,检索出来的信息质量更高,更有效率。而随着知识水平的降低,对所要检索的内容也会变得模糊,需要对检索的结果进行详细分析,多次判断,可能需要花很多时间才能检索出自己想要的。例如:想从网上找些时间序列数据,直接百度搜索“时间序列数据”出来的一般是关于时间序列数据分析的。这时如果换个搜索表达式为“时间序列数据网站”,可以找到一些论坛提供了一些数据网站地址,那么现在就可以直接进入时间序列数据网站找数据就可以了。

3.1.3提高用户对信息需求的认知能力

用户对信息的真实(客观)需求包括隐性需求和显性需求。对于显性需求,用户必然会进行满足需求的工作;而对于隐性需求,因为用户并没有认识到它的存在,所以不会设法去满足它,这是与用户的知识水平和用户对信息需求的认识能力相关的。所以用户需要提高自己的相关知识,提高信息需求的认识能力。

3.1.4提高用户对信息需求的表达能力

信息需求的表达语句与相关的文献中的语句会相呼应,用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的写作风格、用词特点,这样检索的结果相关性会得到提高。

3.2提高检索相关性的系统分析

系统是相关性评价的一个重要点,检索系统性能的好坏直接影响到反馈结果质量的高低。从系统的角度看,提高信息检索的相关性可以从以下几个方面来考虑。

3.2.1系统设计的用户考虑

在设计信息检索系统的过程中应充分考虑用户的需求,以用户为中心,从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。实践证明,一个好的信息检索系统不仅应该能够及时有效地响 应用户的信息提问,具有高查全率和查准率,另一个值得重视的是,系统能否引导用户的信息行为,帮助用户进行正确的决策选择,激发用户新的信息需求。因而在信息检索系统设计的过程中应建立以用户为中心的思想,减少其不确定性因素。

3.2.2系统相关算法的优化

目前检索的几种常用模型、算法,各自都存在不足, 如基于布尔模型的相关度测度算法无法实现反馈结果的排序;向量空间模型的相关度测度算法尽管能够方便实现结果排序,但在相关度的计算过程中没有考虑关键词之间的相互联系等。尤其是在大数据,海量信息时代,一种效率高的算法十分有重要,有必要对相关算法进行优化,改进,使得检索容易,智能化且结果与查询语句吻合。

3.2.3系统基于内容的理解

智能检索系统需建立大规模的知识库,在此基础上对自然语言文本表述的文 档主题和查询语句进行语法,语义分析,从而可在内容层面上真正理解并准确描述文档所论述的主题和理解用户的查询意图,即达到对文档内容和用户提问内容的理解,而非标引词与提问词的字面匹配。

四.参考文献

Al-Maskari, A. and M. Sanderson (2011). "The effect of user characteristics on search effectiveness in 47(5): 719-729.

Lv, Y. and C. Zhai (2009). "Adaptive Relevance Feedback in Information Retrieval."

"." "." "."

大数据时代信息检索的相关性

一.摘要

随着大数据时代的来临,信息资源也变的纷繁复杂、海量。如何便捷、准确地检索到所需信息已成为全球用户关注的焦点问题。今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放、动态、更新快、分布广泛、管理松散的网络内容。本文阐述并分析信息检索相关性的内涵和影响相关性的因素,最后提出一些大数据时代环境下提高检索系统相关性的一些路径。

二.概述

2.1检索相关性的定义及其内涵

信息检索的相关性一般是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。我们可以从用户进行检索的途径和检索语言的分类这两个方面来分析这种匹配关系。建立信息检索系统的目的就是使用户能够查找出所需要的信息,即检出相关信息,屏蔽无关信息。当代信息环境下,信息检索的核心是在系统文档集中为用户检出最相关的子文档集,并如用户所期望的那样把检出文档按相关度降序排列。实际上相关性问题涉及到检索系统的诸多环节。如何提高检索相关度是信息检索实践和理论研究要解决的核心问题。 检索系统组成框架如下图所示:

2.2影响检索相关性的因素

由上图分析,检索系统的工作过程包含存储和检索两个互逆的过程。信息检索是建立在信息存储有序化的基础之上的。系统根据自身特性、用户特征在一定专业范围内对信息源进行连续性的采集、分析、选择,建立充足而适用的系统待检数据库,还要进行标引、描叙、加工等产生的一条条记录作为一篇篇文章的代表。检索是存储的逆过程,但同样用户需要先对自己的信息需求进行概念分析形成内容标识,然后把这些标识以及各标识之间的关系形式化地表示为查询表达式,检索时用户输入查询表达式,系统的检索代理软件自动将其与数据库倒排文档中的标识进行匹配运算。将命中的结果以一定的顺序显示给用户,用户对初步检索结果集进行相关性判断,如果满意则获取信息,如果不满意,可以修改或重构查询表达式,继续检索,直到得到满意结果为止。从而可见检索的相关性判断有两个环节:(1).系统的相关性判断,即系统自动对相关度进行计算输出检索结果。(2).用户的相关性判断,即用户在选择系统,拟定查询表达式及在系统命中的结果集中进行取舍时所做出的主观判断。

根据检索系统工作原理,影响检索的相关性有以下几个因素:

2.2.1用户检索经验

丰富的信息检索经验的用户可以更好地,更有效地使用的IR系统检索出自己想要的信息。相反,缺乏经验的用户可能需要花大量的时间对检索结果的查看,分析等,才能找到理想的检索式子。实际上一般用户识别到的信息需求与实际真正的信息需求有差距,而用户表达出的信息需求即构造的查询表达式又与上述二者有区别。

2.2.2检索系统的数据库

文献数据库的规模,收录范围等是能否检索到以及检索到多少相关文献的前提。当数据库收录多,信息量广,那么检索的相关结果相应来说也会多,相关的结果可能性也会增大。相反,检索的结果就会少,检索出想要的结果概率就低。

2.2.3几种基本的检索模型

(1).布尔模型

布尔模型是一个以集合论和布尔代数为理论基础的简单检索模型,它用关键 字组合来表示文档信息,关键词的权值为布尔变量,如果某关键字在文档中出现,则取值为1,否则为0。其中查询和文档均表示为布尔表达式,文档表示成所有词

的“与”关系。

优点:(1).简单:形式清楚、检索速度快、实现方法简单易于用户理解现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索。(2).自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好。

缺点:(1).只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序

(2). 无法精确表达文档信息的内容,因此检索性能较差,一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少。

(2).向量空间模型

向量空间模型对所有文档以及用户的查询提问式都用一组关键字(标引词)集合所形成的向量来表示。其中查询和文档都转化成标引项及其权重组成的向量表示,都可以看成空间中的点。

优点:把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相对相关程度。因而可以 很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现。

缺点:模型假设向量空间的各维之间相互正交(即各关键字之间相互独立),没有考虑关键字间的相关性,事实上不是完全独立的。

(3).概率检索模型

通过概率的方法将查询和文档联系起来,考虑关键字之间、关键字和文档之间的内在联系,以贝叶斯公式为理论基础,利用它们的概率相依性进行信息检索。利用关键词在文档中的权重,描述出各关键词在相关和不相关文档中的分布,

这样每个查询的文档就按照符合提问的关键词权重之和进行排序。包括Logistic Regression模型和最经典的二元独立概率模型等。

优缺点:概率模型中文档可以按照他们相关概率递减的顺序来计算秩,其缺点在于开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率,因为所有的权重都是二元的,而索引术语都是相互独立的。

三.提高检索相关性的路径

3.1提高检索相关性的用户分析

用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息 需求的时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从用户的角度看,提高信息检索相关性需提高用户的一下几种能力。

3.1.1提高用户对检索系统选择的能力

用户在信息检索之前也必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,是应用型的还是研究型的等。

3.1.2提高用户对检索结果判断的能力

针对同样的一个检索结果,相关领域知识水平高,判断力强的人在进行检索时表现得更有目的性,检索出来的信息质量更高,更有效率。而随着知识水平的降低,对所要检索的内容也会变得模糊,需要对检索的结果进行详细分析,多次判断,可能需要花很多时间才能检索出自己想要的。例如:想从网上找些时间序列数据,直接百度搜索“时间序列数据”出来的一般是关于时间序列数据分析的。这时如果换个搜索表达式为“时间序列数据网站”,可以找到一些论坛提供了一些数据网站地址,那么现在就可以直接进入时间序列数据网站找数据就可以了。

3.1.3提高用户对信息需求的认知能力

用户对信息的真实(客观)需求包括隐性需求和显性需求。对于显性需求,用户必然会进行满足需求的工作;而对于隐性需求,因为用户并没有认识到它的存在,所以不会设法去满足它,这是与用户的知识水平和用户对信息需求的认识能力相关的。所以用户需要提高自己的相关知识,提高信息需求的认识能力。

3.1.4提高用户对信息需求的表达能力

信息需求的表达语句与相关的文献中的语句会相呼应,用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的写作风格、用词特点,这样检索的结果相关性会得到提高。

3.2提高检索相关性的系统分析

系统是相关性评价的一个重要点,检索系统性能的好坏直接影响到反馈结果质量的高低。从系统的角度看,提高信息检索的相关性可以从以下几个方面来考虑。

3.2.1系统设计的用户考虑

在设计信息检索系统的过程中应充分考虑用户的需求,以用户为中心,从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。实践证明,一个好的信息检索系统不仅应该能够及时有效地响 应用户的信息提问,具有高查全率和查准率,另一个值得重视的是,系统能否引导用户的信息行为,帮助用户进行正确的决策选择,激发用户新的信息需求。因而在信息检索系统设计的过程中应建立以用户为中心的思想,减少其不确定性因素。

3.2.2系统相关算法的优化

目前检索的几种常用模型、算法,各自都存在不足, 如基于布尔模型的相关度测度算法无法实现反馈结果的排序;向量空间模型的相关度测度算法尽管能够方便实现结果排序,但在相关度的计算过程中没有考虑关键词之间的相互联系等。尤其是在大数据,海量信息时代,一种效率高的算法十分有重要,有必要对相关算法进行优化,改进,使得检索容易,智能化且结果与查询语句吻合。

3.2.3系统基于内容的理解

智能检索系统需建立大规模的知识库,在此基础上对自然语言文本表述的文 档主题和查询语句进行语法,语义分析,从而可在内容层面上真正理解并准确描述文档所论述的主题和理解用户的查询意图,即达到对文档内容和用户提问内容的理解,而非标引词与提问词的字面匹配。

四.参考文献

Al-Maskari, A. and M. Sanderson (2011). "The effect of user characteristics on search effectiveness in 47(5): 719-729.

Lv, Y. and C. Zhai (2009). "Adaptive Relevance Feedback in Information Retrieval."

"." "." "."


相关内容

  • 信息检索与应用信息检索与应用信息检索与应用论文论文论文论文 姓名
  • 信息检索与应用信息检索与应用信息检索与应用论文论文论文论文 姓名:姓名:姓名:姓名:XXXXXXXXXXXX 学号学号学号学号::::XXXXXXXXXXXXXXXXXXXX 班级班级班级班级::::XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 摘要摘要摘要摘要::::文章主要研 ...

  • 如何利用信息资源进行论文写作和课题查询
  • 如何利用信息资源进行论文写作和课题查询 一. 论文写作.课题查询与信息检索 1. 论文写作 (1)论文类型:科研论文.学位论文 (2)论文格式:前置部分:标题.作者署名.作者单位.摘要.关键词.中图分类号.文献标识码 主体部分:引言.正文.结论.致谢.参考文献 (3) 论文写作步骤:选题.资料准备. ...

  • 文献检索与科技论文写作大纲-2013材料
  • <文献检索与利用>课程教学大纲 课程编号: 070521 课程性质:专业限选 总学时: 24 学时 其中讲授:16 实践:8 总学分:1.0 开课学期:6 适用专业: 材料科学与工程 先修课程:材料科学基础.材料力学性能.材料物理性能.高分子化学与物理 后续课程:毕业论文 大纲执笔人:王 ...

  • 文献检索复习总结
  • 第一章 文献检索基础知识 第一节 文献.信息概述 信息是事物运动的状态与方式的反映,是物质的一种属性 . (二)信息的特征 1.价值性 (1)能满足人们精神生活的需要 .(2)信息可以促进物质. 能量的生产和使用 . (3) 信息只有被人们利用,才有价值. 2.可传递性 信息在传递的过 程中发挥它的 ...

  • [信息检索]报告
  • 一.操作应用题 1.想了解目前已经发表的所学专业方面的书籍可以从哪些信息源入手,请举例说明,并以其中一种信息源为例说明其检索过程. (1)检索选题: 了解目前已经发表的电子科学与技术方面的书籍 (2)制定检索策略: 要了解目前已经发表的电子科学与技术方面书籍的相关信息,应该通过图书检索来实现.进行图 ...

  • 信息检索题库
  • 第一章 计算机网络基础知识 一.填空 1. 是计算机网络技术发展中 的一个里程碑,它的研究成果对促进网络技术发展具有重要作用,并为Internet的形成奠定了基础. 网 C ) 电 话 线 D)光纤 7.网络协议的三个要素:语法.语义和 ( B ) A.工作原理 B.时序 需要三要素:可独立自主工作 ...

  • 文献检索试题(含答案)
  • 一.填空题: 1.文献按其加工深度不同可以划分为 2.信息素质的内涵包括息能力 . 3.构成文献的三要素是 .和. 4.CNKI 的中文全称是:. 5.标准文献的主体是. 6.期刊论文的文献出处包括.和. 7.在计算机信息检索中,用于组配检索词和限定检索范围的布尔逻辑运算符包括: and . or ...

  • 网络资源与信息检索
  • <网络资源与信息检索>复习大纲 第一部分:检索基础 1. P12. P1 3. P1资料:是固化在一定实物或载体上的知识 4. 构成文献有四个要素:知识信息内容.信息符号.载体材料.记录方式 5. 信息.知识.资料.文献间的从属关系:信息>知识>资料>文献 6. P2信 ...

  • 文献检索与科技论文写作-
  • 第一章 绪论 文献检索 信息化社会 信息成为了比物质和能源更为重要的资源: 以开发和利用信息资源为目的的信息经济活动迅 速扩大,逐渐取代工业生产活动而成为国民经济 活动的主要内容. 为什么要学习信息检索? 信息爆炸 信息爆炸 现代科技造成了科技成果的高速发展.大规模. 高集成度,交叉学科.横断学科层 ...

  • 信息检索知识点
  • 信息检索考点整理 1. 信息检索的概念 广义的信息检索是指将信息按一定的方式组织.存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程: 而狭义的信息检索仅指有序化信息的检索查找. 2. 信息检索的原理 就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比 ...