大数据时代信息检索的相关性
一.摘要
随着大数据时代的来临,信息资源也变的纷繁复杂、海量。如何便捷、准确地检索到所需信息已成为全球用户关注的焦点问题。今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放、动态、更新快、分布广泛、管理松散的网络内容。本文阐述并分析信息检索相关性的内涵和影响相关性的因素,最后提出一些大数据时代环境下提高检索系统相关性的一些路径。
二.概述
2.1检索相关性的定义及其内涵
信息检索的相关性一般是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。我们可以从用户进行检索的途径和检索语言的分类这两个方面来分析这种匹配关系。建立信息检索系统的目的就是使用户能够查找出所需要的信息,即检出相关信息,屏蔽无关信息。当代信息环境下,信息检索的核心是在系统文档集中为用户检出最相关的子文档集,并如用户所期望的那样把检出文档按相关度降序排列。实际上相关性问题涉及到检索系统的诸多环节。如何提高检索相关度是信息检索实践和理论研究要解决的核心问题。 检索系统组成框架如下图所示:
2.2影响检索相关性的因素
由上图分析,检索系统的工作过程包含存储和检索两个互逆的过程。信息检索是建立在信息存储有序化的基础之上的。系统根据自身特性、用户特征在一定专业范围内对信息源进行连续性的采集、分析、选择,建立充足而适用的系统待检数据库,还要进行标引、描叙、加工等产生的一条条记录作为一篇篇文章的代表。检索是存储的逆过程,但同样用户需要先对自己的信息需求进行概念分析形成内容标识,然后把这些标识以及各标识之间的关系形式化地表示为查询表达式,检索时用户输入查询表达式,系统的检索代理软件自动将其与数据库倒排文档中的标识进行匹配运算。将命中的结果以一定的顺序显示给用户,用户对初步检索结果集进行相关性判断,如果满意则获取信息,如果不满意,可以修改或重构查询表达式,继续检索,直到得到满意结果为止。从而可见检索的相关性判断有两个环节:(1).系统的相关性判断,即系统自动对相关度进行计算输出检索结果。(2).用户的相关性判断,即用户在选择系统,拟定查询表达式及在系统命中的结果集中进行取舍时所做出的主观判断。
根据检索系统工作原理,影响检索的相关性有以下几个因素:
2.2.1用户检索经验
丰富的信息检索经验的用户可以更好地,更有效地使用的IR系统检索出自己想要的信息。相反,缺乏经验的用户可能需要花大量的时间对检索结果的查看,分析等,才能找到理想的检索式子。实际上一般用户识别到的信息需求与实际真正的信息需求有差距,而用户表达出的信息需求即构造的查询表达式又与上述二者有区别。
2.2.2检索系统的数据库
文献数据库的规模,收录范围等是能否检索到以及检索到多少相关文献的前提。当数据库收录多,信息量广,那么检索的相关结果相应来说也会多,相关的结果可能性也会增大。相反,检索的结果就会少,检索出想要的结果概率就低。
2.2.3几种基本的检索模型
(1).布尔模型
布尔模型是一个以集合论和布尔代数为理论基础的简单检索模型,它用关键 字组合来表示文档信息,关键词的权值为布尔变量,如果某关键字在文档中出现,则取值为1,否则为0。其中查询和文档均表示为布尔表达式,文档表示成所有词
的“与”关系。
优点:(1).简单:形式清楚、检索速度快、实现方法简单易于用户理解现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索。(2).自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好。
缺点:(1).只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序
(2). 无法精确表达文档信息的内容,因此检索性能较差,一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少。
(2).向量空间模型
向量空间模型对所有文档以及用户的查询提问式都用一组关键字(标引词)集合所形成的向量来表示。其中查询和文档都转化成标引项及其权重组成的向量表示,都可以看成空间中的点。
优点:把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相对相关程度。因而可以 很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现。
缺点:模型假设向量空间的各维之间相互正交(即各关键字之间相互独立),没有考虑关键字间的相关性,事实上不是完全独立的。
(3).概率检索模型
通过概率的方法将查询和文档联系起来,考虑关键字之间、关键字和文档之间的内在联系,以贝叶斯公式为理论基础,利用它们的概率相依性进行信息检索。利用关键词在文档中的权重,描述出各关键词在相关和不相关文档中的分布,
这样每个查询的文档就按照符合提问的关键词权重之和进行排序。包括Logistic Regression模型和最经典的二元独立概率模型等。
优缺点:概率模型中文档可以按照他们相关概率递减的顺序来计算秩,其缺点在于开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率,因为所有的权重都是二元的,而索引术语都是相互独立的。
三.提高检索相关性的路径
3.1提高检索相关性的用户分析
用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息 需求的时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从用户的角度看,提高信息检索相关性需提高用户的一下几种能力。
3.1.1提高用户对检索系统选择的能力
用户在信息检索之前也必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,是应用型的还是研究型的等。
3.1.2提高用户对检索结果判断的能力
针对同样的一个检索结果,相关领域知识水平高,判断力强的人在进行检索时表现得更有目的性,检索出来的信息质量更高,更有效率。而随着知识水平的降低,对所要检索的内容也会变得模糊,需要对检索的结果进行详细分析,多次判断,可能需要花很多时间才能检索出自己想要的。例如:想从网上找些时间序列数据,直接百度搜索“时间序列数据”出来的一般是关于时间序列数据分析的。这时如果换个搜索表达式为“时间序列数据网站”,可以找到一些论坛提供了一些数据网站地址,那么现在就可以直接进入时间序列数据网站找数据就可以了。
3.1.3提高用户对信息需求的认知能力
用户对信息的真实(客观)需求包括隐性需求和显性需求。对于显性需求,用户必然会进行满足需求的工作;而对于隐性需求,因为用户并没有认识到它的存在,所以不会设法去满足它,这是与用户的知识水平和用户对信息需求的认识能力相关的。所以用户需要提高自己的相关知识,提高信息需求的认识能力。
3.1.4提高用户对信息需求的表达能力
信息需求的表达语句与相关的文献中的语句会相呼应,用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的写作风格、用词特点,这样检索的结果相关性会得到提高。
3.2提高检索相关性的系统分析
系统是相关性评价的一个重要点,检索系统性能的好坏直接影响到反馈结果质量的高低。从系统的角度看,提高信息检索的相关性可以从以下几个方面来考虑。
3.2.1系统设计的用户考虑
在设计信息检索系统的过程中应充分考虑用户的需求,以用户为中心,从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。实践证明,一个好的信息检索系统不仅应该能够及时有效地响 应用户的信息提问,具有高查全率和查准率,另一个值得重视的是,系统能否引导用户的信息行为,帮助用户进行正确的决策选择,激发用户新的信息需求。因而在信息检索系统设计的过程中应建立以用户为中心的思想,减少其不确定性因素。
3.2.2系统相关算法的优化
目前检索的几种常用模型、算法,各自都存在不足, 如基于布尔模型的相关度测度算法无法实现反馈结果的排序;向量空间模型的相关度测度算法尽管能够方便实现结果排序,但在相关度的计算过程中没有考虑关键词之间的相互联系等。尤其是在大数据,海量信息时代,一种效率高的算法十分有重要,有必要对相关算法进行优化,改进,使得检索容易,智能化且结果与查询语句吻合。
3.2.3系统基于内容的理解
智能检索系统需建立大规模的知识库,在此基础上对自然语言文本表述的文 档主题和查询语句进行语法,语义分析,从而可在内容层面上真正理解并准确描述文档所论述的主题和理解用户的查询意图,即达到对文档内容和用户提问内容的理解,而非标引词与提问词的字面匹配。
四.参考文献
Al-Maskari, A. and M. Sanderson (2011). "The effect of user characteristics on search effectiveness in 47(5): 719-729.
Lv, Y. and C. Zhai (2009). "Adaptive Relevance Feedback in Information Retrieval."
"." "." "."
大数据时代信息检索的相关性
一.摘要
随着大数据时代的来临,信息资源也变的纷繁复杂、海量。如何便捷、准确地检索到所需信息已成为全球用户关注的焦点问题。今天,信息检索已经发展到网络化阶段,信息检索的对象已从过去相对"封闭"由独立数据库集中管理的信息内容扩展到如今开放、动态、更新快、分布广泛、管理松散的网络内容。本文阐述并分析信息检索相关性的内涵和影响相关性的因素,最后提出一些大数据时代环境下提高检索系统相关性的一些路径。
二.概述
2.1检索相关性的定义及其内涵
信息检索的相关性一般是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。我们可以从用户进行检索的途径和检索语言的分类这两个方面来分析这种匹配关系。建立信息检索系统的目的就是使用户能够查找出所需要的信息,即检出相关信息,屏蔽无关信息。当代信息环境下,信息检索的核心是在系统文档集中为用户检出最相关的子文档集,并如用户所期望的那样把检出文档按相关度降序排列。实际上相关性问题涉及到检索系统的诸多环节。如何提高检索相关度是信息检索实践和理论研究要解决的核心问题。 检索系统组成框架如下图所示:
2.2影响检索相关性的因素
由上图分析,检索系统的工作过程包含存储和检索两个互逆的过程。信息检索是建立在信息存储有序化的基础之上的。系统根据自身特性、用户特征在一定专业范围内对信息源进行连续性的采集、分析、选择,建立充足而适用的系统待检数据库,还要进行标引、描叙、加工等产生的一条条记录作为一篇篇文章的代表。检索是存储的逆过程,但同样用户需要先对自己的信息需求进行概念分析形成内容标识,然后把这些标识以及各标识之间的关系形式化地表示为查询表达式,检索时用户输入查询表达式,系统的检索代理软件自动将其与数据库倒排文档中的标识进行匹配运算。将命中的结果以一定的顺序显示给用户,用户对初步检索结果集进行相关性判断,如果满意则获取信息,如果不满意,可以修改或重构查询表达式,继续检索,直到得到满意结果为止。从而可见检索的相关性判断有两个环节:(1).系统的相关性判断,即系统自动对相关度进行计算输出检索结果。(2).用户的相关性判断,即用户在选择系统,拟定查询表达式及在系统命中的结果集中进行取舍时所做出的主观判断。
根据检索系统工作原理,影响检索的相关性有以下几个因素:
2.2.1用户检索经验
丰富的信息检索经验的用户可以更好地,更有效地使用的IR系统检索出自己想要的信息。相反,缺乏经验的用户可能需要花大量的时间对检索结果的查看,分析等,才能找到理想的检索式子。实际上一般用户识别到的信息需求与实际真正的信息需求有差距,而用户表达出的信息需求即构造的查询表达式又与上述二者有区别。
2.2.2检索系统的数据库
文献数据库的规模,收录范围等是能否检索到以及检索到多少相关文献的前提。当数据库收录多,信息量广,那么检索的相关结果相应来说也会多,相关的结果可能性也会增大。相反,检索的结果就会少,检索出想要的结果概率就低。
2.2.3几种基本的检索模型
(1).布尔模型
布尔模型是一个以集合论和布尔代数为理论基础的简单检索模型,它用关键 字组合来表示文档信息,关键词的权值为布尔变量,如果某关键字在文档中出现,则取值为1,否则为0。其中查询和文档均表示为布尔表达式,文档表示成所有词
的“与”关系。
优点:(1).简单:形式清楚、检索速度快、实现方法简单易于用户理解现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索。(2).自我保护功能:暗暗地降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好。
缺点:(1).只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序
(2). 无法精确表达文档信息的内容,因此检索性能较差,一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少。
(2).向量空间模型
向量空间模型对所有文档以及用户的查询提问式都用一组关键字(标引词)集合所形成的向量来表示。其中查询和文档都转化成标引项及其权重组成的向量表示,都可以看成空间中的点。
优点:把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相对相关程度。因而可以 很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现。
缺点:模型假设向量空间的各维之间相互正交(即各关键字之间相互独立),没有考虑关键字间的相关性,事实上不是完全独立的。
(3).概率检索模型
通过概率的方法将查询和文档联系起来,考虑关键字之间、关键字和文档之间的内在联系,以贝叶斯公式为理论基础,利用它们的概率相依性进行信息检索。利用关键词在文档中的权重,描述出各关键词在相关和不相关文档中的分布,
这样每个查询的文档就按照符合提问的关键词权重之和进行排序。包括Logistic Regression模型和最经典的二元独立概率模型等。
优缺点:概率模型中文档可以按照他们相关概率递减的顺序来计算秩,其缺点在于开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率,因为所有的权重都是二元的,而索引术语都是相互独立的。
三.提高检索相关性的路径
3.1提高检索相关性的用户分析
用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息 需求的时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从用户的角度看,提高信息检索相关性需提高用户的一下几种能力。
3.1.1提高用户对检索系统选择的能力
用户在信息检索之前也必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,是应用型的还是研究型的等。
3.1.2提高用户对检索结果判断的能力
针对同样的一个检索结果,相关领域知识水平高,判断力强的人在进行检索时表现得更有目的性,检索出来的信息质量更高,更有效率。而随着知识水平的降低,对所要检索的内容也会变得模糊,需要对检索的结果进行详细分析,多次判断,可能需要花很多时间才能检索出自己想要的。例如:想从网上找些时间序列数据,直接百度搜索“时间序列数据”出来的一般是关于时间序列数据分析的。这时如果换个搜索表达式为“时间序列数据网站”,可以找到一些论坛提供了一些数据网站地址,那么现在就可以直接进入时间序列数据网站找数据就可以了。
3.1.3提高用户对信息需求的认知能力
用户对信息的真实(客观)需求包括隐性需求和显性需求。对于显性需求,用户必然会进行满足需求的工作;而对于隐性需求,因为用户并没有认识到它的存在,所以不会设法去满足它,这是与用户的知识水平和用户对信息需求的认识能力相关的。所以用户需要提高自己的相关知识,提高信息需求的认识能力。
3.1.4提高用户对信息需求的表达能力
信息需求的表达语句与相关的文献中的语句会相呼应,用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的写作风格、用词特点,这样检索的结果相关性会得到提高。
3.2提高检索相关性的系统分析
系统是相关性评价的一个重要点,检索系统性能的好坏直接影响到反馈结果质量的高低。从系统的角度看,提高信息检索的相关性可以从以下几个方面来考虑。
3.2.1系统设计的用户考虑
在设计信息检索系统的过程中应充分考虑用户的需求,以用户为中心,从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。实践证明,一个好的信息检索系统不仅应该能够及时有效地响 应用户的信息提问,具有高查全率和查准率,另一个值得重视的是,系统能否引导用户的信息行为,帮助用户进行正确的决策选择,激发用户新的信息需求。因而在信息检索系统设计的过程中应建立以用户为中心的思想,减少其不确定性因素。
3.2.2系统相关算法的优化
目前检索的几种常用模型、算法,各自都存在不足, 如基于布尔模型的相关度测度算法无法实现反馈结果的排序;向量空间模型的相关度测度算法尽管能够方便实现结果排序,但在相关度的计算过程中没有考虑关键词之间的相互联系等。尤其是在大数据,海量信息时代,一种效率高的算法十分有重要,有必要对相关算法进行优化,改进,使得检索容易,智能化且结果与查询语句吻合。
3.2.3系统基于内容的理解
智能检索系统需建立大规模的知识库,在此基础上对自然语言文本表述的文 档主题和查询语句进行语法,语义分析,从而可在内容层面上真正理解并准确描述文档所论述的主题和理解用户的查询意图,即达到对文档内容和用户提问内容的理解,而非标引词与提问词的字面匹配。
四.参考文献
Al-Maskari, A. and M. Sanderson (2011). "The effect of user characteristics on search effectiveness in 47(5): 719-729.
Lv, Y. and C. Zhai (2009). "Adaptive Relevance Feedback in Information Retrieval."
"." "." "."