知识发现与知识挖掘技术及其应用

科技情报开发与经济

（２００７）２６－０１８４－０２文章编号：１００５－６０３３

ＳＣＩ－ＴＥＣＨＩＮＦＯＲＭＡＴＩＯＮＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ２００７年第１７卷第２６期

收稿日期：２００７－０６－１８

知识发现与知识挖掘技术及其应用

戴

泳

（华中师范大学图书馆，湖北武汉，４３００７９）

摘

要：介绍了知识发现与挖掘技术的相关概念及常用的技术方法，对知识发现与挖

掘过程进行了描述，阐述了知识发现的几种具体的应用形式。关键词：知识发现；知识挖掘；数据库中图分类号：ＴＰ３１１．１３２

文献标识码：Ａ

数据库技术的发展以及数据应用的普及使得数据库中存储的数据量急剧增加。在这些数据中蕴含着许多重要的信息和知识，可供人们利用。可是目前数据库系统所能做到的只是对数据库中的数据进行存取、查询和简单统计等操作，而不能获得数据属性的内在关系和隐含的信息。若采用传统的数据分析手段，如统计等也不能对这些数据进行有效的分析、处理。因此，我们希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和发展趋势的预测。由此，知识发现与挖掘技术便应运而生，得以迅速发展，在许多领域得到应用，显示出其强大的生命力。数据库中的知识发现（ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａ－ｂａｓｅ，ＫＤＤ）或称为数据挖掘（ＤａｔａＭｉｎｉｎｇ，ＤＭ），日益成为当前数据库与人工智能领域的一个热点研究课题［

］１

２知识发现与知识挖掘常用的技术方法

知识挖掘把数据库技术、人工智能、统计学等领域结合起来。目前对

知识发现与挖掘技术有多种不同分类方法：根据被挖掘对象分，有关系数查询驱动型和交据库、多媒体数据库；根据挖掘的方法分，有数据驱动型、互型；根据知识类型分，有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。常用的知识挖掘的技术方法有如下几种：

２．１聚类分析

聚类分析主要是按一定的规则和事物的特征对其进行聚类或分类，

。

使每一类具有较高的相似度。它是数据挖掘中一个很活跃的研究领域，用来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类，以便作进一步分析。

１

１．１

知识发现与挖掘技术的特点及过程

知识发现与挖掘技术的特点知识发现［

］２

２．２神经网络方法

（即神经元）连成网络来神经网络方法即利用大量的简单计算单元

是近几年兴起的一个极有发展前途和有广泛应用前景使系统具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。所连接的系统是通过极为完善的连接构成的自适应非线性动态系统。神经网络具有直观性、并行性和抗噪声性等优点。

的新领域，是从大量数据中提取出可信的、新颖的、潜在有用的、能被人理解的模式的高级处理过程。知识发现研究的主要目标是采用有效的算法，从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识，并用简明的方式显示出来，发现了的知识可被用于信息管理、查询优化、决策支持等，还可以用于数据自身的维护。

知识挖掘

［３］

２．３决策树方法

决策树方法即根据不同的特征，以树型结构表示分类或决策集合，产

生规则和发展规律。决策树起源于概念学习系统ＣＬＳ（ＣｏｎｃｅｐｔＬｅａｒｎｉｎｇ

又称数据挖掘（ＤａｔａＭｉｎｉｎｇ），是从大量的、不完全的、有Ｓｙｓｔｅｍ）［５］，该分类算法是数据挖掘研究中的一个以样本数据集为基础的归纳学习方法，它着眼于从一组无次序、无规则的样本数据集中推理出决策树表示形式的分类规则，提取描述样本数据集的数据模型。

噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘技术不是简单面向特定数据库分析、综合和的检索、查询、调用，而是要对这些数据进行全方位的统计、推理，以指导实际问题的求解，企图发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。

２．４粗集技术

粗集技术作为不确定性计算的一个重要分支，它的特点是不需要预

先给定某些特征或属性的数量描述，而是直接从给定问题出发，根据数据不可分辨关系和不可分辨类别，对数据进行分析推理，确定问题的近似域，从而找出该问题中的内在规律。

１．２知识发现与挖掘过程

知识发现与知识挖掘这两个术语的内涵大致相同。知识发现是从数

据库中发现知识的全部过程，而数据挖掘则是此全部过程的一个特定的关键步骤

［４］

２．５遗传算法

遗传算法（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ，ＧＡ）是基于进化论优胜劣汰、适者生

。因此，通常不加区分地使用ＫＤＤ与数据挖掘。

一个完整的知识发现过程包含以下步骤：

（１）了解领域的具体背景及相关情况，弄清用户要求。

（２）从数据库中提取相关数据，并从中选择出适用于数据挖掘应用的数据。

（３）对数据进行预处理和精选，提高数据的可靠性和完备性，并确定下一步挖掘操作的类型。

（４）找到数据的特征，将其转换成针对挖掘算法建立的分析模型，包括对数据进行归一化处理等。

（５）采用合适的算法从经预处理的数据中自动发现和挖掘知识。（６）把知识放入实际中去看这些知识的作用，并对其进行评价。（７）根据实际需要，用产生式规则、决策表以及可视化的知识描述方法等对知识进行表示，从而使用户能更透彻地理解、分析和应用知识。

存的物种遗传思想的搜索算法。遗传算法模拟生物进化过程将个体的集合──群体作为处理对象，利用遗传操作──交换和突变，使群体不断，直到成为满足要求的最优解。即首先对求解的问题进行编码，产“进化”

生初始群体，然后计算个体的适应度，再进行染色体的复制、交换、突变等操作，优胜劣汰，适者生存，直到最佳方案出现为止。

２．６关联规则挖掘

关联规则是数据挖掘研究的主要模式之一，侧重于确定数据中不同

领域之间的关系，找出满足给定条件下的多个域间的依赖关系。它的挖掘对象一般是大型数据库，同时还有基于图形学、科学可视化和信息可视化的可视化方法。它包括基于图标技术、基于图表技术、面向像素的技术、层次技术、几何投射技术以及混合技术。

ＫＤＤ的基本流程为：数据库→数据的准备→数据挖掘→知识评价→知识表示→知识库。

３

３．１

知识发现与挖掘技术的应用

知识发现在信息发现中的应用

１８４

戴泳知识发现与知识挖掘技术及其应用本刊Ｅ－ｍａｉｌ：ｂｊｂ＠ｍａｉｌ．ｓｘｉｎｆｏ．ｎｅｔ科技论坛

知识发现与挖掘技术在信息发现中主要应用在Ｗｅｂ数据开采、智能搜索引擎、多语种信息发现和跨学科协同检索等方面。

由于我Ｗｅｂ数据开采主要是基于知识发现在数字图书馆中的应用。们所获取的信息目前大部分来自Ｉｎｔｅｒｎｅｔ，而Ｉｎｔｅｒｎｅｔ上数据源是无序的、非结构的，且数据源具有很强的动态性和多样性，这些特点导致了信息获取的困难。Ｗｅｂ数据开采就是针对此问题而发展起来的一项新技术，其实现过程包括Ｗｅｂ信息的采集、文档的识别与分类等［

目前，Ｗｅｂ数据开采有以下两种实现形式：

（１）网络智能体。智能体是一个具有控制问题求解机理的计算单元，它能模拟人类行为和关系、具有一定智能，并能够自主运行和提供相应服务

［７］

］６

规则来自动提取使用知识，从而确定个性化服务内容。通过个性化服务，能有效增强用户互动性。

信息智能“推”，顾名思义是在用户拉取信息的搜索过程中，根据用户输入的关键词，通过机器学习，识别和预测用户的兴趣或偏好，从而及时地、有针对性地向用户主动推送相关知识和最新信息。这样，既减轻了网络的负担又扩大了用户范围。推送的形式有频道式推送、邮件式推送、网页式推送、专用式推送。

让具有不同类型信息和技术的不同团体实现信息共享，即首先建立一个统一信息提供平台，并在共享的基础上，通过聚类和计算产生新的信息。互动式服务针对的是某一特定范围，如特定的信息技术领域。实现互动的方法一般有：标准化（如数据模型、协议）、中间件（如网关）、分布式结构（如ＣＯＲＢＡ，ＤＣＯＭ）、远程过程请求、可移动计算（如Ｊａｖａ小程序）。

语义交互的一般过程是自动抽取文档的概念，加以标引；用户在系统的辅助下选用合适的词语表达自己的信息需求，然后在两者之间执行概念匹配（匹配在语义上相同、相近、包含的词语）。语义检索能解决跨学科信息检索中的“词汇问题”。

。

。随着网络技术的发展，可以让智能体在网络中移动并完成某些

功能。用于网络的智能体可在不需要用户监督的情况下昼夜不停地运在行。经过整夜的信息搜索以后，它会在早上给用户提供一个服务清单。它的神经网络技术导引下，用户可以迅速进入那些需要长时间交互才能到达的页面。

（２）智能信息捕捉器

［７］

。智能信息捕捉器以自动捕捉、采集和整理领

域所需信息为目的，它依赖于成熟的ＣａｃｈｉｎｇＷｅｂ技术，并立足于某一领域的信息需求。对应于机器人管理中的捕捉需求事务处理，在信息捕捉的整个过程中承担自动捕捉需求的分类设置、信息源确定和信息搜索路径选择。用户的一个捕捉信息需求按照领域知识规则进行自动分类后，建立相应数据库。根据定义的捕捉需求查找信息源登记表，然后根据信息源提供的信息粒度进行筛选。信息源确定后，再根据模型算法，计算确定搜索路径，并自动优选最佳搜索路径，按逻辑式自动组织搜索关键字，可同时对应多个特定领域范围内的信息捕捉。

智能搜索引擎的目的是为帮助用户更好地寻找信息资源，在

４结语

知识发现与知识挖掘是一个比较热门的研究领域。虽然知识挖掘已

经受到许多关注并取得了广泛应用，但它是一项崭新的技术，目前仍处动态性、噪于起步阶段，还有很多研究难题有待解决，如数据的巨量性、

声性、缺值和稀疏性，发现模式的可理解性、兴趣或价值性，应用系统的集成，用户的交互操作，知识的更新管理，复杂数据库的处理，挖掘性能问题和挖掘的数据类型的多样性等问题。这些问题是知识发现与挖掘技融合和发展了人工智能、神术未来发展将会遇到的挑战，但由于其继承、

经网络、数据分析、决策支持、数理统计、环境交互、知识工程等多项先进学科的特点，所以对它的研究将会一直持续下去，其应用前景也会更加美好。

参考文献

［１］［２］［３］［４］［５］［６］［７］

白石磊，毛雪岷，王儒敬，等．基于数据库和知识库的知识发现研究吕安民，林宗坚，李成名．数据挖掘和知识发现的技术方法［Ｊ］．测绘翟立波．数据挖掘与知识发现［Ｊ］．潍坊学院学报，２００５，５（２）：２９－３０．罗敏霞．数据挖掘与知识发现的技术方法及应用：上［Ｊ］．运城学院学唐华松，姚耀文．数据挖掘中决策树算法的探讨［Ｊ］．计算机应用研杨武，陈庄．数据库知识发现技术及应用［Ｊ］．重庆工学院学报：自然韩惠琴，刘柏嵩．数字图书馆中的知识发现［Ｊ］．情报学报，２００１，２０

（责任编辑：邱娅男）

综述［Ｊ］．广西师范大学学报：自然科学版，２００３（１）：１３６－１３８．（４）：３６－３８．科学，２０００，２５

Ｉｎｔｅｒｎｅｔ环境下，其信息检索机制是基于关键词匹配的原则。由于目前搜索引擎的知识量少、不划分知识领域、不对用户建立任何描述以及使用交互式的关键词匹配，因此搜索效率不高。为了解决这一问题，开发出了智能搜索引擎。智能搜索引擎可以预期用户的需求，并可有效地抑制关键词的多义性。

地理和语言的障碍一直是获取信息的最大障碍，多语种信息发现（ＭｕｌｔｉｌｉｎｇｕａｌＩｎｆｏｒｍａｔｉｏｎＤｉｓｃｏｖｅｒｙ）就能有效解决这一问题，从而真正实现全球知识共享。目前对它的研究主要集中在多语种电子文档获取，集成机器翻译和多语种信息检索系统等方面。

鉴于大多数研究问题需要检索多个数据库并跨多个学科领域，用户需要去熟悉每一种检索界面和操作方法的不足，通过Ｗｅｂ环境将这些数据库集成起来，采用知识发现中的方法，给用户提供统一检索界面，并跨学科查询返回统一结果。

报，２００５，２３（２）：１．（８）：１８－２２．究，２０００

科学版，２００１，１５（２）：３２－３４．（３）：１６－１９．

３．２知识发现在信息提供中的应用

知识发现与挖掘技术在信息提供中主要应用在知识共享、个性化服

务、信息智能“推”、互动式服务和语义交互等方面。

（Ｃｕｓｔｏｍｉｚｅ）信息。虚拟团体是一个分布知识共享即对一组人员定制

式的组织，它的成员是一组在网络上协同工作的同行，他们依靠网络的支持相互合作、共享知识，可以快速有效地解决问题。知识共享是虚拟团体的核心技术，是维护和处理知识的基础。

服务个性化是图书馆发展的重要趋势。我们可通过对用户访问信息对象分类和主题之间进行模式和使用信息的挖掘，在数字对象和用户、

匹配，采用几种不同Ｗｅｂ挖掘技术，如基于业务群集、使用群集和联合

───────────────

第一作者简介：戴

泳，女，１９６６年生，１９８７年毕业于华中师范大

学，馆员，华中师范大学图书馆，湖北省武汉市，４３００７９．

ＴｅｃｈｎｏｌｏｇｉｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｆＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＫｎｏｗｌｅｄｇｅＭｉｎｉｎｇ

ＤＡＩＹｏｎｇ

ＡＢＳＴＲＡＣＴ：Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｓｏｍｅｒｅｌａｔｉｖｅｃｏｎｃｅｐｔｓｏｆｔｈｅｔｅｃｈｎｏｌｏｇｉｅｓｆｏｒｔｈｅｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｋｎｏｗｌｅｄｇｅｍｉｎｉｎｇａｎｄｓｏｍｅｃｏｍｍｏｎｔｅｃｈｎｏｌｏｇｉｅｓ，ｄｅｓｃｒｉｂｅｓｔｈｅｐｒｏｃｅｓｓｏｆｔｈｅｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｋｎｏｗｌｅｄｇｅｍｉｎｉｎｇ，ａｎｄｅｘｐｏｕｎｄｓｓｅｖｅｒａｌｋｉｎｄｓｏｆｔｈｅａｐｐｌｉｃａｔｉｏｎｆｏｒｍｓｏｆｔｈｅｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙ．ＫＥＹＷＯＲＤＳ：ｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙ；ｋｎｏｗｌｅｄｇｅｍｉｎｉｎｇ；ｄａｔａｂａｓｅ

１８５

科技情报开发与经济

（２００７）２６－０１８４－０２文章编号：１００５－６０３３

ＳＣＩ－ＴＥＣＨＩＮＦＯＲＭＡＴＩＯＮＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ２００７年第１７卷第２６期

收稿日期：２００７－０６－１８

知识发现与知识挖掘技术及其应用

戴

泳

（华中师范大学图书馆，湖北武汉，４３００７９）

摘

要：介绍了知识发现与挖掘技术的相关概念及常用的技术方法，对知识发现与挖

掘过程进行了描述，阐述了知识发现的几种具体的应用形式。关键词：知识发现；知识挖掘；数据库中图分类号：ＴＰ３１１．１３２

文献标识码：Ａ

］１

２知识发现与知识挖掘常用的技术方法

知识挖掘把数据库技术、人工智能、统计学等领域结合起来。目前对

２．１聚类分析

聚类分析主要是按一定的规则和事物的特征对其进行聚类或分类，

。

１

１．１

知识发现与挖掘技术的特点及过程

知识发现与挖掘技术的特点知识发现［

］２

２．２神经网络方法

（即神经元）连成网络来神经网络方法即利用大量的简单计算单元

知识挖掘

［３］

２．３决策树方法

决策树方法即根据不同的特征，以树型结构表示分类或决策集合，产

生规则和发展规律。决策树起源于概念学习系统ＣＬＳ（ＣｏｎｃｅｐｔＬｅａｒｎｉｎｇ

２．４粗集技术

粗集技术作为不确定性计算的一个重要分支，它的特点是不需要预

１．２知识发现与挖掘过程

知识发现与知识挖掘这两个术语的内涵大致相同。知识发现是从数

据库中发现知识的全部过程，而数据挖掘则是此全部过程的一个特定的关键步骤

［４］

２．５遗传算法

遗传算法（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ，ＧＡ）是基于进化论优胜劣汰、适者生

。因此，通常不加区分地使用ＫＤＤ与数据挖掘。

一个完整的知识发现过程包含以下步骤：

（１）了解领域的具体背景及相关情况，弄清用户要求。

（２）从数据库中提取相关数据，并从中选择出适用于数据挖掘应用的数据。

（３）对数据进行预处理和精选，提高数据的可靠性和完备性，并确定下一步挖掘操作的类型。

（４）找到数据的特征，将其转换成针对挖掘算法建立的分析模型，包括对数据进行归一化处理等。

生初始群体，然后计算个体的适应度，再进行染色体的复制、交换、突变等操作，优胜劣汰，适者生存，直到最佳方案出现为止。

２．６关联规则挖掘

关联规则是数据挖掘研究的主要模式之一，侧重于确定数据中不同

ＫＤＤ的基本流程为：数据库→数据的准备→数据挖掘→知识评价→知识表示→知识库。

３

３．１

知识发现与挖掘技术的应用

知识发现在信息发现中的应用

１８４

戴泳知识发现与知识挖掘技术及其应用本刊Ｅ－ｍａｉｌ：ｂｊｂ＠ｍａｉｌ．ｓｘｉｎｆｏ．ｎｅｔ科技论坛

知识发现与挖掘技术在信息发现中主要应用在Ｗｅｂ数据开采、智能搜索引擎、多语种信息发现和跨学科协同检索等方面。

目前，Ｗｅｂ数据开采有以下两种实现形式：

（１）网络智能体。智能体是一个具有控制问题求解机理的计算单元，它能模拟人类行为和关系、具有一定智能，并能够自主运行和提供相应服务

［７］

］６

规则来自动提取使用知识，从而确定个性化服务内容。通过个性化服务，能有效增强用户互动性。

。

。随着网络技术的发展，可以让智能体在网络中移动并完成某些

（２）智能信息捕捉器

［７］

。智能信息捕捉器以自动捕捉、采集和整理领

智能搜索引擎的目的是为帮助用户更好地寻找信息资源，在

４结语

知识发现与知识挖掘是一个比较热门的研究领域。虽然知识挖掘已

经受到许多关注并取得了广泛应用，但它是一项崭新的技术，目前仍处动态性、噪于起步阶段，还有很多研究难题有待解决，如数据的巨量性、

参考文献

［１］［２］［３］［４］［５］［６］［７］

（责任编辑：邱娅男）

综述［Ｊ］．广西师范大学学报：自然科学版，２００３（１）：１３６－１３８．（４）：３６－３８．科学，２０００，２５

报，２００５，２３（２）：１．（８）：１８－２２．究，２０００

科学版，２００１，１５（２）：３２－３４．（３）：１６－１９．

３．２知识发现在信息提供中的应用

知识发现与挖掘技术在信息提供中主要应用在知识共享、个性化服

务、信息智能“推”、互动式服务和语义交互等方面。

（Ｃｕｓｔｏｍｉｚｅ）信息。虚拟团体是一个分布知识共享即对一组人员定制

服务个性化是图书馆发展的重要趋势。我们可通过对用户访问信息对象分类和主题之间进行模式和使用信息的挖掘，在数字对象和用户、

匹配，采用几种不同Ｗｅｂ挖掘技术，如基于业务群集、使用群集和联合

───────────────

第一作者简介：戴

泳，女，１９６６年生，１９８７年毕业于华中师范大

学，馆员，华中师范大学图书馆，湖北省武汉市，４３００７９．

ＴｅｃｈｎｏｌｏｇｉｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｆＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＫｎｏｗｌｅｄｇｅＭｉｎｉｎｇ

ＤＡＩＹｏｎｇ

１８５

知识发现与知识挖掘技术及其应用

相关内容

热门内容

标签