XML数据相似度研究

计算机工程第31卷第11期

Computer EngineeringVol.31 博士论文

1000

0025

中图分类号

XML数据相似度研究

张丙奇

赵章界

±±¾100080

XML数据的大量出现为信息检索智能信息处理提供了机遇和挑战智能处理的基础在对XML数据特征进行深入分析的基础上

实验结果表明该方法具有较好的效果XMLÓïÒåVSM模型

挖掘和深层次

A Recursive Method to Compute Similarity of XML Documents

ZHANG Bingqi, BAI Shuo, ZHAO Zhangjie

(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)

The quantity of XML data shared in the World Wide Web is increasing quickly and it offers both challenges and opportunities in

information retrieval, data mining and intelligent information processing. As the basis of information retrieval, mining, and processing, accurate determination of similarity between XML documents is important and valuable. This paper provides a novel recursive method to get the similarity between XML documents according to the semantic and structural features of XML. It also provides experiments to show the comparison of the method against traditional methods and the results prove the method is highly effective.

XML; Similarity; Semantic; Recursive algorithm; VSM model

扁平化

征是

元组的集合

相似度计算方法有以下几种

即表示对象的特可以看成是笛卡尔多

经典的

“树形结构”µÄÊý¾Ý

在数据交换和集成中得到大量应用

文档 1

结构嵌套

对象之间的相似

度通过描述对象的特征集合的交集表示

设X

Jaccard 相似系数为

|XY|

SimJdcc(X,Y)=

|XY|

论小说的写作

四川文艺出版社人民中路8号

Ôò¶ÔÏóÖ¼äµÄ

028-5555123

巴金四川成都

流沙河四川金堂县

Dice相似系数为

2*|XY|

SimDice(X,Y)=

|X|+|Y|

其它相关的方法有Inclusion 测度 1.2 VSM 模型

VSM模型是信息检索和文本挖掘中常用的方法文本的每个特征被认为互相独立

每个特征通过一定的方法赋予权重每个文本表示为特征空间上的一个向量

距离采用余

弦度量的相似度定义为

从上面的例子中可以看到

下面有

的下面又有节点

等

2.2 对XML数据挖掘的研究

XML数据的大量出现为数据挖掘和智能信息处理提供

文献[2]研究了新的方向和挑战

了使用结构化向量表示XML文档以用于分类的问题

每个特征又是一个向

文献[3]讨论了利用XML中的语量

作者简介处理

研究员

）

博士生赵章界

网络网络信息

¶ÔÏóµÈ½á¹¹»¯µÄÊý¾Ý

·Ç½á¹¹

2004-04-10 E-mail

义进行XML结构挖掘的问题

出版社出版社{出版社}}名字

通电话

过节点相似度矩阵和公共路径的数目计算XML结构相　　{姓名

似度

是针对XML的Tag或Schema的相似度比较

如同一路径下同名子节点数量的

区分与处理

对XML所描述内容也没有更深的讨论树形结构”结构嵌套

扁平

这种不同主要基于以下几个方面

(2) 特征所在的节点不同

(3) 同一路径下同名称子节点的数目对相似度计算的影响

3.2 XML相似计算中特征的分类

XML数据中

叶子节点的特征由它的值表示

根据子节点名称不同和同名子节点数目的不同

纵向特征

横向特征

图1表示了文档1对应的树形结构名称分别为出版社

每类节点的集合分别是一个纵向特征

作者图1 文档1对应的树形结构

3.3 XML结构化递归模型表示

通过对XML数据特征的分析

首先根节点又由它

的子节点表示非叶子节

点node定义为

node=(hAtrrNode1,hAtrrNode2,L,hAtrrNodeN

) (1)

其中hAtrrNodei表示node的同名子节点集合

3.4 XML相似度的计算方法

首先将XML文档的根节点表示成式(1)的形式23ÆäÖÐÃ¿¸ö·ÇÒ¶×Ó½ÚµãÓÖ¿É°´ÕÕÊ½表示这样根据XML文档中节点类型和横纵特征的不同

(1)叶子节点相似度的计算

由于XML可以描述各种类型的数据

这一点可参照

文献[4]中不同类型数据的处理方法

(2) 非叶子节点相似度的计算

分别计算向量中节点名称相同的hAtrrNodei的相似度

同名hAtrrNodeiÖ¼äµÄÏàËÆ¶È¼ÆËã·½·¨

ÒòÎª

×ÝÏò½Úµã¼¯ºÏÖÐµÄ½ÚµãÃû³ÆÏàÍ¬

Á½¼¯ºÏµÄÈÎÒâÁ½Á½ÔªËØÖ¼ä¶¼ÓÐÏàËÆ¶ÈµÄ¼ÆËã

(1)两个集合和它本身的相似度为1

¼´Âú×ã¶Ô³ÆÐÔ

ÆäÖÐm个元素相同

不同相同那么这两个集合的相似度

应该是m/n

×îÈÝÒ×Ïëµ½µÄ·½·¨ÊÇÊ×ÏÈ¼Æ

ËãÁ½¸ö¼¯ºÏµÄËùÓÐÔªËØÁ½Á½Ö¼äµÄÏàËÆ¶È

µ«¸Ã·½·¨¿ÉÄÜÊ¹Ò»¸ö¼¯ºÏºÍËü±¾ÉíµÄÏàËÆ¶È²»Îª1

这个结果是不符

合对相似度定义的要求的

(1)首先计算两个集合的所有节点两两之间的相似度

将这个相似度值对应的两个节点对

应起来

(2)从所有的相似度值中删去那些已经建立对应关系的节点的

相似度值

直到所有的相似度值都被删除

(5)

求平均相似度

上述算法首先根据相似度的取值建立两个集合元素的

一一对应关系

集合的相似度等于其元素对的相似度的加权平均

所以将所有的权值取成相同的

3.5 XML相似度的递归算法实现

上面介绍了XML数据中不同类型节点的处理方法

算

法如下

elementSimilarity :计算节点的相似度

node1

// 两个XML节点

simValue

node2的相似度

(1)如果node1

simValue返回

node2的类型是叶子节点

返回相应的相似度

node2不是叶子节点

1)将node

表示成

node1=(hAtrrNode11,hAtrrNode12,L,hAtrrNode1N)node2=(hAtrrNode21,hAtrrNode22,L,hAtrrNode1M)

2)设i

3)从node2中找到节点名称等于hAtrrNode

的节点名称的

hAtrrNode2j

4)按照3.4节介绍的纵向节点计算方法

通过递归调用 elementSimilarity 计算集合中

两两节点相似度

6)i=i+1转c

7)simValue

算法的

目的是在计算相似度的过程中利用XML节点的语义信息和结构的层次特征

在节点进行相似度比较时扁

平

只有同名称的子节点进行比较这样

节点名称不同同时

其次

最终归结于叶子节点的的相似度计算

是利用路径对可利用节点进行过滤

叶子节点在文档中的层次和位置

影响了叶子节点对相似度的贡献

本文的递归算法既考虑了节点的语义信息

所以

更真实可靠

Ｍｅｃｈａｎｉｃａｌ［７］

目录中下载了部分个人求职简历

Education

Skill, Objective等

比较本文提出的递归计算方法和传统方法计算相似度

的结果

６属于Electrical目录１２属于Mechanical目录

利用本文的

递归方法计算这两个文档和所有文档的相似度

按照文本进行处理相应的

实验结果如图2

图2 以Electrical目录中文档1和3为基文档和所有文档的相似度比较,上面两图是递归计算方法,叶子节点处理采用Set/Bag模型中的Jaccard系数

图3 以Mechanical目录中文档7和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法

下面两图是采用

Set/Bag模型中的Jaccard系数计算的整篇文档的相似度

采用递归计算方法

１０与同类中文档的

相似度要大于与异类中文档的相似度

类别区分效果要差很多

对于叶子节点的相似度采用

VSM模型的cosine相似度计算方法

按照VSM模型cosine相似度计算这两个文档和所有文档的相似度

因

为文档较少

实验结果如图4 图4 以Electrical目录中文档1和3为基文档和所有文

档的相似度比较

叶子节点处理采用VSM模型

图4 实验结果3

图5 以Mechanical目录中文档8和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法

下面两图是采用VSM模型计算的整篇文

档的相似度文档

下转第126

页

于IPv6为

7bitML=0表示在部分PLUT中没有找到匹

从而得到最长匹配配

e=MLmax,及输出端口M

三重目录地址可

设定内存

查找表规模的新近增加

在本设计中

分配每个部分的内存模块是很小的分之一

因此

IFPLUT的重要优势为

Èç¹âI/O卡

OC-192以10Gbps的速度运

行

我们用处理器来模拟选择器

延为大约25ns

¾Ý°üÆ½¾ùÎª125字节

这表示整个时

¼ÙÉèÊý

在平衡分配中为N

另一个使用

3 结论

本文通过对IP数据包的转发机制和路由查找算法的研究

并对设计的方案进行了实验

每一个表与一个输出端口相关联而实

现了路由查找并行进行

IFPLUT具有可升伸缩性ＩＦＰＬＵＴ

在均衡网络中可达到最高效率

参考文献

1 Asthana A, Delhp C, Jagdish H, et al. Design of a Gigabit IP Router. Technical Reprot 11251-911105-09TM, AT&T Bell Labs, 1991

2 Doeringer W, Karjoth G, Nassehi M. Routing on Longest Matching Prefixes. IEEE Trans. on Networking, 1996, 4(1): 86-97

3 McAulley A, Tsuchiya P, Wilson D. Fast Multi Level Hierarchical Routing Table Using Content-addressable Memory. US Patent 034444, 1995

4 Shah D, Gupta P. Fast Updating Algorithms for TCAMS. IEEE Micro, 2001-02

5 Akhbarizadeh M J, Nourani M. IP Packet Forwarding Technique Based on Partitioned Lookup Table. Center for Integrated Circuits & Systems, The University of Texas at Dallas Richardson, TX 75083

排除了给予优先级的编码

不需要对每个PLUT的TCAM条目进行分类

因为每一个新条目可增加到

TCAM的任意位置

因此这可能是IFPLUT体系结构中使用TCAM的最大优势

最主要的两个时间开销

选择器时延则第一步的时延为常数对于选择器部分产生主要的时间开销

对于不同的N

值从32到128不会以相同速度增加

从IPv4到IPv6的迟延增加是可最大迟延

当PLUT以忽略的

即少于10%用TCAM来实现时

Õâ¶ÔÓÚÀÕ¹

ÌØÐÔÊÇ·Ç³£ÖØÒªµÄ

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

在图4

差别增大

参考文献

1 McGillL M J. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983

2 Jeonghee Y, Sundaresan N. A Classifier for Semi-structured Documents. In: Proc. of SIGKDD, 2000: 340-344

3 Jung-Won Lee, Kiho Lee, Won Kim. Preparations for Semantics- based XML Mining. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM.01), 2000

4 Han Jiawei, Kamber M. Data Mining Concepts and Techniques. San Francisco, CA: Morgan Kaufmann, 2001 5刘　群７（２）：５９－７６　　

６　白硕. 信息安全和证券市场中的机器学习与文本挖掘问题. 2002上海信息安全国际会议, http://dir.yahoo.com/ Business_ and_Economy/Business_to_Business/Engineering/Employment/Resumes/

知网

２００２，　

图5 实验结果4

从实验1

构化数据

计算结果更符合XML数据的分布特征和人们直观上对相似度的理解

²ÉÓÃ±¾ÎÄµÄµÝ¹éËã·¨

Óë´«Í³µÄVSM相比

¶ÔÓÚXML这种半结

计算机工程第31卷第11期

Computer EngineeringVol.31 博士论文

1000

0025

中图分类号

XML数据相似度研究

张丙奇

赵章界

±±¾100080

XML数据的大量出现为信息检索智能信息处理提供了机遇和挑战智能处理的基础在对XML数据特征进行深入分析的基础上

实验结果表明该方法具有较好的效果XMLÓïÒåVSM模型

挖掘和深层次

A Recursive Method to Compute Similarity of XML Documents

ZHANG Bingqi, BAI Shuo, ZHAO Zhangjie

(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)

The quantity of XML data shared in the World Wide Web is increasing quickly and it offers both challenges and opportunities in

XML; Similarity; Semantic; Recursive algorithm; VSM model

扁平化

征是

元组的集合

相似度计算方法有以下几种

即表示对象的特可以看成是笛卡尔多

经典的

“树形结构”µÄÊý¾Ý

在数据交换和集成中得到大量应用

文档 1

结构嵌套

对象之间的相似

度通过描述对象的特征集合的交集表示

设X

Jaccard 相似系数为

|XY|

SimJdcc(X,Y)=

|XY|

论小说的写作

四川文艺出版社人民中路8号

Ôò¶ÔÏóÖ¼äµÄ

028-5555123

巴金四川成都

流沙河四川金堂县

Dice相似系数为

2*|XY|

SimDice(X,Y)=

|X|+|Y|

其它相关的方法有Inclusion 测度 1.2 VSM 模型

VSM模型是信息检索和文本挖掘中常用的方法文本的每个特征被认为互相独立

每个特征通过一定的方法赋予权重每个文本表示为特征空间上的一个向量

距离采用余

弦度量的相似度定义为

从上面的例子中可以看到

下面有

的下面又有节点

等

2.2 对XML数据挖掘的研究

XML数据的大量出现为数据挖掘和智能信息处理提供

文献[2]研究了新的方向和挑战

了使用结构化向量表示XML文档以用于分类的问题

每个特征又是一个向

文献[3]讨论了利用XML中的语量

作者简介处理

研究员

）

博士生赵章界

网络网络信息

¶ÔÏóµÈ½á¹¹»¯µÄÊý¾Ý

·Ç½á¹¹

2004-04-10 E-mail

义进行XML结构挖掘的问题

出版社出版社{出版社}}名字

通电话

过节点相似度矩阵和公共路径的数目计算XML结构相　　{姓名

似度

是针对XML的Tag或Schema的相似度比较

如同一路径下同名子节点数量的

区分与处理

对XML所描述内容也没有更深的讨论树形结构”结构嵌套

扁平

这种不同主要基于以下几个方面

(2) 特征所在的节点不同

(3) 同一路径下同名称子节点的数目对相似度计算的影响

3.2 XML相似计算中特征的分类

XML数据中

叶子节点的特征由它的值表示

根据子节点名称不同和同名子节点数目的不同

纵向特征

横向特征

图1表示了文档1对应的树形结构名称分别为出版社

每类节点的集合分别是一个纵向特征

作者图1 文档1对应的树形结构

3.3 XML结构化递归模型表示

通过对XML数据特征的分析

首先根节点又由它

的子节点表示非叶子节

点node定义为

node=(hAtrrNode1,hAtrrNode2,L,hAtrrNodeN

) (1)

其中hAtrrNodei表示node的同名子节点集合

3.4 XML相似度的计算方法

首先将XML文档的根节点表示成式(1)的形式23ÆäÖÐÃ¿¸ö·ÇÒ¶×Ó½ÚµãÓÖ¿É°´ÕÕÊ½表示这样根据XML文档中节点类型和横纵特征的不同

(1)叶子节点相似度的计算

由于XML可以描述各种类型的数据

这一点可参照

文献[4]中不同类型数据的处理方法

(2) 非叶子节点相似度的计算

分别计算向量中节点名称相同的hAtrrNodei的相似度

同名hAtrrNodeiÖ¼äµÄÏàËÆ¶È¼ÆËã·½·¨

ÒòÎª

×ÝÏò½Úµã¼¯ºÏÖÐµÄ½ÚµãÃû³ÆÏàÍ¬

Á½¼¯ºÏµÄÈÎÒâÁ½Á½ÔªËØÖ¼ä¶¼ÓÐÏàËÆ¶ÈµÄ¼ÆËã

(1)两个集合和它本身的相似度为1

¼´Âú×ã¶Ô³ÆÐÔ

ÆäÖÐm个元素相同

不同相同那么这两个集合的相似度

应该是m/n

×îÈÝÒ×Ïëµ½µÄ·½·¨ÊÇÊ×ÏÈ¼Æ

ËãÁ½¸ö¼¯ºÏµÄËùÓÐÔªËØÁ½Á½Ö¼äµÄÏàËÆ¶È

µ«¸Ã·½·¨¿ÉÄÜÊ¹Ò»¸ö¼¯ºÏºÍËü±¾ÉíµÄÏàËÆ¶È²»Îª1

这个结果是不符

合对相似度定义的要求的

(1)首先计算两个集合的所有节点两两之间的相似度

将这个相似度值对应的两个节点对

应起来

(2)从所有的相似度值中删去那些已经建立对应关系的节点的

相似度值

直到所有的相似度值都被删除

(5)

求平均相似度

上述算法首先根据相似度的取值建立两个集合元素的

一一对应关系

集合的相似度等于其元素对的相似度的加权平均

所以将所有的权值取成相同的

3.5 XML相似度的递归算法实现

上面介绍了XML数据中不同类型节点的处理方法

算

法如下

elementSimilarity :计算节点的相似度

node1

// 两个XML节点

simValue

node2的相似度

(1)如果node1

simValue返回

node2的类型是叶子节点

返回相应的相似度

node2不是叶子节点

1)将node

表示成

node1=(hAtrrNode11,hAtrrNode12,L,hAtrrNode1N)node2=(hAtrrNode21,hAtrrNode22,L,hAtrrNode1M)

2)设i

3)从node2中找到节点名称等于hAtrrNode

的节点名称的

hAtrrNode2j

4)按照3.4节介绍的纵向节点计算方法

通过递归调用 elementSimilarity 计算集合中

两两节点相似度

6)i=i+1转c

7)simValue

算法的

目的是在计算相似度的过程中利用XML节点的语义信息和结构的层次特征

在节点进行相似度比较时扁

平

只有同名称的子节点进行比较这样

节点名称不同同时

其次

最终归结于叶子节点的的相似度计算

是利用路径对可利用节点进行过滤

叶子节点在文档中的层次和位置

影响了叶子节点对相似度的贡献

本文的递归算法既考虑了节点的语义信息

所以

更真实可靠

Ｍｅｃｈａｎｉｃａｌ［７］

目录中下载了部分个人求职简历

Education

Skill, Objective等

比较本文提出的递归计算方法和传统方法计算相似度

的结果

６属于Electrical目录１２属于Mechanical目录

利用本文的

递归方法计算这两个文档和所有文档的相似度

按照文本进行处理相应的

实验结果如图2

图2 以Electrical目录中文档1和3为基文档和所有文档的相似度比较,上面两图是递归计算方法,叶子节点处理采用Set/Bag模型中的Jaccard系数

图3 以Mechanical目录中文档7和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法

下面两图是采用

Set/Bag模型中的Jaccard系数计算的整篇文档的相似度

采用递归计算方法

１０与同类中文档的

相似度要大于与异类中文档的相似度

类别区分效果要差很多

对于叶子节点的相似度采用

VSM模型的cosine相似度计算方法

按照VSM模型cosine相似度计算这两个文档和所有文档的相似度

因

为文档较少

实验结果如图4 图4 以Electrical目录中文档1和3为基文档和所有文

档的相似度比较

叶子节点处理采用VSM模型

图4 实验结果3

图5 以Mechanical目录中文档8和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法

下面两图是采用VSM模型计算的整篇文

档的相似度文档

下转第126

页

于IPv6为

7bitML=0表示在部分PLUT中没有找到匹

从而得到最长匹配配

e=MLmax,及输出端口M

三重目录地址可

设定内存

查找表规模的新近增加

在本设计中

分配每个部分的内存模块是很小的分之一

因此

IFPLUT的重要优势为

Èç¹âI/O卡

OC-192以10Gbps的速度运

行

我们用处理器来模拟选择器

延为大约25ns

¾Ý°üÆ½¾ùÎª125字节

这表示整个时

¼ÙÉèÊý

在平衡分配中为N

另一个使用

3 结论

本文通过对IP数据包的转发机制和路由查找算法的研究

并对设计的方案进行了实验

每一个表与一个输出端口相关联而实

现了路由查找并行进行

IFPLUT具有可升伸缩性ＩＦＰＬＵＴ

在均衡网络中可达到最高效率

参考文献

1 Asthana A, Delhp C, Jagdish H, et al. Design of a Gigabit IP Router. Technical Reprot 11251-911105-09TM, AT&T Bell Labs, 1991

2 Doeringer W, Karjoth G, Nassehi M. Routing on Longest Matching Prefixes. IEEE Trans. on Networking, 1996, 4(1): 86-97

3 McAulley A, Tsuchiya P, Wilson D. Fast Multi Level Hierarchical Routing Table Using Content-addressable Memory. US Patent 034444, 1995

4 Shah D, Gupta P. Fast Updating Algorithms for TCAMS. IEEE Micro, 2001-02

5 Akhbarizadeh M J, Nourani M. IP Packet Forwarding Technique Based on Partitioned Lookup Table. Center for Integrated Circuits & Systems, The University of Texas at Dallas Richardson, TX 75083

排除了给予优先级的编码

不需要对每个PLUT的TCAM条目进行分类

因为每一个新条目可增加到

TCAM的任意位置

因此这可能是IFPLUT体系结构中使用TCAM的最大优势

最主要的两个时间开销

选择器时延则第一步的时延为常数对于选择器部分产生主要的时间开销

对于不同的N

值从32到128不会以相同速度增加

从IPv4到IPv6的迟延增加是可最大迟延

当PLUT以忽略的

即少于10%用TCAM来实现时

Õâ¶ÔÓÚÀÕ¹

ÌØÐÔÊÇ·Ç³£ÖØÒªµÄ

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

在图4

差别增大

参考文献

1 McGillL M J. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983

2 Jeonghee Y, Sundaresan N. A Classifier for Semi-structured Documents. In: Proc. of SIGKDD, 2000: 340-344

3 Jung-Won Lee, Kiho Lee, Won Kim. Preparations for Semantics- based XML Mining. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM.01), 2000

4 Han Jiawei, Kamber M. Data Mining Concepts and Techniques. San Francisco, CA: Morgan Kaufmann, 2001 5刘　群７（２）：５９－７６　　

知网

２００２，　

图5 实验结果4

从实验1

构化数据

计算结果更符合XML数据的分布特征和人们直观上对相似度的理解

²ÉÓÃ±¾ÎÄµÄµÝ¹éËã·¨

Óë´«Í³µÄVSM相比

¶ÔÓÚXML这种半结

相关内容

热门内容

标签