计 算 机 工 程 第31卷 第11期
Computer EngineeringVol.31 博士论文
1000
0025
A
中图分类号
XML数据相似度研究
张丙奇
赵章界
±±¾100080
XML数据的大量出现为信息检索智能信息处理提供了机遇和挑战智能处理的基础在对XML数据特征进行深入分析的基础上
实验结果表明该方法具有较好的效果XMLÓïÒåVSM模型
挖掘和深层次
A Recursive Method to Compute Similarity of XML Documents
ZHANG Bingqi, BAI Shuo, ZHAO Zhangjie
(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)
The quantity of XML data shared in the World Wide Web is increasing quickly and it offers both challenges and opportunities in
information retrieval, data mining and intelligent information processing. As the basis of information retrieval, mining, and processing, accurate determination of similarity between XML documents is important and valuable. This paper provides a novel recursive method to get the similarity between XML documents according to the semantic and structural features of XML. It also provides experiments to show the comparison of the method against traditional methods and the results prove the method is highly effective.
XML; Similarity; Semantic; Recursive algorithm; VSM model
扁平化
征是
元组的集合
相似度计算方法有以下几种
即表示对象的特可以看成是笛卡尔多
经典的
“树形结构”µÄÊý¾Ý
在数据交换和集成中得到大量应用
文档 1
结构嵌套
对象之间的相似
度通过描述对象的特征集合的交集表示
设X
Jaccard 相似系数为
|XY|
SimJdcc(X,Y)=
|XY|
论小说的写作
四川文艺出版社 人民中路8号
Ôò¶ÔÏóÖ¼äµÄ
028-5555123
巴金 四川成都
流沙河 四川金堂县
Dice相似系数为
2*|XY|
SimDice(X,Y)=
|X|+|Y|
其它相关的方法有Inclusion 测度 1.2 VSM 模型
VSM模型是信息检索和文本挖掘中常用的方法文本的每个特征被认为互相独立
每个特征通过一定的方法赋予权重每个文本表示为特征空间上的一个向量
距离采用余
弦度量的相似度定义为
从上面的例子中可以看到
下面有
的下面又有节点
等
2.2 对XML数据挖掘的研究
XML数据的大量出现为数据挖掘和智能信息处理提供
文献[2]研究了新的方向和挑战
了使用结构化向量表示XML文档以用于分类的问题
每个特征又是一个向
文献[3]讨论了利用XML中的语量
作者简介处理
研究员
)
博士生赵章界
网络网络信息
¶ÔÏóµÈ½á¹¹»¯µÄÊý¾Ý
·Ç½á¹¹
2004-04-10 E-mail
义进行XML结构挖掘的问题
出版社出版社{出版社}}名字
通电话
过节点相似度矩阵和公共路径的数目计算XML结构相 {姓名
似度
是针对XML的Tag或Schema的相似度比较
如同一路径下同名子节点数量的
区分与处理
对XML所描述内容也没有更深的讨论树形结构”结构嵌套
扁平
这种不同主要基于以下几个方面
(2) 特征所在的节点不同
(3) 同一路径下同名称子节点的数目对相似度计算的影响
3.2 XML相似计算中特征的分类
XML数据中
叶子节点的特征由它的值表示
根据子节点名称不同和同名子节点数目的不同
纵向特征
横向特征
图1表示了文档1对应的树形结构名称分别为出版社
每类节点的集合分别是一个纵向特征
作者 图1 文档1对应的树形结构
3.3 XML结构化递归模型表示
通过对XML数据特征的分析
首先根节点又由它
的子节点表示非叶子节
点node定义为
node=(hAtrrNode1,hAtrrNode2,L,hAtrrNodeN
) (1)
其中hAtrrNodei表示node的同名子节点集合
3.4 XML相似度的计算方法
首先将XML文档的根节点表示成式(1)的形式23ÆäÖÐÿ¸ö·ÇÒ¶×Ó½ÚµãÓÖ¿É°´ÕÕʽ表示这样 根据XML文档中节点类型和横纵特征的不同
(1)叶子节点相似度的计算
由于XML可以描述各种类型的数据
这一点可参照
文献[4]中不同类型数据的处理方法
(2) 非叶子节点相似度的计算
分别计算向量中节点名称相同的hAtrrNodei的相似度
同名hAtrrNodeiÖ¼äµÄÏàËƶȼÆËã·½·¨
ÒòΪ
×ÝÏò½Úµã¼¯ºÏÖеĽڵãÃû³ÆÏàͬ
Á½¼¯ºÏµÄÈÎÒâÁ½Á½ÔªËØּ䶼ÓÐÏàËƶȵļÆËã
(1)两个集合和它本身的相似度为1
B
¼´Âú×ã¶Ô³ÆÐÔ
ÆäÖÐm个元素相同
不同相同那么这两个集合的相似度
应该是m/n
×îÈÝÒ×Ïëµ½µÄ·½·¨ÊÇÊ×ÏȼÆ
ËãÁ½¸ö¼¯ºÏµÄËùÓÐÔªËØÁ½Á½Ö¼äµÄÏàËƶÈ
µ«¸Ã·½·¨¿ÉÄÜʹһ¸ö¼¯ºÏºÍËü±¾ÉíµÄÏàËƶȲ»Îª1
这个结果是不符
合对相似度定义的要求的
(1)首先计算两个集合的所有节点两两之间的相似度
将这个相似度值对应的两个节点对
应起来
(2)从所有的相似度值中删去那些已经建立对应关系的节点的
相似度值
直到所有的相似度值都被删除
(5)
求平均相似度
上述算法首先根据相似度的取值建立两个集合元素的
一一对应关系
集合的相似度等于其元素对的相似度的加权平均
所以将所有的权值取成相同的
3.5 XML相似度的递归算法实现
上面介绍了XML数据中不同类型节点的处理方法
算
法如下
elementSimilarity :计算节点的相似度
node1
// 两个XML节点
simValue
node2的相似度
(1)如果node1
simValue返回
node2的类型是叶子节点
返回相应的相似度
node2不是叶子节点
1)将node
1
1
表示成
node1=(hAtrrNode11,hAtrrNode12,L,hAtrrNode1N)node2=(hAtrrNode21,hAtrrNode22,L,hAtrrNode1M)
2)设i
3)从node2中找到节点名称等于hAtrrNode
1i
的节点名称的
hAtrrNode2j
4)按照3.4节介绍的纵向节点计算方法
通过递归调用 elementSimilarity 计算集合中
两两节点相似度
6)i=i+1转c
7)simValue
返回
算法的
目的是在计算相似度的过程中利用XML节点的语义信息和结构的层次特征
在节点进行相似度比较时扁
平
只有同名称的子节点进行比较这样
节点名称不同同时
其次
最终归结于叶子节点的的相似度计算
是利用路径对可利用节点进行过滤
叶子节点在文档中的层次和位置
影响了叶子节点对相似度的贡献
本文的递归算法既考虑了节点的语义信息
所以
更真实可靠
Mechanical[7]
目录中下载了部分个人求职简历
Education
Skill, Objective等
比较本文提出的递归计算方法和传统方法计算相似度
的结果
6属于Electrical目录12属于Mechanical目录
利用本文的
递归方法计算这两个文档和所有文档的相似度
按照文本进行处理相应的
实验结果如图2
图2 以Electrical目录中文档1和3为基文档和所有文档的相似度比较,上面两图是递归计算方法,叶子节点处理采用Set/Bag模型中的Jaccard系数
图3 以Mechanical目录中文档7和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法
下面两图是采用
Set/Bag模型中的Jaccard系数计算的整篇文档的相似度
采用递归计算方法
10与同类中文档的
相似度要大于与异类中文档的相似度
类别区分效果要差很多
对于叶子节点的相似度采用
VSM模型的cosine相似度计算方法
按照VSM模型cosine相似度计算这两个文档和所有文档的相似度
因
为文档较少
实验结果如图4 图4 以Electrical目录中文档1和3为基文档和所有文
档的相似度比较
叶子节点处理采用VSM模型
图4 实验结果3
图5 以Mechanical目录中文档8和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法
下面两图是采用VSM模型计算的整篇文
档的相似度文档
下转第126
页
于IPv6为
7bitML=0表示在部分PLUT中没有找到匹
从而得到最长匹配配
m
e=MLmax,及输出端口M
三重目录地址可
设定内存
查找表规模的新近增加
在本设计中
分配每个部分的内存模块是很小的分之一
因此
IFPLUT的重要优势为
Èç¹âI/O卡
OC-192以10Gbps的速度运
行
我们用处理器来模拟选择器
延为大约25ns
¾Ý°üƽ¾ùΪ125字节
这表示整个时
¼ÙÉèÊý
在平衡分配中为N
另一个使用
3 结论
本文通过对IP数据包的转发机制和路由查找算法的研究
并对设计的方案进行了实验
每一个表与一个输出端口相关联而实
现了路由查找并行进行
IFPLUT具有可升伸缩性IFPLUT
在均衡网络中可达到最高效率
参考文献
1 Asthana A, Delhp C, Jagdish H, et al. Design of a Gigabit IP Router. Technical Reprot 11251-911105-09TM, AT&T Bell Labs, 1991
2 Doeringer W, Karjoth G, Nassehi M. Routing on Longest Matching Prefixes. IEEE Trans. on Networking, 1996, 4(1): 86-97
3 McAulley A, Tsuchiya P, Wilson D. Fast Multi Level Hierarchical Routing Table Using Content-addressable Memory. US Patent 034444, 1995
4 Shah D, Gupta P. Fast Updating Algorithms for TCAMS. IEEE Micro, 2001-02
5 Akhbarizadeh M J, Nourani M. IP Packet Forwarding Technique Based on Partitioned Lookup Table. Center for Integrated Circuits & Systems, The University of Texas at Dallas Richardson, TX 75083
排除了给予优先级的编码
不需要对每个PLUT的TCAM条目进行分类
因为每一个新条目可增加到
TCAM的任意位置
因此这可能是IFPLUT体系结构中使用TCAM的最大优势
最主要的两个时间开销
1
选择器时延则第一步的时延为常数对于选择器部分产生主要的时间开销
对于不同的N
值从32到128不会以相同速度增加
从IPv4到IPv6的迟延增加是可最大迟延
当PLUT以忽略的
即少于10%用TCAM来实现时
Õâ¶ÔÓÚÀÕ¹
ÌØÐÔÊǷdz£ÖØÒªµÄ
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
在图4
差别增大
参考文献
1 McGillL M J. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983
2 Jeonghee Y, Sundaresan N. A Classifier for Semi-structured Documents. In: Proc. of SIGKDD, 2000: 340-344
3 Jung-Won Lee, Kiho Lee, Won Kim. Preparations for Semantics- based XML Mining. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM.01), 2000
4 Han Jiawei, Kamber M. Data Mining Concepts and Techniques. San Francisco, CA: Morgan Kaufmann, 2001 5刘 群7(2):59-76
6 白 硕. 信息安全和证券市场中的机器学习与文本挖掘问题. 2002上海信息安全国际会议, http://dir.yahoo.com/ Business_ and_Economy/Business_to_Business/Engineering/Employment/Resumes/
知网
2002,
图5 实验结果4
从实验1
构化数据
计算结果更符合XML数据的分布特征和人们直观上对相似度的理解
²ÉÓñ¾ÎĵĵݹéËã·¨
Ó봫ͳµÄVSM相比
¶ÔÓÚXML这种半结
计 算 机 工 程 第31卷 第11期
Computer EngineeringVol.31 博士论文
1000
0025
A
中图分类号
XML数据相似度研究
张丙奇
赵章界
±±¾100080
XML数据的大量出现为信息检索智能信息处理提供了机遇和挑战智能处理的基础在对XML数据特征进行深入分析的基础上
实验结果表明该方法具有较好的效果XMLÓïÒåVSM模型
挖掘和深层次
A Recursive Method to Compute Similarity of XML Documents
ZHANG Bingqi, BAI Shuo, ZHAO Zhangjie
(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)
The quantity of XML data shared in the World Wide Web is increasing quickly and it offers both challenges and opportunities in
information retrieval, data mining and intelligent information processing. As the basis of information retrieval, mining, and processing, accurate determination of similarity between XML documents is important and valuable. This paper provides a novel recursive method to get the similarity between XML documents according to the semantic and structural features of XML. It also provides experiments to show the comparison of the method against traditional methods and the results prove the method is highly effective.
XML; Similarity; Semantic; Recursive algorithm; VSM model
扁平化
征是
元组的集合
相似度计算方法有以下几种
即表示对象的特可以看成是笛卡尔多
经典的
“树形结构”µÄÊý¾Ý
在数据交换和集成中得到大量应用
文档 1
结构嵌套
对象之间的相似
度通过描述对象的特征集合的交集表示
设X
Jaccard 相似系数为
|XY|
SimJdcc(X,Y)=
|XY|
论小说的写作
四川文艺出版社 人民中路8号
Ôò¶ÔÏóÖ¼äµÄ
028-5555123
巴金 四川成都
流沙河 四川金堂县
Dice相似系数为
2*|XY|
SimDice(X,Y)=
|X|+|Y|
其它相关的方法有Inclusion 测度 1.2 VSM 模型
VSM模型是信息检索和文本挖掘中常用的方法文本的每个特征被认为互相独立
每个特征通过一定的方法赋予权重每个文本表示为特征空间上的一个向量
距离采用余
弦度量的相似度定义为
从上面的例子中可以看到
下面有
的下面又有节点
等
2.2 对XML数据挖掘的研究
XML数据的大量出现为数据挖掘和智能信息处理提供
文献[2]研究了新的方向和挑战
了使用结构化向量表示XML文档以用于分类的问题
每个特征又是一个向
文献[3]讨论了利用XML中的语量
作者简介处理
研究员
)
博士生赵章界
网络网络信息
¶ÔÏóµÈ½á¹¹»¯µÄÊý¾Ý
·Ç½á¹¹
2004-04-10 E-mail
义进行XML结构挖掘的问题
出版社出版社{出版社}}名字
通电话
过节点相似度矩阵和公共路径的数目计算XML结构相 {姓名
似度
是针对XML的Tag或Schema的相似度比较
如同一路径下同名子节点数量的
区分与处理
对XML所描述内容也没有更深的讨论树形结构”结构嵌套
扁平
这种不同主要基于以下几个方面
(2) 特征所在的节点不同
(3) 同一路径下同名称子节点的数目对相似度计算的影响
3.2 XML相似计算中特征的分类
XML数据中
叶子节点的特征由它的值表示
根据子节点名称不同和同名子节点数目的不同
纵向特征
横向特征
图1表示了文档1对应的树形结构名称分别为出版社
每类节点的集合分别是一个纵向特征
作者 图1 文档1对应的树形结构
3.3 XML结构化递归模型表示
通过对XML数据特征的分析
首先根节点又由它
的子节点表示非叶子节
点node定义为
node=(hAtrrNode1,hAtrrNode2,L,hAtrrNodeN
) (1)
其中hAtrrNodei表示node的同名子节点集合
3.4 XML相似度的计算方法
首先将XML文档的根节点表示成式(1)的形式23ÆäÖÐÿ¸ö·ÇÒ¶×Ó½ÚµãÓÖ¿É°´ÕÕʽ表示这样 根据XML文档中节点类型和横纵特征的不同
(1)叶子节点相似度的计算
由于XML可以描述各种类型的数据
这一点可参照
文献[4]中不同类型数据的处理方法
(2) 非叶子节点相似度的计算
分别计算向量中节点名称相同的hAtrrNodei的相似度
同名hAtrrNodeiÖ¼äµÄÏàËƶȼÆËã·½·¨
ÒòΪ
×ÝÏò½Úµã¼¯ºÏÖеĽڵãÃû³ÆÏàͬ
Á½¼¯ºÏµÄÈÎÒâÁ½Á½ÔªËØּ䶼ÓÐÏàËƶȵļÆËã
(1)两个集合和它本身的相似度为1
B
¼´Âú×ã¶Ô³ÆÐÔ
ÆäÖÐm个元素相同
不同相同那么这两个集合的相似度
应该是m/n
×îÈÝÒ×Ïëµ½µÄ·½·¨ÊÇÊ×ÏȼÆ
ËãÁ½¸ö¼¯ºÏµÄËùÓÐÔªËØÁ½Á½Ö¼äµÄÏàËƶÈ
µ«¸Ã·½·¨¿ÉÄÜʹһ¸ö¼¯ºÏºÍËü±¾ÉíµÄÏàËƶȲ»Îª1
这个结果是不符
合对相似度定义的要求的
(1)首先计算两个集合的所有节点两两之间的相似度
将这个相似度值对应的两个节点对
应起来
(2)从所有的相似度值中删去那些已经建立对应关系的节点的
相似度值
直到所有的相似度值都被删除
(5)
求平均相似度
上述算法首先根据相似度的取值建立两个集合元素的
一一对应关系
集合的相似度等于其元素对的相似度的加权平均
所以将所有的权值取成相同的
3.5 XML相似度的递归算法实现
上面介绍了XML数据中不同类型节点的处理方法
算
法如下
elementSimilarity :计算节点的相似度
node1
// 两个XML节点
simValue
node2的相似度
(1)如果node1
simValue返回
node2的类型是叶子节点
返回相应的相似度
node2不是叶子节点
1)将node
1
1
表示成
node1=(hAtrrNode11,hAtrrNode12,L,hAtrrNode1N)node2=(hAtrrNode21,hAtrrNode22,L,hAtrrNode1M)
2)设i
3)从node2中找到节点名称等于hAtrrNode
1i
的节点名称的
hAtrrNode2j
4)按照3.4节介绍的纵向节点计算方法
通过递归调用 elementSimilarity 计算集合中
两两节点相似度
6)i=i+1转c
7)simValue
返回
算法的
目的是在计算相似度的过程中利用XML节点的语义信息和结构的层次特征
在节点进行相似度比较时扁
平
只有同名称的子节点进行比较这样
节点名称不同同时
其次
最终归结于叶子节点的的相似度计算
是利用路径对可利用节点进行过滤
叶子节点在文档中的层次和位置
影响了叶子节点对相似度的贡献
本文的递归算法既考虑了节点的语义信息
所以
更真实可靠
Mechanical[7]
目录中下载了部分个人求职简历
Education
Skill, Objective等
比较本文提出的递归计算方法和传统方法计算相似度
的结果
6属于Electrical目录12属于Mechanical目录
利用本文的
递归方法计算这两个文档和所有文档的相似度
按照文本进行处理相应的
实验结果如图2
图2 以Electrical目录中文档1和3为基文档和所有文档的相似度比较,上面两图是递归计算方法,叶子节点处理采用Set/Bag模型中的Jaccard系数
图3 以Mechanical目录中文档7和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法
下面两图是采用
Set/Bag模型中的Jaccard系数计算的整篇文档的相似度
采用递归计算方法
10与同类中文档的
相似度要大于与异类中文档的相似度
类别区分效果要差很多
对于叶子节点的相似度采用
VSM模型的cosine相似度计算方法
按照VSM模型cosine相似度计算这两个文档和所有文档的相似度
因
为文档较少
实验结果如图4 图4 以Electrical目录中文档1和3为基文档和所有文
档的相似度比较
叶子节点处理采用VSM模型
图4 实验结果3
图5 以Mechanical目录中文档8和10为基文档和所有文档的相似度比较, 上面两图是递归计算方法
下面两图是采用VSM模型计算的整篇文
档的相似度文档
下转第126
页
于IPv6为
7bitML=0表示在部分PLUT中没有找到匹
从而得到最长匹配配
m
e=MLmax,及输出端口M
三重目录地址可
设定内存
查找表规模的新近增加
在本设计中
分配每个部分的内存模块是很小的分之一
因此
IFPLUT的重要优势为
Èç¹âI/O卡
OC-192以10Gbps的速度运
行
我们用处理器来模拟选择器
延为大约25ns
¾Ý°üƽ¾ùΪ125字节
这表示整个时
¼ÙÉèÊý
在平衡分配中为N
另一个使用
3 结论
本文通过对IP数据包的转发机制和路由查找算法的研究
并对设计的方案进行了实验
每一个表与一个输出端口相关联而实
现了路由查找并行进行
IFPLUT具有可升伸缩性IFPLUT
在均衡网络中可达到最高效率
参考文献
1 Asthana A, Delhp C, Jagdish H, et al. Design of a Gigabit IP Router. Technical Reprot 11251-911105-09TM, AT&T Bell Labs, 1991
2 Doeringer W, Karjoth G, Nassehi M. Routing on Longest Matching Prefixes. IEEE Trans. on Networking, 1996, 4(1): 86-97
3 McAulley A, Tsuchiya P, Wilson D. Fast Multi Level Hierarchical Routing Table Using Content-addressable Memory. US Patent 034444, 1995
4 Shah D, Gupta P. Fast Updating Algorithms for TCAMS. IEEE Micro, 2001-02
5 Akhbarizadeh M J, Nourani M. IP Packet Forwarding Technique Based on Partitioned Lookup Table. Center for Integrated Circuits & Systems, The University of Texas at Dallas Richardson, TX 75083
排除了给予优先级的编码
不需要对每个PLUT的TCAM条目进行分类
因为每一个新条目可增加到
TCAM的任意位置
因此这可能是IFPLUT体系结构中使用TCAM的最大优势
最主要的两个时间开销
1
选择器时延则第一步的时延为常数对于选择器部分产生主要的时间开销
对于不同的N
值从32到128不会以相同速度增加
从IPv4到IPv6的迟延增加是可最大迟延
当PLUT以忽略的
即少于10%用TCAM来实现时
Õâ¶ÔÓÚÀÕ¹
ÌØÐÔÊǷdz£ÖØÒªµÄ
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
在图4
差别增大
参考文献
1 McGillL M J. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983
2 Jeonghee Y, Sundaresan N. A Classifier for Semi-structured Documents. In: Proc. of SIGKDD, 2000: 340-344
3 Jung-Won Lee, Kiho Lee, Won Kim. Preparations for Semantics- based XML Mining. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM.01), 2000
4 Han Jiawei, Kamber M. Data Mining Concepts and Techniques. San Francisco, CA: Morgan Kaufmann, 2001 5刘 群7(2):59-76
6 白 硕. 信息安全和证券市场中的机器学习与文本挖掘问题. 2002上海信息安全国际会议, http://dir.yahoo.com/ Business_ and_Economy/Business_to_Business/Engineering/Employment/Resumes/
知网
2002,
图5 实验结果4
从实验1
构化数据
计算结果更符合XML数据的分布特征和人们直观上对相似度的理解
²ÉÓñ¾ÎĵĵݹéËã·¨
Ó봫ͳµÄVSM相比
¶ÔÓÚXML这种半结