(实验项目) DBLP 数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。
(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章) 合著者关系。 解决问题的大致过程:
1. DBLP 数据集是一个XML 文件,先对XML 文件解析,得到一个超过1G 的TXT 文件,处理文件数据格式,并截取前20000行数据,格式如下图:
2. 使用FP-Tree 算法,设置支持度为3,得到的满足条件的频繁项集如下图:
说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。
(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。
关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2×2的相依表(显示期望值)
1. 使用提升度的相关分析
P({A}) = 86/1610139 = 5.28e -5
P({B}) = 85/1610139 = 5.28e -5
P({A,B}) = 26/1610139 = 1.61e -5
提升度为P({A,B})/(P({A})×P({B}) )=1.61e -5/(5.28e -5×5.28e -5)=5775
2. 使用χ2进行相关分析
χ2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609994-1609968)2/1609968 = 150238
3. 全置信度
P(A|B) = 26/85 = 0.306
P(B|A) = 26/86 = 0.302
all_conf(A,B) = min{P(A|B),P(B|A)} = 0.302
4. 最大置信度
max_conf(A,B) = max{P(A|B),P(B|A)} = 0.306
5. Kulczynski
Kulc(A,B) = 1/2 *(P(A|B)+P(B|A)) = 0.304
6. 余弦
Cosine(A,B) =
比较6种模式评估度量:
上述6种模式评估中,提升度和χ2的计算受零事务的影响很大,在上面的例子中,AB 表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A 和B 发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB 的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski ,余弦) 结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)>>P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得P(A|B)×P(B|A) = 0.304
出的结论却是正相关,而根据Kulczynski 和余弦的结果,则两者被视为中性。 (c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期
1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A 和B 满足频繁项集的要求,并且A 发表过的论文不小于30篇,B 发表过的论文不超过5篇,则我们可以认定A 为导师,B 为学生。
2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A 为导师,B 为学生,并且他们的合著次数满足频繁项集的支持度,我们需要计算A 和B 合著论文中的最近日期和最早日期,最近日期-最早日期 = 近似的指导周期
数据挖掘作业
计算机学院 学院:
学号:1403121614 姓名:汪泰利
(实验项目) DBLP 数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。
(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章) 合著者关系。 解决问题的大致过程:
1. DBLP 数据集是一个XML 文件,先对XML 文件解析,得到一个超过1G 的TXT 文件,处理文件数据格式,并截取前20000行数据,格式如下图:
2. 使用FP-Tree 算法,设置支持度为3,得到的满足条件的频繁项集如下图:
说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。
(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。
关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2×2的相依表(显示期望值)
1. 使用提升度的相关分析
P({A}) = 86/1610139 = 5.28e -5
P({B}) = 85/1610139 = 5.28e -5
P({A,B}) = 26/1610139 = 1.61e -5
提升度为P({A,B})/(P({A})×P({B}) )=1.61e -5/(5.28e -5×5.28e -5)=5775
2. 使用χ2进行相关分析
χ2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609994-1609968)2/1609968 = 150238
3. 全置信度
P(A|B) = 26/85 = 0.306
P(B|A) = 26/86 = 0.302
all_conf(A,B) = min{P(A|B),P(B|A)} = 0.302
4. 最大置信度
max_conf(A,B) = max{P(A|B),P(B|A)} = 0.306
5. Kulczynski
Kulc(A,B) = 1/2 *(P(A|B)+P(B|A)) = 0.304
6. 余弦
Cosine(A,B) =
比较6种模式评估度量:
上述6种模式评估中,提升度和χ2的计算受零事务的影响很大,在上面的例子中,AB 表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A 和B 发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB 的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski ,余弦) 结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)>>P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得P(A|B)×P(B|A) = 0.304
出的结论却是正相关,而根据Kulczynski 和余弦的结果,则两者被视为中性。 (c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期
1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A 和B 满足频繁项集的要求,并且A 发表过的论文不小于30篇,B 发表过的论文不超过5篇,则我们可以认定A 为导师,B 为学生。
2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A 为导师,B 为学生,并且他们的合著次数满足频繁项集的支持度,我们需要计算A 和B 合著论文中的最近日期和最早日期,最近日期-最早日期 = 近似的指导周期
数据挖掘作业
计算机学院 学院:
学号:1403121614 姓名:汪泰利