一种新的网络核心挖掘方法在情报分析中的应用

情报学报     

doi:10.3772/j. issn. 1000⁃0135. 2011. 02. 014

=

ISSN 1000-0135第30卷第2期212-218, 2011年2月

JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC AND TECHNICAL INFORMATION ISSN 1000-0135

February 2011Vol. 30No. 2, 212-218

一种新的网络核心挖掘方法在情报分析中的应用1)

田  宏  万果锋

(大连交通大学软件学院, 大连116028)

摘要    现代化信息技术和手段在科学情报领域的应用是情报学的重要内容之一㊂ 基于社会网络分析的中心性

分析, 本文提出了一种基于节点核心影响度的网络核心挖掘方法㊂ 该方法用中心覆盖性因子和差异因子作为考量标准, 从节点联系的覆盖范围㊁ 影响程度和与其他节点的差异性三个方面全面衡量网络中的全部节点, 从而找出核心节点, 并将其应用在网络情报分析中㊂ 实验表明该方法具有很高的准确性和很好的合理性㊂

关键词    社会网络分析  中心覆盖性因子  差异因子  影响度

Application of a New Network Core Mining Method in Information Analysis

Tian Hong and Wan Guofeng

(School of Software , Dalian Jiaotong University , Dalian 116028)

reasonableness of this method.

discover the core node. We applied in network information analysis. The experiment shows the high accuracy and

from the node coverage, influence level and differences with the other nodes, totally measure all the network nodes, and

which based on core effect. It uses centre coverage factor, difference factor as consideration standards. The method is linked

domain. Based on the centrality analysis of social network analysis, this paper puts forward the network core mining method

Abstract     The application of modern information technologies is one of important part in the scientific information

Keywords     social network analysis, centre coverage factor, difference factor, core effect

映了人在网络社团中的地位与角色㊂ 本文在社会网络分析法的中心性分析方法的基础上, 提出一种新的网络核心挖掘方法:基于节点核心影响度的核心发现方法㊂ 用该方法分析和挖掘网络社团中的核心人物, 是现代化信息技术和手段在科学情报领域中的应用㊂

1  前  言

随着计算机网络的飞速发展, 海量的电子交换数据(邮件㊁ 博客㊁ 论坛等) 充塞其中㊂ 从安然公司倒闭丑闻到 911” 恐怖袭击, 从伦敦地铁爆炸案到我国乌市 7. 5” 事件, 越来越多的重要信息都出现在了这些看似杂乱无章的网络数据中㊂ 如何从搜集到的网络信息中分析各种社团和社团内部关系, 以达到分析社会网络关系和预防犯罪的目的, 已经迫在眉睫㊂

对于网络信息而言, 人与人之间的相互联系反

2  社会网络分析方法简述

社会网结构解释社会现象[1], 用 网” 的隐喻来解释

社会网络分析强调用人际关系㊁ 关系内涵以及

生活中人们之间的关系和互动㊂ 社会网络是一组人

收稿日期:2009年12月9日

作者简介:田宏, 女,1968年生, 大连交通大学软件学院副教授, 博士, 研究方向:人工智能㊁ 数据挖掘㊂ 万果锋, 男,1982年生, 大连交通大学软件学院研究生, 研究方向:数据挖掘㊂ E⁃mail:vanguofeng@ gmail. com㊂

1)  辽宁省教育厅计划项目(2008093)㊂212

一种新的网络核心挖掘方法在情报分析中的应用

或群体形成的一组独特的关系, 这些关系是传递物质㊁ 信息㊁ 观念㊁ 情感等资源的纽带㊂ 社会网络分析实现了个体与整体㊁ 宏观与微观的结合㊂

社会网络分析将网络中行为者之间的关系进行量化研究, 将行为者作为节点, 行为者之间的关系用节点连线表示, 从而形成了一个网络图㊂ 具体的分析方法有小团体分析㊁ 中心性分析㊁ 角色分析等㊂

2. 1  小团体分析

千计乃至万计的节点, 如果按其关系构建网络图, 一般人无法看清楚, 想研究谈何容易㊂ 角色分析就是将在网络中扮演相同或接近角色的人归纳为一类, 分析出一群人和一群人之间的关系㊂ 在角色分析方法中, 这一群人指的是一群结构同型的人㊂

结构同型[5]指的是:如果对所有的行动者来说, k =1,2,3, , g (k ≠ i , j ), 而且所有关系r =1,2, , R , 行动者i 与k 有关联; 如果仅仅j 也与k 有关联, 小团体(subgroup或称cliques) [2]是指团体中的一小群人关系特别紧密, 以至于结合成一个次级团体㊂ 小团体可以比拟为一个个的派系, 它是一个网络总体的结构指标, 在研究组织行为时, 是一个特别有用的概念㊂

计算小团体的方法有两类:一类是以节点程度[3]㊁[4]来计算, 一群相连的节点视为一个小团体中描述的k⁃plex㊁k⁃core 和Lambda , Sets㊂ 如文献

类方法是以节点与外界的联系程度来计算该节点应该划分在哪一个小团体中㊂ 另一类是以距离为基础计算小团体的方法clan,n⁃club㊂ , 如文献[5]中描述的n⁃clique,n⁃ 标准, 判定哪些节点应该归为一个小团体中这类方法以两节点的联系距离为衡量

㊂ 以距离为标准来划分团体的方法也存在与节点程度分析法同样的问题, 就是距离阈值的定义㊂ 所以, 是否能在此方法上加入一个新的标准来划分团体, 将是一个重要的研究工作㊂

2. 2  中心性分析

中心性是网络中重要人物的结构位置指标㊂ 评价一个人重要与否, 衡量其职位的优越性或特权性, 以及社会声望等, 常用这一指标㊂ 中心性分成三种形式(Closeness:程度中心性(Degree Centrality)㊁ 亲近中心性ty) [1]程度中心性与中介性是计算一个人在一个团体

Centrality)㊁ 中介性(Betweenness Centrali⁃ 网络中地位的最主要的两项个体结构指标[5]中心性最常用来衡量谁是这个团体中最主要的中心

㊂ 程度人物㊂ 这样的人, 在社会学意义上, 就是最有社会地位的人; 在组织行为学上, 则是最有权力的人㊂ 拥有高中心性的人, 在这个团体中具有主要地位㊂

2. 3  角色分析

网络中的角色意义很重要, 因为角色不同使得人在网络中的位置不同㊂ 在巨大网络中有数以百计

而且i 有一个来自k 的关联, 如果仅仅j 也有一个来自k 的关联, 则行动者i 和j 在结构上是同型的㊂ 意思就是说, 假设有r 种关系, i 和j 这两个人是结构同型的话, 就是任意一个k , 在任何一类关系r 上, i 指向k , 那么j 也会指向k ; 如果k 指向i , 那么k 也指向j ㊂

3  社会网络分析方法在情报学中的

应用现状

2003    国内最早的研究年‘ 情报学报“ 上发表的是包昌火㊁ 谢新洲和申宁在

利用社会网络分析方法分析了‘ 人际网络分析EN(Egocentric “ 一文Net⁃ , works) [6]理㊁ 图书馆资源配置㊂ 随后陆续出现了社会网络分析在知识管㊁ 科学学主题公用词等方面的应用[7~10]国外早在㊂

1972年,Nance 及其合作者就对消息

传播结构进行分析, 利用可获取性和灵活性对信息Rousseau 网络进行分析曾对㊂ CSA 根据文献Sociological [11]所述Abstracts ,E. Otte Database 和R.

(SA)㊁Medline有关社会网络分析的文献进行分析Advanced 和PsycINFO , 在发表论文最三个数据库中多的47位作者中, 就有12位的论文被图书情报学专业数据库LISA 所收录, 足见社会网络分析对图书情报学专业研究也是非常重要和十分有用的㊂ 发展至今, 在合著网络研究和引文网络研究中都取得了巨大的成就㊂

3. 1  合著网络研究

在合著网络研究中, 可以根据研究目的选取一个特定范围的学者, 或者同一个数据库中研究主题相似的作者, 将他们构造成一个社会网络, 每个人是一个节点, 有合著关系的人用直线连接起来, 最后应用社会网络分析方法对其进行分析研究㊂ Liu 等曾选择ACM 和IEEE 各自召开的数字图书馆会议的文献, 以及ACM 和IEEE 联合召开的数字图书馆会议

213

情报学报  第30卷  第2期  2011年2月

JCDL(JointConference on Digital Library) 的文献进行

行为者之间的联系, 所以本文提出的方法主要考虑无向的㊁ 有权重的网络社团图G ={A , E , W }㊂ 其中, A 表示图G 中节点的集合, E 表示图G 中节点之间的边的集合, W 表示每条边对应的权值数㊂

定义1  称与某节点A i 有直接联系的所有节点和A i 组成了A i 的结构, 记为λ (A i ) ㊂ λ (A i ) 表示

研究㊂ 他们首先根据社会网络理论建立起作者之间的合著网络, 然后应用社会网络分析法中的中心性分析法研究该合著网络㊂ 同时还在Page Rank 方法的基础上提出了Author Rank 方法, 并应用该方法对合著网络进行分析㊂ 最后对两种方法的分析结果进行了一定的比较[12]㊂

该节点的结构数㊂

3. 2  引文网络研究

定义2  称某节点A i 与其结构中所有节点的联引文网络(CitationNetwork) 也是以作者为网络节点, 以作者之间的引用关系为网络连线㊂ 引文网络一般是有向网络, 因为作者A 引用了作者B 的文献, 并不代表作者B 就一定引用了作者A 的文献, 所以用无向网络来表示就不太适合, 而需要采用有向网络㊂

情报分析人员利用社会网络分析方法, 扩展了情报研究方法E. Otte 和, 并在此领域取得了丰富的成果R. Rousseau 在论文㊂

[13]中指出, 情报

学家通过互联网将出版物研究㊁ 引证和被引网络合作关系以及其他社会相互作用的形成构成无标度的社会网络, 而在所有这些引文网络研究中, 社会网络分析法都具有广泛的应用㊂

伦敦Facetation 2003年的报告也指出, 引文研究㊁ 信息检索和文献计量是社会网络分析目前在图书情报科学的主要应用领域, 该方法可能在LIS 的三个领域得到发展:社会网络的嵌入性㊁ 互联性和信息传播管制以及网络关联桥的研究㊂ 而引文研究也正包含在网络关联桥的研究中㊂

4  基于核心影响度的社团核心挖掘方法

计算机技术广泛应用于情报的搜集㊁ 加工整理㊁ 存储㊁ 检索㊁ 传输和开发利用㊂ 在大规模网络邮件数据中发现 核心节点” 的最大困难在于, 海量数据中的这些 核心节点” 仅仅是所有节点中的一小部分㊂ 只有通过计算机辅助才能快捷地挖掘出有用的情报, 发现核心人物㊂

本文的基于核心影响度的社团核心挖掘方法, 就是针对网络关键人物发现而提出的㊂ 简单地说, 整个网络中影响力最大的那些节点就是 核心节点”㊂

4. 1  相关定义

由于考虑的范畴是网络社团中行为者的数量和

214

系数总和为该节点的度, 记为d (A i 定义3  节点的中心覆盖性

) ㊂

C (A i ) =(d n (-A i )

λ (A      

=

d (A 1) i )㊃( (n

-λ (i ) -1(n -1) 1) A i 2

) -1)

(1)

其中, n 为网络社团中节点总数, d n (-A i 1)

)

表示该点

的程度中心性值,

λ (A i ) -联系覆盖整个网络节点的百分比(n -1)

1

表示该节点与外界的

㊂ 因此, 式(1)描述

了某个节点对网络所有节点的覆盖程度和影响深度㊂ C (A i 每个节点的平均影响越深) 越大, 节点对网络的覆盖程度越广㊂

, 且对

由公式(1)可以看出, 中心性覆盖虽然能形象地

反映出节点的覆盖程度和影响深度, 但值域却没有范围㊂ 对于不同网络大小的社团, C (A i 异很大㊂

) 的值域差定义4  当网络节点中max[C (A ≤ max[C (A i )]满足10l -1

i 心覆盖性因子)]:

≤ 10l (l =0,1,2,3, ) 时, 定义中σ (A i ) =

C (, σ (A 10A l

i )

(2)

很显然C (A i ) ∈ [0,1]㊂ σ (A i ) 是存在值域的i 之一) ㊂

, 它是衡量某节点是否为核心节点的指标

节点x 与y 的相似度用余弦相似度计算, 记为

cos(x , y ) =

x ㊃ y =n

‖ x x ‖‖ ㊃ y

y ‖

㊂ 其中, ㊃” 表示向量点积, n

∑ k =1x k y k ; ‖ x ‖ 是向量x 的长度, ‖ x ‖ =

k =1x k 2

=㊂ 可以看出, cos(x , y ) 是一个

定义之间的数5  节点㊂

A i 的平均相似度记为avd (A i ) , 则

avd (A i ) =

n

j =1

cos(λ (A A i , A j ) i )

(3)

一种新的网络核心挖掘方法在情报分析中的应用

其中, n 为网络社团中节点总数㊂

其他节点的差异程度, 可用差异因子θ (A i ) 表示:

θ (A i ) =1-avd (A i )

定义6  节点A i 的差异度表示该节点与网络中

(4)

90%㊂ 如果不是, 继续将影响力次大的节点放入核心节点集C 中, 直到满足上述条件, 则核心节点集C

该算法具体描述为:中的节点即为社团核心节点㊂

Step1. 计算网络中所有节点的中心覆盖性Step2. 计算网络中所有节点的平均相似度Step3. 计算所有节点的核心影响度I (A i ) ; Step4. 取社团所有节点中I (A i ) 最大的节点放

[0,1], 所以θ (A i ) ∈ [0,1]㊂ 一般而言, 网络社团之间差异的, 所以当差异因子θ (A i ) 足够大时, 可以

因为cos(A i , A j ) ∈ [0,1], 很显然, avd (A i ) ∈

中的核心成员与普通成员之间的差异大于普通成员

C (A i ) 和中心覆盖性因子σ (A i ) ; avd (A i ) 与差异因子θ (A i ) ;

视该节点为网络图中区别于其他节点的特殊节点㊂ 之一㊂

θ (A i ) 也是衡量某节点是否为核心节点的指标

定义7  节点核心影响度记为I (A i ) , 它同时反

I (A i ) =0. 7σ (A i ) +0. 3θ (A i )

(5)

入核心节点集合C 中;

映了某个节点的中心覆盖性与差异性㊂ 该数据量用来衡量节点是否为核心节点㊂

节点数是否占网络中所有节点数n 的90%, 如是, 继续下一步, 如不是, 删除该节点并跳至Step4; 心节点㊂

Step6. 核心节点集C 中的节点即为网络社团核算法大致由计算节点中心覆盖性㊁ 差异因子和寻找社团中核心节点两个部分组成㊂

4. 3  算法的仿真实验

Step5. 计算与核心节点集合C 中节点有联系的

中心覆盖性反映的是节点的覆盖程度和影响深度两个方面的性质, 差异性反映的是某节点与其他节点的差异度一个方面的性质, 所以式(5) 中的I (A i ) ∈ [0,1]㊂

σ (A i ) 权重为0. 7, θ (A i ) 权重为0. 3㊂ 由此可见,

4. 2  算法描述

计算机生成的网络图已经成为一种标准的测试网络㊂ 把本方法应用到一组随机生成的无向有权图中, 如图1所示㊂ 该网络图是用UCINET 软件随机生成的20个节点组成的网络社团, 模拟20个人之间的邮件通信情况㊂ 2㊁ 图3所示㊂

各节点的度d (A i ) 和结构数λ (A i ) 分别如图

在基于节点核心影响度的社团核心发现方法中, 首先需要了解节点间的相互关系和权值数, 然后分别计算网络社团中每个节点的中心覆盖性因子和差异度因子, 进而计算节点的核心影响度㊂ 当然, 影响力越大的节点其核心影响度也越大㊂ 从节点核心影响度I (A i ) 最大的节点开始, 将该节点放入核心节点集C 中, 计算此时与集合C 中的节点有联系的网络节点数是否超过网络社团中所有节点数的

各节点的中心覆盖性因子㊁ 差异因子和节点核

心影响度如图4所示

图1  计算机随机生成的网络图

215

216

情报学报  第30卷  第2期  2011年2月

 

 

图2  各节点的d (A i )

 

图3  各节点的结构数λ (A i )

图4  各节点的θ (A i ) ㊁ σ (A i ) 和I (A i )

图5  节点A 3和A 17的网络覆盖图

一种新的网络核心挖掘方法在情报分析中的应用

5个节点分别如表1所示㊂

    从结果中得出, θ (A i ) ㊁ σ (A i ) 和I (A i ) 最大的

一致的㊂ 运用程度中心性计算出的前5个节点和基    可以看出, 两种方法得到的前两个核心节点是

表1  θ (A i ) ㊁ σ (A i ) 和I (A i ) 的前5个节点

θ (1i A σ (A )  

A i )

2A A i ) A 12A 3A 3

A I (317A A A 17437

A 5

55

A A 6A 11

A 159A 1519

最终得到的核心集中, 节点为A 3和A 17㊂ 两个节

100%点与网络社团其他节点的联系覆盖了整个网络的

㊂ 以节点A 3和A 17为中心的网络如图5所示㊂

4. 4  实验结果分析

由于计算机生成随机网络社团没有真实情况作比对依据, 要证明基于节点核心影响度的准确性, 还需要用经典的社会网络分析方法给与证明㊂

利用UCINET 中的Degree Centrality 命令, 对这个包含20个随机产生的节点的网络社团进行分析, 结果如表2所示㊂ 计算结果显示, 中心度排名前5位的节点分别是A 3㊁ A 17㊁ A 15㊁ A 5和A 12㊂

表2  UCINET 分析结果1

A A 3

Degree

2

189NrmDegree

3Share

0. A 171512321. 13. 1650. 088A 0. 057A 5

12111713. 7740. 056A 1211713. 550. 054A 911313. 102A 1911312. 10212. 6540. 054A 1611012. 6540. 053A 13210912. 3180. 053A 11. 2060. 051A 710610511. 870. 051A 410511. 7580. 049A 110411. 7580. 049A 610211. 6460. 049A 2010211. 4220. 048A [1**********]. 4220. 047849. 0. 047A 829. 634220. 04047A 1160

9. 4060. 039A 188

6. 183719

0. 0. 038028

于节点核心度的方法得到的第3㊁4 位的顺序变了, 第5位节点不一样㊂ 程度中心度方法没有考虑节点在网络中的覆盖程度, 是直接导致两种方法结果出现些许差别的根本原因㊂

在运用UCINET 中Degree Centrality 命令得出的结果中, A 位, 而基于节点核心度的方法

中, A 12排在第512的节点核心度在20个节点中排第15位, 这充分说明节点的度不是判定核心节点的唯一标准, 网

络覆盖程度与差异性也是衡量标准之一㊂

通过以上实验和数据分析, 说明基于节点核心影响度的社团核心发现方法, 从联系覆盖范围㊁ 影响深度和差异性三方面全面考量了网络社团中的所有节点, 在情报分析中是切实可行的新方法㊂ 5  结论与展望

社会网络分析方法运用于情报学领域, 带来了巨大的革命㊂ 本文提出的基于核心影响度的社团核心挖掘方法在科学情报领域的应用中表现出较好的信服力与合理性, 能够有效地发现社团中的关键人物㊂ 不足的是, 本文仅仅考虑了网络中人与人之间的关系, 而联系的实际内容并没有研究㊂ 如何结合语义分析对社会网络进行分析, 并运用在情报学中, 这是目前正在研究的工作㊂

参  考  文  献

[1] 罗家德版社, 2005:5⁃8.

. 社会网分析讲义[M].北京:社会科学文献出

[2] Doreian Graphs [M]∥P. A Note on the Detection of Cliques in Valued [3] networks Sparrowe and R T, JSTOR. the Linden Sociometry, R C, Kraimer 1969,32:237⁃242.

M L. Social

[4] Wasserman 316⁃325.

[J].Academy of Management performance of Journal individuals , 2001, and 44(2):

groups

and Applications[M].S, Faust K. Cambridge Social Network University Analysis:Press, Methods [5] 刘军1994.

版社. , 社会网络分析导论2004:116,160⁃163.

[M].北京:社会科学文献出

[6] 包昌火2003,22(3):365⁃374.

, 谢新洲, 申宁. 人际网络分析[J].情报学报, [7] 王平[J].. 情报资料工作基于社会网络分析的组织隐性知识共享研究[8] 殷国鹏, 莫云生, 陈禹, 2006(2):. 利用社会网络分析促进隐性

102⁃104,107. 217

情报学报  第30卷  第2期  2011年2月

知识管理[J].清华大学学报:自然科学版,2006,46

[12]  Liu X M, Bollen J, Nelson M L, et al. Co⁃authorship

1462⁃1480.

Information Processing and Management, 2005, 41:networks in the digital library research community[J].

[9] 高凡, 徐引篪. 图书馆联盟的社会网络资源配置[J].[10] 刘则渊, 尹丽春. 国际科学学主题共词网络的可视化[11] Otte E, Rousseau R. Social network analysis:a powerful

Information Science, 2002, 28(6):441⁃453.

strategy, also for the information science [J].Journal of 研究[J].情报学报, 2006, 25(5):634⁃640中国图书馆学报, 2006(3):l4⁃l6, 27.

(s1):946⁃969.

[13] Otte E, Rousseau R. Social network analysis:a powerful

Information Science, 2002, 28(6):441⁃453.

strategy, also for the information sciences[J].Journal of

(责任编辑  许增棋)

218

情报学报     

doi:10.3772/j. issn. 1000⁃0135. 2011. 02. 014

=

ISSN 1000-0135第30卷第2期212-218, 2011年2月

JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC AND TECHNICAL INFORMATION ISSN 1000-0135

February 2011Vol. 30No. 2, 212-218

一种新的网络核心挖掘方法在情报分析中的应用1)

田  宏  万果锋

(大连交通大学软件学院, 大连116028)

摘要    现代化信息技术和手段在科学情报领域的应用是情报学的重要内容之一㊂ 基于社会网络分析的中心性

分析, 本文提出了一种基于节点核心影响度的网络核心挖掘方法㊂ 该方法用中心覆盖性因子和差异因子作为考量标准, 从节点联系的覆盖范围㊁ 影响程度和与其他节点的差异性三个方面全面衡量网络中的全部节点, 从而找出核心节点, 并将其应用在网络情报分析中㊂ 实验表明该方法具有很高的准确性和很好的合理性㊂

关键词    社会网络分析  中心覆盖性因子  差异因子  影响度

Application of a New Network Core Mining Method in Information Analysis

Tian Hong and Wan Guofeng

(School of Software , Dalian Jiaotong University , Dalian 116028)

reasonableness of this method.

discover the core node. We applied in network information analysis. The experiment shows the high accuracy and

from the node coverage, influence level and differences with the other nodes, totally measure all the network nodes, and

which based on core effect. It uses centre coverage factor, difference factor as consideration standards. The method is linked

domain. Based on the centrality analysis of social network analysis, this paper puts forward the network core mining method

Abstract     The application of modern information technologies is one of important part in the scientific information

Keywords     social network analysis, centre coverage factor, difference factor, core effect

映了人在网络社团中的地位与角色㊂ 本文在社会网络分析法的中心性分析方法的基础上, 提出一种新的网络核心挖掘方法:基于节点核心影响度的核心发现方法㊂ 用该方法分析和挖掘网络社团中的核心人物, 是现代化信息技术和手段在科学情报领域中的应用㊂

1  前  言

随着计算机网络的飞速发展, 海量的电子交换数据(邮件㊁ 博客㊁ 论坛等) 充塞其中㊂ 从安然公司倒闭丑闻到 911” 恐怖袭击, 从伦敦地铁爆炸案到我国乌市 7. 5” 事件, 越来越多的重要信息都出现在了这些看似杂乱无章的网络数据中㊂ 如何从搜集到的网络信息中分析各种社团和社团内部关系, 以达到分析社会网络关系和预防犯罪的目的, 已经迫在眉睫㊂

对于网络信息而言, 人与人之间的相互联系反

2  社会网络分析方法简述

社会网结构解释社会现象[1], 用 网” 的隐喻来解释

社会网络分析强调用人际关系㊁ 关系内涵以及

生活中人们之间的关系和互动㊂ 社会网络是一组人

收稿日期:2009年12月9日

作者简介:田宏, 女,1968年生, 大连交通大学软件学院副教授, 博士, 研究方向:人工智能㊁ 数据挖掘㊂ 万果锋, 男,1982年生, 大连交通大学软件学院研究生, 研究方向:数据挖掘㊂ E⁃mail:vanguofeng@ gmail. com㊂

1)  辽宁省教育厅计划项目(2008093)㊂212

一种新的网络核心挖掘方法在情报分析中的应用

或群体形成的一组独特的关系, 这些关系是传递物质㊁ 信息㊁ 观念㊁ 情感等资源的纽带㊂ 社会网络分析实现了个体与整体㊁ 宏观与微观的结合㊂

社会网络分析将网络中行为者之间的关系进行量化研究, 将行为者作为节点, 行为者之间的关系用节点连线表示, 从而形成了一个网络图㊂ 具体的分析方法有小团体分析㊁ 中心性分析㊁ 角色分析等㊂

2. 1  小团体分析

千计乃至万计的节点, 如果按其关系构建网络图, 一般人无法看清楚, 想研究谈何容易㊂ 角色分析就是将在网络中扮演相同或接近角色的人归纳为一类, 分析出一群人和一群人之间的关系㊂ 在角色分析方法中, 这一群人指的是一群结构同型的人㊂

结构同型[5]指的是:如果对所有的行动者来说, k =1,2,3, , g (k ≠ i , j ), 而且所有关系r =1,2, , R , 行动者i 与k 有关联; 如果仅仅j 也与k 有关联, 小团体(subgroup或称cliques) [2]是指团体中的一小群人关系特别紧密, 以至于结合成一个次级团体㊂ 小团体可以比拟为一个个的派系, 它是一个网络总体的结构指标, 在研究组织行为时, 是一个特别有用的概念㊂

计算小团体的方法有两类:一类是以节点程度[3]㊁[4]来计算, 一群相连的节点视为一个小团体中描述的k⁃plex㊁k⁃core 和Lambda , Sets㊂ 如文献

类方法是以节点与外界的联系程度来计算该节点应该划分在哪一个小团体中㊂ 另一类是以距离为基础计算小团体的方法clan,n⁃club㊂ , 如文献[5]中描述的n⁃clique,n⁃ 标准, 判定哪些节点应该归为一个小团体中这类方法以两节点的联系距离为衡量

㊂ 以距离为标准来划分团体的方法也存在与节点程度分析法同样的问题, 就是距离阈值的定义㊂ 所以, 是否能在此方法上加入一个新的标准来划分团体, 将是一个重要的研究工作㊂

2. 2  中心性分析

中心性是网络中重要人物的结构位置指标㊂ 评价一个人重要与否, 衡量其职位的优越性或特权性, 以及社会声望等, 常用这一指标㊂ 中心性分成三种形式(Closeness:程度中心性(Degree Centrality)㊁ 亲近中心性ty) [1]程度中心性与中介性是计算一个人在一个团体

Centrality)㊁ 中介性(Betweenness Centrali⁃ 网络中地位的最主要的两项个体结构指标[5]中心性最常用来衡量谁是这个团体中最主要的中心

㊂ 程度人物㊂ 这样的人, 在社会学意义上, 就是最有社会地位的人; 在组织行为学上, 则是最有权力的人㊂ 拥有高中心性的人, 在这个团体中具有主要地位㊂

2. 3  角色分析

网络中的角色意义很重要, 因为角色不同使得人在网络中的位置不同㊂ 在巨大网络中有数以百计

而且i 有一个来自k 的关联, 如果仅仅j 也有一个来自k 的关联, 则行动者i 和j 在结构上是同型的㊂ 意思就是说, 假设有r 种关系, i 和j 这两个人是结构同型的话, 就是任意一个k , 在任何一类关系r 上, i 指向k , 那么j 也会指向k ; 如果k 指向i , 那么k 也指向j ㊂

3  社会网络分析方法在情报学中的

应用现状

2003    国内最早的研究年‘ 情报学报“ 上发表的是包昌火㊁ 谢新洲和申宁在

利用社会网络分析方法分析了‘ 人际网络分析EN(Egocentric “ 一文Net⁃ , works) [6]理㊁ 图书馆资源配置㊂ 随后陆续出现了社会网络分析在知识管㊁ 科学学主题公用词等方面的应用[7~10]国外早在㊂

1972年,Nance 及其合作者就对消息

传播结构进行分析, 利用可获取性和灵活性对信息Rousseau 网络进行分析曾对㊂ CSA 根据文献Sociological [11]所述Abstracts ,E. Otte Database 和R.

(SA)㊁Medline有关社会网络分析的文献进行分析Advanced 和PsycINFO , 在发表论文最三个数据库中多的47位作者中, 就有12位的论文被图书情报学专业数据库LISA 所收录, 足见社会网络分析对图书情报学专业研究也是非常重要和十分有用的㊂ 发展至今, 在合著网络研究和引文网络研究中都取得了巨大的成就㊂

3. 1  合著网络研究

在合著网络研究中, 可以根据研究目的选取一个特定范围的学者, 或者同一个数据库中研究主题相似的作者, 将他们构造成一个社会网络, 每个人是一个节点, 有合著关系的人用直线连接起来, 最后应用社会网络分析方法对其进行分析研究㊂ Liu 等曾选择ACM 和IEEE 各自召开的数字图书馆会议的文献, 以及ACM 和IEEE 联合召开的数字图书馆会议

213

情报学报  第30卷  第2期  2011年2月

JCDL(JointConference on Digital Library) 的文献进行

行为者之间的联系, 所以本文提出的方法主要考虑无向的㊁ 有权重的网络社团图G ={A , E , W }㊂ 其中, A 表示图G 中节点的集合, E 表示图G 中节点之间的边的集合, W 表示每条边对应的权值数㊂

定义1  称与某节点A i 有直接联系的所有节点和A i 组成了A i 的结构, 记为λ (A i ) ㊂ λ (A i ) 表示

研究㊂ 他们首先根据社会网络理论建立起作者之间的合著网络, 然后应用社会网络分析法中的中心性分析法研究该合著网络㊂ 同时还在Page Rank 方法的基础上提出了Author Rank 方法, 并应用该方法对合著网络进行分析㊂ 最后对两种方法的分析结果进行了一定的比较[12]㊂

该节点的结构数㊂

3. 2  引文网络研究

定义2  称某节点A i 与其结构中所有节点的联引文网络(CitationNetwork) 也是以作者为网络节点, 以作者之间的引用关系为网络连线㊂ 引文网络一般是有向网络, 因为作者A 引用了作者B 的文献, 并不代表作者B 就一定引用了作者A 的文献, 所以用无向网络来表示就不太适合, 而需要采用有向网络㊂

情报分析人员利用社会网络分析方法, 扩展了情报研究方法E. Otte 和, 并在此领域取得了丰富的成果R. Rousseau 在论文㊂

[13]中指出, 情报

学家通过互联网将出版物研究㊁ 引证和被引网络合作关系以及其他社会相互作用的形成构成无标度的社会网络, 而在所有这些引文网络研究中, 社会网络分析法都具有广泛的应用㊂

伦敦Facetation 2003年的报告也指出, 引文研究㊁ 信息检索和文献计量是社会网络分析目前在图书情报科学的主要应用领域, 该方法可能在LIS 的三个领域得到发展:社会网络的嵌入性㊁ 互联性和信息传播管制以及网络关联桥的研究㊂ 而引文研究也正包含在网络关联桥的研究中㊂

4  基于核心影响度的社团核心挖掘方法

计算机技术广泛应用于情报的搜集㊁ 加工整理㊁ 存储㊁ 检索㊁ 传输和开发利用㊂ 在大规模网络邮件数据中发现 核心节点” 的最大困难在于, 海量数据中的这些 核心节点” 仅仅是所有节点中的一小部分㊂ 只有通过计算机辅助才能快捷地挖掘出有用的情报, 发现核心人物㊂

本文的基于核心影响度的社团核心挖掘方法, 就是针对网络关键人物发现而提出的㊂ 简单地说, 整个网络中影响力最大的那些节点就是 核心节点”㊂

4. 1  相关定义

由于考虑的范畴是网络社团中行为者的数量和

214

系数总和为该节点的度, 记为d (A i 定义3  节点的中心覆盖性

) ㊂

C (A i ) =(d n (-A i )

λ (A      

=

d (A 1) i )㊃( (n

-λ (i ) -1(n -1) 1) A i 2

) -1)

(1)

其中, n 为网络社团中节点总数, d n (-A i 1)

)

表示该点

的程度中心性值,

λ (A i ) -联系覆盖整个网络节点的百分比(n -1)

1

表示该节点与外界的

㊂ 因此, 式(1)描述

了某个节点对网络所有节点的覆盖程度和影响深度㊂ C (A i 每个节点的平均影响越深) 越大, 节点对网络的覆盖程度越广㊂

, 且对

由公式(1)可以看出, 中心性覆盖虽然能形象地

反映出节点的覆盖程度和影响深度, 但值域却没有范围㊂ 对于不同网络大小的社团, C (A i 异很大㊂

) 的值域差定义4  当网络节点中max[C (A ≤ max[C (A i )]满足10l -1

i 心覆盖性因子)]:

≤ 10l (l =0,1,2,3, ) 时, 定义中σ (A i ) =

C (, σ (A 10A l

i )

(2)

很显然C (A i ) ∈ [0,1]㊂ σ (A i ) 是存在值域的i 之一) ㊂

, 它是衡量某节点是否为核心节点的指标

节点x 与y 的相似度用余弦相似度计算, 记为

cos(x , y ) =

x ㊃ y =n

‖ x x ‖‖ ㊃ y

y ‖

㊂ 其中, ㊃” 表示向量点积, n

∑ k =1x k y k ; ‖ x ‖ 是向量x 的长度, ‖ x ‖ =

k =1x k 2

=㊂ 可以看出, cos(x , y ) 是一个

定义之间的数5  节点㊂

A i 的平均相似度记为avd (A i ) , 则

avd (A i ) =

n

j =1

cos(λ (A A i , A j ) i )

(3)

一种新的网络核心挖掘方法在情报分析中的应用

其中, n 为网络社团中节点总数㊂

其他节点的差异程度, 可用差异因子θ (A i ) 表示:

θ (A i ) =1-avd (A i )

定义6  节点A i 的差异度表示该节点与网络中

(4)

90%㊂ 如果不是, 继续将影响力次大的节点放入核心节点集C 中, 直到满足上述条件, 则核心节点集C

该算法具体描述为:中的节点即为社团核心节点㊂

Step1. 计算网络中所有节点的中心覆盖性Step2. 计算网络中所有节点的平均相似度Step3. 计算所有节点的核心影响度I (A i ) ; Step4. 取社团所有节点中I (A i ) 最大的节点放

[0,1], 所以θ (A i ) ∈ [0,1]㊂ 一般而言, 网络社团之间差异的, 所以当差异因子θ (A i ) 足够大时, 可以

因为cos(A i , A j ) ∈ [0,1], 很显然, avd (A i ) ∈

中的核心成员与普通成员之间的差异大于普通成员

C (A i ) 和中心覆盖性因子σ (A i ) ; avd (A i ) 与差异因子θ (A i ) ;

视该节点为网络图中区别于其他节点的特殊节点㊂ 之一㊂

θ (A i ) 也是衡量某节点是否为核心节点的指标

定义7  节点核心影响度记为I (A i ) , 它同时反

I (A i ) =0. 7σ (A i ) +0. 3θ (A i )

(5)

入核心节点集合C 中;

映了某个节点的中心覆盖性与差异性㊂ 该数据量用来衡量节点是否为核心节点㊂

节点数是否占网络中所有节点数n 的90%, 如是, 继续下一步, 如不是, 删除该节点并跳至Step4; 心节点㊂

Step6. 核心节点集C 中的节点即为网络社团核算法大致由计算节点中心覆盖性㊁ 差异因子和寻找社团中核心节点两个部分组成㊂

4. 3  算法的仿真实验

Step5. 计算与核心节点集合C 中节点有联系的

中心覆盖性反映的是节点的覆盖程度和影响深度两个方面的性质, 差异性反映的是某节点与其他节点的差异度一个方面的性质, 所以式(5) 中的I (A i ) ∈ [0,1]㊂

σ (A i ) 权重为0. 7, θ (A i ) 权重为0. 3㊂ 由此可见,

4. 2  算法描述

计算机生成的网络图已经成为一种标准的测试网络㊂ 把本方法应用到一组随机生成的无向有权图中, 如图1所示㊂ 该网络图是用UCINET 软件随机生成的20个节点组成的网络社团, 模拟20个人之间的邮件通信情况㊂ 2㊁ 图3所示㊂

各节点的度d (A i ) 和结构数λ (A i ) 分别如图

在基于节点核心影响度的社团核心发现方法中, 首先需要了解节点间的相互关系和权值数, 然后分别计算网络社团中每个节点的中心覆盖性因子和差异度因子, 进而计算节点的核心影响度㊂ 当然, 影响力越大的节点其核心影响度也越大㊂ 从节点核心影响度I (A i ) 最大的节点开始, 将该节点放入核心节点集C 中, 计算此时与集合C 中的节点有联系的网络节点数是否超过网络社团中所有节点数的

各节点的中心覆盖性因子㊁ 差异因子和节点核

心影响度如图4所示

图1  计算机随机生成的网络图

215

216

情报学报  第30卷  第2期  2011年2月

 

 

图2  各节点的d (A i )

 

图3  各节点的结构数λ (A i )

图4  各节点的θ (A i ) ㊁ σ (A i ) 和I (A i )

图5  节点A 3和A 17的网络覆盖图

一种新的网络核心挖掘方法在情报分析中的应用

5个节点分别如表1所示㊂

    从结果中得出, θ (A i ) ㊁ σ (A i ) 和I (A i ) 最大的

一致的㊂ 运用程度中心性计算出的前5个节点和基    可以看出, 两种方法得到的前两个核心节点是

表1  θ (A i ) ㊁ σ (A i ) 和I (A i ) 的前5个节点

θ (1i A σ (A )  

A i )

2A A i ) A 12A 3A 3

A I (317A A A 17437

A 5

55

A A 6A 11

A 159A 1519

最终得到的核心集中, 节点为A 3和A 17㊂ 两个节

100%点与网络社团其他节点的联系覆盖了整个网络的

㊂ 以节点A 3和A 17为中心的网络如图5所示㊂

4. 4  实验结果分析

由于计算机生成随机网络社团没有真实情况作比对依据, 要证明基于节点核心影响度的准确性, 还需要用经典的社会网络分析方法给与证明㊂

利用UCINET 中的Degree Centrality 命令, 对这个包含20个随机产生的节点的网络社团进行分析, 结果如表2所示㊂ 计算结果显示, 中心度排名前5位的节点分别是A 3㊁ A 17㊁ A 15㊁ A 5和A 12㊂

表2  UCINET 分析结果1

A A 3

Degree

2

189NrmDegree

3Share

0. A 171512321. 13. 1650. 088A 0. 057A 5

12111713. 7740. 056A 1211713. 550. 054A 911313. 102A 1911312. 10212. 6540. 054A 1611012. 6540. 053A 13210912. 3180. 053A 11. 2060. 051A 710610511. 870. 051A 410511. 7580. 049A 110411. 7580. 049A 610211. 6460. 049A 2010211. 4220. 048A [1**********]. 4220. 047849. 0. 047A 829. 634220. 04047A 1160

9. 4060. 039A 188

6. 183719

0. 0. 038028

于节点核心度的方法得到的第3㊁4 位的顺序变了, 第5位节点不一样㊂ 程度中心度方法没有考虑节点在网络中的覆盖程度, 是直接导致两种方法结果出现些许差别的根本原因㊂

在运用UCINET 中Degree Centrality 命令得出的结果中, A 位, 而基于节点核心度的方法

中, A 12排在第512的节点核心度在20个节点中排第15位, 这充分说明节点的度不是判定核心节点的唯一标准, 网

络覆盖程度与差异性也是衡量标准之一㊂

通过以上实验和数据分析, 说明基于节点核心影响度的社团核心发现方法, 从联系覆盖范围㊁ 影响深度和差异性三方面全面考量了网络社团中的所有节点, 在情报分析中是切实可行的新方法㊂ 5  结论与展望

社会网络分析方法运用于情报学领域, 带来了巨大的革命㊂ 本文提出的基于核心影响度的社团核心挖掘方法在科学情报领域的应用中表现出较好的信服力与合理性, 能够有效地发现社团中的关键人物㊂ 不足的是, 本文仅仅考虑了网络中人与人之间的关系, 而联系的实际内容并没有研究㊂ 如何结合语义分析对社会网络进行分析, 并运用在情报学中, 这是目前正在研究的工作㊂

参  考  文  献

[1] 罗家德版社, 2005:5⁃8.

. 社会网分析讲义[M].北京:社会科学文献出

[2] Doreian Graphs [M]∥P. A Note on the Detection of Cliques in Valued [3] networks Sparrowe and R T, JSTOR. the Linden Sociometry, R C, Kraimer 1969,32:237⁃242.

M L. Social

[4] Wasserman 316⁃325.

[J].Academy of Management performance of Journal individuals , 2001, and 44(2):

groups

and Applications[M].S, Faust K. Cambridge Social Network University Analysis:Press, Methods [5] 刘军1994.

版社. , 社会网络分析导论2004:116,160⁃163.

[M].北京:社会科学文献出

[6] 包昌火2003,22(3):365⁃374.

, 谢新洲, 申宁. 人际网络分析[J].情报学报, [7] 王平[J].. 情报资料工作基于社会网络分析的组织隐性知识共享研究[8] 殷国鹏, 莫云生, 陈禹, 2006(2):. 利用社会网络分析促进隐性

102⁃104,107. 217

情报学报  第30卷  第2期  2011年2月

知识管理[J].清华大学学报:自然科学版,2006,46

[12]  Liu X M, Bollen J, Nelson M L, et al. Co⁃authorship

1462⁃1480.

Information Processing and Management, 2005, 41:networks in the digital library research community[J].

[9] 高凡, 徐引篪. 图书馆联盟的社会网络资源配置[J].[10] 刘则渊, 尹丽春. 国际科学学主题共词网络的可视化[11] Otte E, Rousseau R. Social network analysis:a powerful

Information Science, 2002, 28(6):441⁃453.

strategy, also for the information science [J].Journal of 研究[J].情报学报, 2006, 25(5):634⁃640中国图书馆学报, 2006(3):l4⁃l6, 27.

(s1):946⁃969.

[13] Otte E, Rousseau R. Social network analysis:a powerful

Information Science, 2002, 28(6):441⁃453.

strategy, also for the information sciences[J].Journal of

(责任编辑  许增棋)

218


相关内容

  • 电子数据侦查
  • 从电子数据取证到电子数据侦查 摘要 从1999年美国出现第一款商用计算机取证工具并随后引入中国,从2013年<刑事诉讼法>首次确立"电子数据"作为证据的法律地位至今,电子数据取证技术和产品已经在司法机关得到广泛应用.然而,电子数据取证以技术为先的理念极大地限制了其自身 ...

  • 文献计量法与内容分析法的比较研究
  • 文献计量法是一种以各种文献外部特征为研究对象的量化分析方法;而内容分析法本质上是文献计量学方法,它是从定性的问题假设出发,应用定量的统计分析工具对研究对象进行处理,然后从统计数据可分析得出有价值的定性结论.文献计量法与内容分析法都是常见的科学研究及情报研究方法,两者有一定联系,但同时又不完全相同,如 ...

  • 大数据分析研究现状_问题与对策_官思发
  • 第34卷第5期2015年5月 情报杂志 JOURNALOF INTELLIGENCE Vol.34No.5May 2015 大数据分析研究现状.问题与对策 官思发 1 * 孟玺 2 李宗洁 3 刘扬 4 (1.中国人民大学信息资源管理学院 3.对外经济贸易大学国际商学院 摘 要 北京100872:2 ...

  • 公安大数据应用研究
  • 公安大数据应用研究 王楠韩鹏霄 公安部第一研究所 摘要:主要介绍了大数据的背景.概念及公安大数据建设的重点内容,并通过一组案例简单介绍了公安大数据的应用, 为公安大数据建设和应用提供借鉴.关键词:大数据应用 平台架构 公共安全 一.引言 信息技术革命与经济社会活动的交融催生了大数据.2015年8月, ...

  • 情报学研究现状.未来发展途径及前景
  • 情报学研究现状.未来发展途径及前景 王梅 (保山市科技情报研究所678000) 摘要:现阶段,情报学研究人员对情报学的问题存在着各种争议,并没有统一表述其性质.研究对象与内容等,意思就是说,情报学的基础理论知识缺乏统一性,还不够成熟,但是它的作用与研究成果是信息化社会的强大支柱.本文主要研究情报学的 ...

  • 信息组织技术的现状与发展趋势
  • 信息组织技术研究的现状与发展趋势 帅鹏(10056052) 近十年来,特别是近五年来,传统图书馆学.情报学中的检索语言领域(包括分类法.主题法.索引法,以及文献信息标引和检索等)已经成为最活跃.最具生命力.成果最多的学科,由于"检索语言"(或情报语言)已经很难概括它发展和延伸的领 ...

  • 竞争情报论文
  • 一.竞争情报系统的构成.作用及其发展趋势 竞争情报系统,又名CIS,是Competitive Intelligence System的缩写,是企业竞争战略管理实践中新出现的概念.竞争情报系统可为企业取得竞争优势提供强有力的信息支持和情报保障,是企业领导集团在经营战略和竞争决策过程中的"总参 ...

  • 流量内容词语相关度的网络热点话题提取
  • 第41卷第lO期 2007年10月 西安交通大学学报 JOURNAI.OFXI'ANJIAOTONGUNIVERSITY Vol41№10Oct.2007 流量内容词语相关度的网络热点话题提取 周亚东"2,孙钦东"2-,管晓宏1.23.4,李卫"2,陶敬"2 ...

  • 学术论文中方法知识元的类型与描述规则研究
  • 作者:化柏林 中国图书馆学报 2016年04期 分类号G302 DOI:10.13530/j.cnki.jlis.160003 0 引言 作为知识的重要载体,学术论文是科研成果的重要体现与科研创新的结晶.在学术论文中,方法的描述是科学知识的一种重要类型.随着学术论文数量的急速增长,仅靠人力已经难以胜 ...