摘 要:对COMAP提供的18 000个合著者数据进行了网络分析,并寻找出核心作者。首先通过统计函数COUNTIF对数据冗余进行处理,而后建立合著行为的人物关系网络模型,寻找核心作者圈,通过中心度、紧密度等分析确定核心人物;而后进行群集分析,对合著者网络分块,找到重要群集,分析其中的核心人物;经过分析得出合著者中的重要核心人物。
关键词:核心作者;科研合作;合著网络
DOI:10.11907/rjdk.143504
中图分类号:TP391
文献标识码:A 文章编号:1672-7800(2014)012-0141-03
作者简介:刘智鹏(1992-),男,四川成都人,重庆邮电大学软件工程学院学生,研究方向为数据挖掘及计算机网络。
0 引言
研究发现,欲建立一个基于超过18 000 条原始数据的Erdos1合著者网络,首先需要进行数据处理,剔除无效数据,保留有效数据。无效数据是指Erdos1 文件中外界的人员关系,即与网络相关性甚小的节点。本文建立了数据筛选模型,运用COUNTIF函数对原始数据进行预处理<sup>[1]</sup>,即计算出各节点的关联次数,并从17 783个原始节点中剔除相关度小的无效节点。
1 基于合著行为的人物关系网络模型
1.1 数据处理
建立数据筛选模型,将数据进行有效化处理。由于数据材料中各合作者均有合著关系,且合作相关性至少为1,即每一著作者均至少与一人合著文章。用合作的相关度λ代表与其他著作者合作,λi=x表示第i位著作者与x个人合著过文章。x越大,表示该著作者影响力越大,当x≤2,称之为(较)边缘节点,在实际网络模型中,边缘节点对整个网络影响不大,为便于处理,舍弃边缘节点。
运用COUNTIF函数对原始数据进行预处理。COUNTIF函数是Microsoft Excel中对指定区域符合指定条件的单元格计数的一个函数,其语法为:COUNTIF(range,criteria),其中Range参数是单元格区域,即范围;Criteria参数是为确定哪些单元格计算在内的条件,其形式可以为数字、表达式或文本,即条件。
将原始节点数据导入Excel表格,输入函数:=COUNTIF(G:G,Gi) i=1,2,…,得出各节点相关度矩阵。为便于剔除无效节点,首先将各节点相关度矩阵可视化,画出相关度矩阵散点图以便于分析。由图1可见,相关度甚小的节点对合著者网络影响较小。为增强网络可视性,将结果矩阵元素升序排列,并将相关度λi=x≤2的节点剔除,仅保留λi=x>2的节点,得到有效节点矩阵。
1.2 基于合著行为的人物关系网络模型建立
将各合著者视为每一单独节点,将合著关系视为连接曲线,运用图论理论,在各节点间建立相关性,从而得出合著者网络。合著网络中存在核心成员与普通成员,网络核心就是那些具有较高相关性的网络节点,即具有较高影响力的著作者。
这里,合著关系即为0—1关系,1代表有联系,0代表无联系。需要将所有的信息以矩阵形式输入到网络中,并用几个定义的宏观量来衡量网络的密度特征,从而找出最核心的成员。
人物关系的建立是基于合著行为的,如果一个人的相关系数越大,他的学术影响力就越大,所得人物关系网络为1 387×1 387矩阵,这里的1 387是有效节点数。
1.3 普遍性社交网络构建
(1)网络建立。这里使用社群图,用社群矩阵来表达相互关系。社群图主要由点(代表行动者)和线(代表行动者之间的关系)构成。社群图中的点集可以表示为:
N=(n<sub>1</sub>,n<sub>2</sub>,...,ng)(1)
一个群体成员之间的关系可以用一个由点和线连成的图表示。
(2)几何量定义。对于社会网络的研究除了考虑度、路径、聚集度以外,还会考虑中介度、连通性、接近度等几何量。这些几何量的基本含义如下:
节点度:节点 v∈V(G),则节点v的节点度d(v)=|{vj,,(v,vj)or(vj,v)∈E(G)}|
这是描述网络局部特性的基本参数,度分布函数反映了网络系统的宏观统计特征。理论上利用度分布可以计算出其它表征全局特性参数的量化数值。
路径:对于s,t∈V是一组边和顶点的交替序列,开始于顶点s,结束于顶点t。每一个边关联它的前项和后项顶点,其中路径中边的个数称为这条路径的长度。从s到t所经历的边的数量最少的路径,称为从s到t的最短路径,图1是所有节点对间的平均最短路径平均值,反映了网络的尺寸,因此通常叫做网络直径。
聚集度:设节点v有dv个邻居,那么邻居之间最多有Dy*(dy-1)/2条边,聚集度等于邻居间实际边数除以m的商。聚集度描绘了表1中出现的小集团特性,无标度网络的特征主要反映在聚集度上。
中介度:反应了节点的影响能力。设顶点为v,σ表示从顶点s到t的最短路径的个数, σ(v)表示顶点v从s到t的最短路径中出现的个数,则节点v的中介度
C=∑σvσ(2)
紧密度:用C表示节点v的紧密度,则
C=1∑dσ(v,t)(3)
紧密度表示了节点传播信息的能力。
1.4 针对合著行为的网络构建
(1)网格分析。①网络中的节点代表著作者,节点间的边表示著作者之间的合著关系,如合著关系成立,则表示二者之间合作出版过刊物;②各节点在网络中的作用或者“位置”基本不同,核心成员具有较多合著关系,在Erdos1网络中具有一定的影响力,属于网络的少数;③由于合著关系错综复杂,彼此之间有着直接或间接的关联,大的合著网络往往由几个子合著团组成,在整个集团中各子合著团起着不同的功能作用;④各网络成员或合著团并不是孤立存在的,团伙间存在一些联系和交互。
(2)核心成员挖掘。通过合著行为来求整个团体的核心成员,采用中心度来衡量。中心度是在社会网络中,一个行动者与其他很多行动者有直接联系,该行动者就处在中心地位,即朋友越多,越显示出节点的重要性。可以节点的入度(度)表示点度中心度,即点度中心度可以衡量一个人在这个群体中的核心度,即所求的具有影响力的关键人物。
(3)模型建立。中心度:根据实际情况,为便于计算,中心度采用联系度与中介度的和与紧密度的比值:
ds(v)=db(v)+d(v)dc(v)(4)
(4)处理思路。通过得出的中心度大小进行排序,中心度大的著作者判定为核心成员,即所谓的具有影响力的关键人物。同时参考联系度、紧密度、中介度等数值。
1.5 针对合著行为的网络构建软件实现
由于所处理的数据多且复杂,因此采用计算机处理。将筛选后的节点人物姓名按相关度从小至大的顺序记为a<sub>1</sub>,a<sub>2</sub>...,输入1 387个人之间的关系,得到1 387个人每个人的节点中心度,图1是Ucinet得出的按节点中心度排序的前30名人物。
图1 节点中心度截图
1.6 数据分析
首先采用节点中心度来判断核心成员,得到a1387、a1382、a1386的节点中心度排在前3名,对应数据源的3名作者,可以认为他们是关键人物集团。
2 基于分块的任务网络模型分析
2.1 可视化显示
可视化显示(个人关系网络)如图2所示。
2.2 人物关系网络中的群集行为
结合以上给出的关键人物,为更好刻画合著网络结构,我们进一步探讨人物关系网络中的群集行为。
合著网络的子群是指在整个网络中,因为学术相关及互补性,以及人物人际关系的集合圈定,为创作需要,一些著作者聚集在一起共同合著文章,其中必有第一作者,在此将第一作者成为子群的核心,从而构成一个有核心成员的子网络<sup>[2]</sup>。合著网络的子群(子团伙)是合著网络的重要结构组成。
2.3 块的定义
对于已有数据的处理,采用构建块的方法。
定义 1:一个块模型是由如下两项组成的:①把一个网络中的各个行动者按照一定标准分成几个离散的子集,称这些子集为“位置”,也可称之为“聚类”、“块”;②考察每个位置之间是否存在关系。一个块模型就是一种模型,或者一种关于多元关系网络的假设,它提供的信息是关于各个位置(而不是每个行动者) 之间的关系,因而研究的是网络总体特点。
图2 1 387个人的关系网络
定义2:个块模型是把一个网络N中的行动者分区,在各个位置存在一个对应法则θ,它把行动者分到各个位置之中,即如果行动者i处于位置B之中,则
θ(i)=B(5)
考察b表征位置Bk和B<sub>1</sub>在关系Xr上是否存在联系,如果存在联系,则b=1 ,否则为b=0。
定义3:合著网络块模型定义:将合著网络CN通信标识码i依据其在合著网络的信息流动中所扮演的角色,划分成不同的合著子团伙B<sub>1</sub>,...Bk,并按照对应法则θ把i归属到各个子团伙之中。这里的对应法则θ是i与Bk的紧密度是否小于等于Bk内部节点紧密度的平均值。
2.4 块的构建
合著网络块模型构建:①选取关于合著网络子团伙划分的方法,把各个合著成员划分到各个子团伙中;②选取整个网络的平均密度值α来确定各个块的取值。
2.5 软件实现
由于相对度较小的节点对各子群影响不大,为了便于处理,缩小测量方式,仅取λi=x>10的节点进行主要群集行为研究,并将处理后的数据人名记为b<sub>1</sub>,b<sub>2</sub>...。
进行关系密度的计算,得到如图3的关系密度矩阵,利用矩阵得到树型结构图。
3 合著网络影响力求证与结果检验
结合以上数据分析发现,合著者网络中有一个核心团
队,分别是b87、b86、b82,其中b87是核心人物,在Erdos1网络中最具影响力,对照数据人物,知道b87是ALON NOGA M。
图3 关系密度矩阵分布
通过合著网络模型,知道了ALON NOGA M是网络中的核心人物,利用Google学术搜索可以发现,“ALON NOGA M.is the Professor of Mathematics and Computer Science, Tel Aviv University”, 在组合数学方面贡献突出。
找到他的诸多著名著作,如The Probabilistic Method, The space complexity of approximating the frequency moments,Eigenvalues and expanders and so on。其中最为著名的是The Probabilistic Method, 该文总被引用次数4 730次,另外,发现有诸多著作者与其有学术往来,其中相关性最大的是Michael Knvelevich。所以通过网络分析得出的人物Noga Alon确实是学术、论文著作十分杰出的作者。
4 结语
目前,大数据、云计算推动了互联网的发展,微博“郭美美事件”如何从炫富转型为腐败,“网络反腐”信息在社交网络人群中是通过哪些人物节点以何种方式进行传播的,这都对网络分析、节点关系的研究方式提出了挑战。从最基础的核心人物挖掘入手不断深入此领域开展研究,前景广阔。
参考文献:
\[1\] PHILLIP BONACICH. Power and centrality:a family of measures[J].American Journal Of Sociology, 1986:1170-1182.
[2] M E J NEWMAN. Scientific collaboration networks II[J].Shortest paths, weighted networks, and centrality, Physical Review,2001,64-68.
(责任编辑:杜能钢)