Journal of Computer Research and Development
DOI:10. 7544/issnl000-1239. 2017. 20160434
54(11) : 2586-2599, 2017
基于引力学的在线社交网络空间谣言传播分析模型
谭振华时迎成石楠翔杨广明王兴伟
(东北大学软件学院沈阳110819)(tanzh@mail. neu. edu. cn)
Rumor Propagation Analysis Model Inspired by Gravity Theory for Online Social
Networks
Tan Zhenhua, Shi Yingcheng, Shi Nanxiang, Yang Guangming, and Wang Xingwei(College of Software , Northeastern University , Shenyang 110819)
Abstract The influence of rumor propagation in online social networks (OSN) could result in great
damage to social life, and it has been a hot topic to discover rumor propagation pattern. TraditionalEpidemic-like rumor propagation models based on SIR, are generally coarse-grained for OSN but donot fully consider the features of OSN, such as personalization dimensions of users’ behavior and information attributes. Inspired by gravity theory, this paper proposes a novel rumor propagationanalysis model named gravity-inspired rumor propagation model (GRPModel) , and tries to find a new pattern of rumor propagation from
the
perspectives
both
of users5
properties
and
In GRPModel, user influence and rumor influence are modeled mathematically by user relations and information attributes, and fully consider their personalized features. We collect experimental real data from Sina Weibo, which is a famous OSN in China, and investigate features of users and real rumors. Experiments prove the effectiveness and efficiency.
Key words rumor propagation model; micro-blogging analysis; online social network (OSN);
information diffusion; gravity theory
摘要社交网络空间的谣言传播行为具有极大的危害性,探索谣言传播规律与分析模型成为当前研究 的热点之一.传统谣言传播分析模型大都基于SIR等传染病传播模型,能对在线社交网络空间的谣言 传播过程进行粗粒度刻画,但并未充分考虑社交网络本身特征.鉴于此,结合引力学思想,提出了 一种新 的在线社交网络空间谣言传播分析模型GRPModel.该模型借鉴引力学思想,从用户和谣言信息2个角 度出发,探索谣言在用户间的传播规律.以用户为核心,基于用户间的关系、信息在用户间的传播关系、 谣言接触率、转发率等对用户影响力、谣言影响力进行建模,对谣言信息的传播进行量化,并充分考虑用 户的个性化特征,构建相应的建模与分析函数.最后利用新浪微博真实社交网络空间信息,对
GRPModel进行分析验证,验证结果证明了所做模型的正确性和有效性.
收稿日期:2016-06-16 ;修回日期:2016-12-09
基金项目:国家自然科学基金青年科学基金项目(61402097);国家杰出青年科学基金项目(61225012,71325002);中央高校基本科研业务费
专项资金项目(N151708005,N151604001)
This work was supported by the National Natural Science Foundation of China for Young Scientists (61402097) , the NationalScience Foundation for Distinguished Young Scholars ( 61225012, 71325002) , and the Fundamental Research Funds for theCentral Universities (N151708005, N151604001).
谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2587
关键词谣言传播模型;微博分析;在线社交网络;信息扩散;引力学 中图法分类号TP393
随着互联网的快速发展,在线社交网络(online
socialnetwork,OSN)已深人到人们生产生活的方
言在网络空间中传播的动力因素,所有用户不能够 同等对待.
针对这3点不足,本文以真实的新浪微博谣言 传播数据为基础,通过量化谣言特征以及用户特征, 对谣言的传播进行建模,基于此提出了基于引力学 的谣言传播模型(gravity-inspired rumor propagation
方面面.然而所滋生的一系列谣言正在侵蚀着人们 的日常生活,冲击着网络与社会的正常秩序.相比日 常社会中的谣言,网络空间中的谣言传播速度更快、 波及范围更广、不可控因素更多,所以研究社交网络 空间中的谣言行为传播规律,对控制谣言传播具有 积极意义.
随着 OSN 平台(如 Twitter、Facebook、LinkedIn、 新浪微博)的快速发展,其开放性催生了网络空间的 谣言传播.在线社交网络具有开放性特点,注册用户 可以随时发表或转发微博信息.微博文章简短,便于 快速阅读,迎合了移动互联时代人们的阅读认知方 式.谣言传播者利用在线社交网络的以上特点,以社 会问题等具有吸引力的信息为出发点,杜撰或篡改 事实传播微博谣言,有的甚至通过专业网络推手进 行策划和发布,所以对社交网络空间谣言传播规律 的探索成为了研究热点.
针对在线社交网络空间的谣言传播特点,很多 研究者基于传染病传播模型[18]展开了对网络谣言 传播建模的研究,这些模型大都从易感、免疫、恢复 3个维度刻画谣言传播的过程,大都是基于经典 SIR(susceptible infected recovered)模型进行改进, 在一定程度上可以刻画社交网络空间的谣言传播规 律,但在具体的社交网络中却遇到一定瓶颈.于是很 多研究者引人其他自然科学领域相关模型展开了对 谣言以及舆论传播规律的探索,如势能模型、遗传学 模型、羊群效应、弹性碰撞模型等[912].在我国,随着 新浪微博的快速发展,国内很多学者针对新浪微博 信息传播扩散的特点,通过数据挖掘、概率传播、预 测分析等方法对新浪微博进行了系列研究'318].然 而,影响谣言传播的因素众多,在具体网络空间的分 析应用中,传统模型仍需要在3个方面加强:
1) 社交网络空间影响谣言传播的因素有很但传统模型没有谣言个性化特征参数量化机制,都 按照一个标准处理谣言,忽略了谣言的个性化参数;
2)
社交网络中用户对谣言的接触率是随着间推进而递减,并且在社交网络中不是所有的用户 都是易感节点,只有接触到谣言的用户才有可能感 染谣言,使之成为传播节点;
3) 社交网络用户的个性化信息传播行为是谣
model,GRPModel),主要创新之处在于:
1) 从谣言和节点2方面进行传播参数建模谣言的影响力、用户的影响力、用户之间的关系以及 用户与谣言之间的关系进行量化,细粒度刻画谣言 传播的属性;
2) 对用户与谣言的接触率进行函数建模,出用户接触率递减曲线,从传播过程角度分析谣言
的传播%
3)
对用户的行为进行分析与建模,充分考虑
个用户的个性化对谣言传播的影响.
1相关研究
在线社交网络已经成为人们日常生活的一部
分,社交网络分析也成了近年来研究的热点之一.近 年来网络谣言层出不穷,其带来的影响也愈发严重, 针对此现象广大学者开始对网络空间谣言的传播规 律进行细致的建模研究.
大多现有的模型是基于传染病模型展开理论与 实验分析的.文献[1 ]提出了一个基于BBV(barrat
barthelemy vespignani)网络谣言传播模型,基于有
权重的社交网络模型展开,考虑
BBV
网络遗忘机
制,认为随着遗忘率的增加,谣言的影响力逐渐降 低,并得出了谣言在加权网络中的传播速度比其他 网络慢,而且在BBV网络中谣言传播存在阈值,与 传播机制无关.文献[2]扩展了经典的SIR模型,在
SIR
中 加 到 的 接联系 并
通过节点的遗忘和记忆机制增加了休眠节点这一状
态.文献[3]则在SIR模型的基础上,将感染节点状 态分为积极感染和消极感染,并扩展SIR模型为 SPNR
( susceptible positive-infected negative-
infected removed)模型,在SPNR模型中获得了谣
言的爆发阈值,在此基础上提出了一种舆论引导的
谣言控制策略.文献[)]提出了 8状态的谣言传播模 型.除此之外,还有很多学者对SIR模型进行了不 同 度的
, 如 献[5-8]&
,
勾
多, 时2588计算机研究与发展2017, 54(11)
很多学者将谣言传播与其他领域模型相结合, 构建了一系列有效的谣言传播模型.文献[9]提出了 基于势能的谣言传播模型,该模型对信息的重要性、 个人的辨识力以及信息的可信度进行了度量,但是 该模型只是通过经验意识判定2个节点的信任度和 它们之间的距离成反比,而没有对其信任度进行精 确的建模度量.文献[10]提出了社交网络中基于遗 传学的谣言扩散模型,把一个带有多条谣言的个体 看作一个包含一系列基因的染色体,指定了染色体 间的交互规则,以此来对个体间谣言的交互进行建 这样定义的,每个初始激活节点会产生自己独立的 扩散级联,级联之间是相互独立,互不干扰的.例如! 在网络拓扑中,初始节点都是休眠节点,且每个节点 被激活的概率分别为^ ( •),假设M作为起始节点, 在时刻Z节点M会以一定的概率^(M,®)去激活它 的每一个粉丝节点如果在时刻;:,粉丝节点W的 多个上游节点同时要激活它,那么这些上游节点会 随机排队去尝试激活,所有的激活尝试都在时刻Z 内完成.无论上游节点是否成功激活粉丝节点®,在 随后的任意时间都不会再去尝试激活粉丝节点®, 模.文献[11]研究了公众舆论传播中羊群行为的演 化过程,运用羊群行为的演化模型来分析公众网络 中的舆论传播,并根据贝叶斯规则来分析这一过程. 文献[12]借鉴弹性碰撞过程中的能量传输模型提出 了新的谣言扩散模型,综合考虑了节点及谣言的历 史行为,对
OSN中的谣言传播过程进行了量化.
除此之外,很多学者对新浪微博传播方式、用户 行为习惯开展了研究.文献[13]对新浪微博的信息 传播进行分析与预测,挖掘了多种用户以及微博特 征并对其做了详细的分析,以基于用户属性、社交关 系和微博内容3类综合特征为基础对用户的转发行 为进行预测.文献[14]以真实新浪微博谣言为基础, 对采集到的新浪谣言微博数据进行了不同角度的分 析统计,研究了谣言的影响力及其产生与消亡的特 点,对新浪微博谣言进行了比较全面的定量分析研 究,最后提出了一套综合机器智能和群体智能的自 动辟谣框架.文献[15]基于微博平台提出了基于把 关人行为的微博虚假信息及早检测方法,利用模型 状态持续时间概率为Gamma分布的隐半马尔可夫 模型来刻画信息转发者和评论者对流行的真实信息 的把关行为,对微博用户节点的行为进行了详细的 分析与建模.文献[16]在微博平台上提出了基于
PageRank和用户行为分析的微博用户影响力算法,
对微博用户的影响力进行了详细的量化.文献[17] 对新浪微博的用户行为进行了分析,例如发表微博 的驱动力等.文献[18]对新浪微博用户从用户的信 传播能 的角度
分,
分
通用户、桥梁用户和核心用户.文献[19]中作者用数 学的方法来描述和预测用户行为,并引进羊群效应、 曝光效果、好奇心等,提出一种不对称的用户兴趣
.
独立级联(independent cascade,1C)模型'。—22] 作为信息扩散模型的一种,在信息扩散乃至谣言扩 散领域应用十分广泛.在1C模型中,信息的传播是
如果粉丝节点®在时刻Z被激活,那么该节点会在 时刻Z+1去激活它的粉丝节点,该进程直到不再有 激活行为发生而终止,这整个的信息扩散过程就称 为#C模型.
本文所提模型是对1C模型的扩展,在上游节点 去激活下游粉丝节点之前加人了接触率这一概念, 只有接触到上游节点谣言微博的粉丝用户才有机会 被激活,并且接触率是个动态的数值,每一时刻下游 粉丝节点对上游节点所原创、转发谣言微博的接触 率都不同.
综上,本文是将谣言传播与物理学理论相结合, 其中更侧重于量化谣言的性质与用户节点的性质, 并对用户和谣言的关系进行详细的量化与建模,充 分分析用户节点的网络行为,在各特征值量化的基 础上进行谣言传播模型的构建,从而探寻新浪微博 谣言的传播规律以及用户节点的转发规律,为今后 的微博谣言的控制提供一些新的思路.
2从万有引力到GRPModel
本节首先介绍万有引力,在此启发下结合在线
社交网络谣言传播规律提出GRPModel.
2. 1 GRPModel思想来源
万有引力定律表明,任意2个质点通过连心线 方向上的力相互吸弓I. GRPModel的思想来源于万 有引力定律在人造卫星中的应用.人造卫星从发射 到人轨过程中,当速度达到第一宇宙速度时,人造卫 星就会摆脱地球的引力,围绕地球做勻速圆周运动. 若发射速度大于等于第二宇宙速度,则人造卫星就 会摆脱地球吸引力的朿缚,从而摆脱地球飞向太阳 系,成为绕太阳运行的人造卫星.简单地说,人造卫
星摆脱地球引力的方式有2种!)在发射阶段,就以 大于等于第一宇宙速度发射;2)卫星在轨道上运行 时,人造卫星二次点火做正功,使其速度足以摆脱地 球的
.
谭振华等:基于引力学的在线社交网络空间谣言传播分析模型
2589
本文将万有引力模型与谣言传播模型相结合, 以万有引力模型中的行星表示谣言传播模型中的用 户节点,以人造卫星表示谣言传播模型中的谣言
以人造卫星围绕行星运转的情况表示谣言
在用户节点之间的传播转发关系,从而面向在线社 交网络提出新的谣言传播分析模型GRPModel.
2.2基于万有引力的谣言传播扩散模型
OSN
3 GRPModel的数学形式化
3.1谣言传播建模
3. 1.1用户的综合影响力建模
节点的性质包括节点的认证声誉度、活跃度、节 点粉丝数等,本节将对节点的性质进行定义建模.
定义1.认证声誉度.C^(m)# [0,1]表示用户
m
是有向图Gr«M=〈No心,£^以>,其中
代表节
表示用户M的粉丝节点
No心代表社交网络中的用户节点集,的认证声誉度.
新浪微博用户的认证类型有很多类型(主流有
点间有向关系集[23].
集(后继#其粉丝数为|N° 文献[2-8]中阐述了在线社交网络中谣言传播 的动态性与传统流行性病毒传播的动态性不同,在 线社交网络中,用户节点任意时刻面对谣言所处的 状态可能为以下3种!)沉默状态,即用户节点没有 接触到谣言时的状态,由于种种原因可能会使用户 节点遗漏掉部分上游节点所传播的谣言%)接触状 态,即用户节点接触到谣言的状态,接触状态下的用 户节点又根据自己的兴趣爱好或者行为习惯选择转 发该谣言或不转发该谣言这2种子状态;3)免疫状 态,即用户节点传播完谣言时的状态和用户节点接 触了谣言但没有传播谣言的状态.该现象和万有引 力模型中行星所处的状态非常相像,在万有引力模 型中,行星也有3个可能的状态,没有捕获到人造卫 星、捕获到人造卫星并且人造卫星在其轨道上做勻 速圆周运动、捕获到人造卫星但人造卫星二次点火 脱离该行星的万有引力.因此,在 GRPModel中,用 户节点的状态集可以定义为〈沉默状态,接触状态, 免疫状态〉,其中接触状态又可以分为〈接触不转发 状态,接触转发状态〉这2个子状态. 定义谣言的原创用户为m,其粉丝节点为在 时刻z选取节点m为谣言扩散的种子节点,将 m 发 表谣言看作是谣言rwTOcr在节点m上发射,这时的 rMTOor会脱离m 的引力,奔向其粉丝节点w的引力 场,此时表示谣言产生.在时刻Z + 1,谣言以概率 W •)进人节点w的引力场,其中f( •)则是根据节 点 w 的活跃度、网络行为习惯量化的,并且在时刻 Z + 1,粉丝节点w面对谣言会有2个选择!)不转发 此条谣言%)选择转发此条谣言. 重复以上步骤,即为GRPModel的扩散过程. GRPModel中,将谣言影响力充当rMTOor围绕m 运 动的轨道半径,将用户节点m影响力的加权值充当 球体M上的重力加速度,更多的关于这些参数的描 述和数学建模,将在第3节详细阐述. 11种),认证作为用户声誉的基本保证形式.本文将 新浪微博的认证类型按认证的难易程度分为{9, 中,低-大类.‘高’类对应{政府,团体(机构)}等认 证%中’类对应{名人,企业,媒体,校园,网站,应用} 等认证%低’类对应{微女郎,初级达人,中高级达 人}等认证.{chlgh,cmidd=,cbw}对应{9,中,低-类 认证的声誉值,cnull表示无认证用户的声誉值,且 Chigh + Cmidd= + c〇w ] Cnull = 1,由谣言分析员按数据 集实际情况分析判断具体值.根据M的认证类型对 应的{chlgh,Cmidd=,Cow,Cnull}值确定M的认证声誉度 CR('m).定义2.发博量.N mtoS TM)表示用户M在 OSN 中的发博总量,Nm™T+(m)表示用户M平均每小时 的发博量.令Ag^M表示用户M的微博龄(单位是 h),则 : NMm;lst (M) AgeM (1 ) 其中,NMmSf(M)及Ageii信息可以直接从节点m的 属性中获取. 定义3.影响力覆盖指数.Q(m)表示用户m的 影响力覆盖指数,用M的粉丝数|N〇4t(M) I的常用对数来表示,即: Q(M) =lg|Nout(M) I ]1. (2) 定义4.微博产出量影响力.JF(M)表示用户M的 微博产出量影响力. 微博信息的产出量可以作为衡量用户影响力的 指标之一,为兼顾发博的动态性,本文以平均每小时 发博量NmtC +(M)为 M 的微博产出量影响力基数, 用 Q(M)作为覆盖指数,则 : IF(M') = (NMm;〇t(M'))QM. (3) 定义5.综合影响力.E„表示用户M的综合影响 力,由 IF(),I NM (M) I,CR (M)组成,即: Em = IF(m)X |N ou,(m)| X CR (m). (4) 可以看出,发博数越多,粉丝数越多,认证声誉 度越高,则用户M的综合影响力Em越高. 2590计算机研究与发展2017, 54(11) 3. 1. 2响.本 用户的谣h接触率建模 谣言的接触率 的活 否传播谣言有重要影 谣言接触的. 及上游 在任意 U 的微博产出量, Num;ost (u活跃程度.通过) _ e(\"), (5) 单位的任意\"表示,其本计算依据.更新屏数6 户 )及发博概率e(7)来计算,即: ,\") = NumpJN (u干扰性两方面对谣言接触率 (以h为单位) 惯,本 博 其中,\"#[00:00,23:00],表示 .本文所提 中的 质是1 h内的时间段,以整 户 u u 定义6.发博概率6(7)表示2)h中任意时刻 基准的发博概率. 的网络行为习 日常发能够比较准确地 数据来 定义8•微博信息更新屏数.表示用 在时刻\"所获取的微博 每屏所展示的微博数量为Numpag=(u)条,则: 新浪微博官方提供的微博 在1d之中的任意时刻 发博概率分布,图1是2015年度新浪微博 发展[24]所出的2015年度 日常发博 1习 惯.不难看出,在凌晨100—6:00时段,多数微博用 处 默状态,这一时间段微博平台产出的微博 量相 ;在9 :00—23:00时段,多数微博用户 处活状. jog U OP-u5Jgbnqo -SBq IQ§ ^ws.)aQ ns3l\\I Fig. 1 Users’ Aaily habit。8 publisliing micro-blogging 图1微博用户日常发博行为习惯 以图1所示的平均值为基准,确定每个时刻用 户的发博概率,结果如表1所示: Table 1 Probability Distribution of Publishing Micro-Blogging 表1微博用户日常发博概率分布 Time!hTime!hTime!h00:001. 01508:000. 97916:001. 21101:000. 56109:001. 09517:001.22002:000. 44510:001. 17518:001. 22803:000. 32111:001. 22019:001. 30004:000. 27612:001. 23720:001. 353 05:000. 29413:001. 22021:001. 43306:000. 45914:001. 14822:001. 50407:00 0. 712 15:00 1. 187 23:00 1.406 定义L.微博产出量.Num£post(u,\")估计用户 $ Nump£ost(vt,\") 4%$u,\"@Viehu) • 6 定义n接触率.cpr^(u,2)表示用户u对其 关注节点2所发布的谣言rumor在其产生^时间 内的接触率.定义3(u,^)f u 因上游节点 博导致 而产生接触衰减率.则: CP^mor (u,v)= Num; ost (u\") X#(u,s), (7) tsd(u,)= e—$K$page(u,\"\\ (8) 其中$为衰减速度$越大,衰减越快.可以看出,活 度越高,衰减率 ,谣言接触率越高. 3.1.3谣言影响力建模 谣言影响 谣言信息本身被用户接受的能 力.本 谣言所属 的程度、信息本 的 征 2个角度对谣言影响 . 定义10.欢迎程度.L(rumrr)表示谣言所属信 的 度.1) 分类算法[5]对含有^ 、本微博的数据 本分类.足=( A ,x2,…)表 示每 博 m /o(〇的分词形成的向量.令 C*s = {|y # [1,m ]}表示微博的m个类别集 . 则 : P(Clas\\//o()) = A( *SA〇 yXi)#S. (9) 选择最大概率对应的分 博信息//〇() 所属的类别#*.(//〇(0)• 2) 将 #类微博信息中的转发数、评论数、 点赞数 3个主成分 ,F2,P3令VA只 (P1),\\^只(F2),\\^只(P3 )为对应因子在数据集中 的方差,令 FS:,FS2,FS3 分别 应的 ^得 分,AC1,AC2,AC3分别 应的主成分得分,则 PC1 = FS1 X 槡VAR (FO,AC2 = FS2 X 槡VAR (F2), PC3 =FS3X槡VAR (F3).根据主成分分析方法最 终得到类别的综合得分 sco$ (G),其中SmaxS 高得分,Smin 分. 谭振华等:基于引力学的在线社交网络空间谣言传播分析模型 2591 3)按照式(9)方法得到谣言rwmor对应类别, 按照主成分分析获得对应得分令谣言受欢迎 程度的范围为[Lmin,Lmax],则: L1) 户 当传播用户属于谣言原创用户时,假设为 u,谣言rumor会以式(17)中的速度Vu„r离开用 户u并摆脱其引力朿缚,此时表示用户u发表了谣 言.当rumor离开u的轨道时,以一定的概率进人 其粉丝节点n所处的引力场.由于进人了 n的引力 场,谣言rumrr的运行速度会自动由Vuor变为Vu„rr, 表示n接触到谣言rumr此次谣言传播完成. , (rumor) = 'max — D— _ (Srum〇r ~ S:in) + L:in. (1〇) ◦max 〇min 谣言的影响力主要取决于谣言文本的描述,谣 言描述的越接近真实,其越容易被用户所相信,越容 易被用户所转发.微博谣言可能会含有@符、图片、 视频,这些特征因子的存在会增加用户转发此谣言 2) n 当传播用户为2度转发用户时,假设为用 它本身属于上游节点u的粉丝节点.用户n接触 的概率.令 Iwc_@,Inc_Imag^,I?7c_V^oo 分别表p 历史谣言信息中包含@符、图片、视频的谣言转发数 量,Nowlwc表p不包含@符、图片、视频的谣言柄息 数量.用々(rumor)表示包含@符、图片、视频情况下 的谣言影响力增量,即: k (rumor) Inc_@ Inc—Image Inc _Video Nonlnc Nonlnc Nonlnc (11) 定义11.谣言影响力.£Tmr表示谣言rumor的 影响力,由谣言对应信息类别的受欢迎程度及特征 因子增量组成,即: ErUm〇r =L(rumor) ]k(rumor). (12) 3. 2 GRPModel传播扩散过程 根据动能定理,质量为mu的用户u上的谣言 rumrr,其质量为mr,速度为Vu™ ,则谣言的动能为 :1丄 rumor .xvr (13) 用仏表示用户u上的重力加速度,表示如下: g =-----槡5----- (14)u 槡Numf+iu,\"谣言的影响力越大,则谣言被转发的概率越大, 映射到引力模型则表示用户u上的谣言rumor所 处的轨道半径只Lor越大.因此,本文中只umr = 根据重力势能定理,则该谣言的重力势能为 E2mm〇r =mr_,gu_ Kurnor . (15)又^ 因、为f mrXgu、, =G X(R muU _ mr r+ u )2 r,_其^ 中 G 是万有 umo+引力常量,可得出: 已:乙2 = Xrumor G\" )mu X mr tu+ • 门 umo+、丄 〇 / 当:1umr — :2umr =〇时,,um〇r恰好克服用户 u 的引力逃逸,则速度Vumrr为 . Gxmu 槡 RUrumrr ' (17) 在本文中传播用户具有2种属性状态,分别为 原创用户和2度转发用户. 到谣言时,谣言rumr以速度Vu_r绕节点做勻速圆 周运动,令;n表示n的半径,则: V11 (18) 随着n对谣言rumor的接触,n可以选择转发谣言 发谣言.选择转发即为用户n对谣言所做正功能满足谣 言 +umo+ 摆 脱 n 的 $本 n 谣 言 rumor的相信程度Bu„rr和上游用户u的影响力:u 之和来表示该正功,即: PWn = B^umor ] ^u • (19) 接下来推导用户n对谣言的相信程度Ju™的计 算方法.根据能量守恒定律,节点传播谣言需满足: mr X (Vumrr'^ )22 + . PWn%GXi…„、G X m „ X) ;mir (20)则 PW „%GX2Rm:u Xmr•进而求得相信度Bn 的 界条件! B-X (Rn)2 Xgn +uO^ On rum.nr-:u.(21) 用ro^表示n所接触过的谣言集合,则用户 上的谣言rumor被下游节点n转发的概率为4(u,n) = 1-Bumor 111111 C Br# .(j ) max(B U —min(BU . (22) 节 发谣言的概率会 随着 间而 衰减,所以此处添加时间衰减函数[26],最终得到间 隔.时间步时下游用户n转发u的谣言的概率: 4. (u, n) =4 (u n) X e—况. (2/) 随着n对谣言rumor的相信度的不断减少,则 Vu〇会不断减小,umor所需的向心力会减小,重 力不能完全提供向心力,此时重力大于rumor所需 向心力,rumor就会做近心运动,从而逼近用户n, 并且最终会降落到n上,代表着此条谣言没能成功 n 发.2592计算机研究与发展2017, 54(11) 4.1实验1:谣言影响力算法的有效性验证 4实验结果与分析 本节设计了 5个实验分别验证本文所提模型, 4. 1.1信息的受欢迎程度 谣言文本分析采用开源ICTCLAS2016系统[27], 它的功能主要包括汉语分词、词性标注等.为了更好 地识别出命名实体,本文对ICTCLAS的分词词典 进行了扩充,新增专有名词50 520个. 统计微博受众差异的语料是从“新浪头条”采 集得到,时间跨度为2015-06-01—2015-12-31,共计 3 600余条微博信息.首先统计出每类别微博信息的 ofGRPModel. 包括验证用户影响力、谣言影响力、各类参数对谣言 传播的影响.表2是对所做实验的描述: Table 2 Experimental Description 表2实验描述 Experiments Expl Exp2 Description. Toverify the rumor’s influence 转发、评论以及点赞数量的均值,从而确定每类微博 信息的受欢迎程度.利用统计分析软件SPSS19. 0 , To verify the user's influence Eu of GRPModel.To verify the effect of contact probability CA.7〇r 5 进行主成分分析,如表3所示.为了使变量累计贡献 率达到80%以上,本文选择前2个因子,最终得出 如表4所示综合评分.本文以表4所示的每类微博 的综合评分根据式\"0 )得到最终的谣言受欢迎程 度,其中受欢迎程度的范围[Lmin,Lmax ]设为[3 0, 80]. Exp3 v) in GRPModel. Exp4 To verify the influence of parameters to rumorpropagation,including Erumor *EU and CP^mor (u, ). Performance comparison among GRPModel classical p SIR model and SPNR model. Table 3 Litt of Total Variance Explained of Data 表3数据的解释总方差 Total Variance No&123 Explained2&3770&3660&258 79&22112&1868&593 79&22191&407100&00 Variance/ % , Cumulative/% Total Extraction Sums of Squared Loadings 2.0860.033 Variance/ % Cumulative/ % 69.5211.096 69.52170.617 Table 4 List of Comprehensive Ratings 表4数据的综合评分 No12345678910111213 9ategorySportsHealthDisasterGossipSocietyCharacter DeedsPeople's Life ScienceForeign Affairs EducationLawsuitPolitics Finance and Economics Average Forwarding 4 6973 8334 5992 3791 60915851 3951566955968750890737 Average Reviews 2 147172318252 5042112880135885210131 158827553723 Average Favorites 7 0753 74515053 3802 0972 6921 1911 67613161 020820909718 Factor12.199261.059340.88360.865160.18962 Factor20.554440.12628 Score3.131.511.261.230.269 L (rumor) 806259584842403835353130.330 一0. 375 36一0 .43918 一0. 472 77 0.38918 一0. 228 67一0. 39025一0. 455 71一0. 652 15一0. 646 19一0. 89908一0. 955 33一0. 969 15 一0. 32一0. 55一0. 65一0. 925一0 .916 一 0.204 11 0.201040.02254 一 0. 124 29 0.031680.216770.0736 一 1 28一 1.36一 1 38 从表4可以看出,体育类、养生百科类、突发灾 难类、八卦娱乐类和社会万象类微博信息的受欢迎 程度L(u m 趣点;而财经类、政治热点类、拍案反腐类微博信息的L(u m 〇r)比较低,这一类的信息被微博用户转发 〇r)比较高,基本符合广大微博用户的兴 的量比较低. 谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2593 4. 1. 2 本 谣言影响力特征因子权值设定 新浪微博社区管理中心™抓取了跨度 名、发表 发 的准确率,以真 发量 考量依据,并以粉丝数影响力I 的等级相 充当用户影响力作为对比实验.基于Spearman,转 发数与粉丝数、转发数与 如表6所示: 从 2015-08-15—2016-08-08 共计 2 138 条被举报 的真实微博谣言,抓取的数据 数.经统计,所 数为46,平 2 138条谣言 时间、谣言内容、图片链接URL、转发数、评论数、点 的微博谣言样本库的平 数为18,平 中所 发 数为28.我们 统计: Table 6 Significant Correlation Coefficients of Spearman’s Rank 表6 显著等级相关性 DataRumor Data Normal Microblogging Data Number of Followers 0. 2948&0. 379 58 & Eu 0. 309 8&0.4155& 1) 含有@符的谣言转发数I〃c_@ = 63;2) 含有图片的谣言转发数I〃c_ima 及 的谣言 征 m I^=9.通过Spearman等级相关性分析可以看出,用 户粉丝数以及I与真实谣言转发量 ,并且与谣言转发量之间的相 高 量之间的 发的谣言被2次转发的数量 相 活 强的相要9于 .其中 ^ 含有@符、图 发量要大 的谣言,并且不同的影响 征谣言影响力所带增量不同,实验统计得出 谣言影响力增量々(r^mor) = 30. 7,可以看出识别谣 言中的影响 要.4. 2 实验2 :用户影响力算法的有效性验证 粉丝数量与谣言转发量之间的相关性,即:用户影响 谣言微博数据集下,用户影响力K与微博的转发 大于% 41,所以加入了ij 度量的影响力更具说 . 度量以及 征因子对定量谣言的影响 分重 计算 影响力,我们追踪了 2条谣言# Ra 4.3实验3:用户的谣言接触率有效性验证 的传播轨迹,编号分别为Ra,Rb.谣言发表于 Rb 验主要验证所提 的谣言接触率的有效 2015-08-15T18:08,截至 2016-03-13 已有 25 200 次 转发、7 057次评论以及60 050次点赞;谣言 发 表于 2015-08-19T02:12,截至 2016-03-12 已有 13 874 次转发、6 128次评论以及9 376次点赞.本文分别抓 2条微博谣言的所有转发 .此外本 Infor1〜Inforl0.这 性.分别取6= 1/6,6= 1/12,6= 1/24,以验证式(8)中 6值对接触衰减率的影响.实验结果如图2所示: 的基本 、, AlaqBqald包括其粉丝数量、转发时间以及转发节点的基本 随机 10 发量大于 ,记为影响 10 000条的非谣言微博的转发 12个样本数据集,在此基础上我们验 力 I 12条信息及其转发信息形成了 pauoo 的效性.该实验所需要的参数详细定义如 §§§§§§§§§§§§§§§§§§§§§§§§ 表5所示: Table 5 Parameters of Experiment of Eu 表5 参数列表 Fig. 2 No.1234 Parameters ChighCmiddleCl〇wCnull Value1214161/12 Decay curves of the contact rates 图2接触率衰减曲线 通过实验得出当6=1/12时,实验结果拟合真 实情况所以选定参数6=1/12.接下来,利用谣言 , >a所抓取的22 516个粉丝数据,计算 游 的 接触率并求出其平 我们使用Spearman等级相关系数来验证 ,分别对比 e( 7)与未结 e(7)的接触率情况.结果如图3所示: ①具体谣言内容在论文评审阶段已提交,鉴于安全考虑,在论文发表阶段采用编号Ra,R b 分别代替. 2594计算机研究与发展2017, 54(11) 4. 4. 1接触率对谣言传播的影响 验主要观察接触率这一参数对谣言传播过 程的影响,本实验以24h为1个周期,验证周期里 谣言在数据 的传播情况.本实验中,初始 1 AlaqBqald= 3 876 165 335 330 640,谣言的影响力 £;^r = 〇6,分别在接触率为传播. 图5描述了每一时刻接触到谣言的用户概率密 u pauoo 与2〇巧胃(队, NetworkX中模拟 %)条件下(简记为CP,2CP),在 Fig. 3 Trends of user’s contact ratewith time 图3用户对谣言接触率随时间变化曲线 可以看出本文所设计的用户接触率算法更符合 微博用户使 博的时间 ,即在01 00— 07!0时,用户基本都处 默状态,而到了早晨7 点左右,用户使 博的频率又开始上升,并且总体下降趋势 比实验中的随时间指数下降算法拟 合出来的衰减变化曲线.但未考虑 使 博时间 的算法所计算出来的 接触率只 单地随着时间而指数下降,这种下降趋势 使 博的 . 4.4实验4 :各参数对谣言传播的影响 验主要验证各类参数对谣言传播的影响, 接触率、上游 影响力、谣言影响力对谣 言传播的影响.模拟实验数据选用谣言Ra的 I 真实数据.本数据 北京大学PKUVIS微博可 分析工具'9( 到,并得到谣言转发的网络拓 扑图,拓扑图如图4所示: Fig. 4 Experimental data topology 图4实验数据拓扑度统计结果6 出,整个社交网络的 接触率递减曲线基本 验3所 ,即 节点在 的活跃度会有小幅上升的趋势.图6 ^ 接触率在CP 和2C P 情况下 接触谣言的累 积密度变化曲线,图7 接触率在CP 和2CP 情况下 谣言的 密度变化曲线. S cJsunc ppu^uooJoun al;^s}JuOcl q ) O1-HO 1O-Hj O t-IC^COOi—IC^CO 寸 LOCO 卜 OOOjO t-H ti-—IH 1C-H^ 1C-OH 1 寸-H i LOCLD -H i-H i卜 -H Time Fig. 5 Density of rumor contacted users 图5接触谣言的用户密度趋势 ScJsun>f cl) p. clj) uJomni p^JO AUcSUQucAucqn§§§§§§§§§§§§§§§§§§§§§§§§ mOnt-HO iO-H^ Oi—ICS]C〇〇1\"HCS]C〇 寸 LO ①卜 OOO^t~OH it—ICS1C0 -H i-H i-H i寸-H iL-〇H i o Time Fig. 6 Cumulative density of rumor contacted users 图6接触谣言的用户累积密度趋势 谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2595 SCJsDn15C D P9JUIjoimvajo A^SU9Q3>ou o.o.. ncmno Fig. 7 Cumulative density of rumor infected users 图7感染谣言的 密度趋势 从实验结果可以看出,用户初始阶段对谣言的 高接触率对谣言的传播影响比较大,但随着时间的 逝,高接触率所带来的感染谣言的 数量会逐 趋于稳定,并且高接触率会加速谣言的扩散. 4.4.2上游用户影响力对谣言传播的影响 为验 游 影响 谣言传播的影响,本 实验中,初始用户% =3 876 165 335 330 640,谣言影 响 力 = 5,取上游用户影响力为£;,£; + 0• 1 以及 1 + 0. 2.如果 ^ + 0. 1%1 或者 ^ + 0. 2%1, 则取1 = 1.在NetworkX中分别对这3 个用户影 响力情况 拟.图8、图9分别 件下感染谣言的 概率密度 计概率密度 . 0.14 0.12 S9Js^0.10 p9p^u0.08 HJH00.06 mu^^- 0H0. 04A;ysu0.02 9QFig. 8 Density of rumor infected users under different Eu 图c不同EMq况下的感染谣言的用户密度 从图8看出,上游用户即关注用户的影响力越 大,谣言扩散得越快,在每一 的用户 所 游 的影响 谣言的传播起促;用, S CJsDn<15 PL) 9JUIj oimvajo A^SU9Q9>unumo Fig. 9 Cumulative density of rumor infected users under different Eu 图〇不同情况下的用户感染累积密度 这也充分说明在谣言扩散建模方面,需要考虑上游 用户的 影响力,这也 的谣言 提供了 些许建议,如何能识别出社交网络中的高影响 i 户并 加 ,就能在一 度 谣言的 传播.从图9 出,排 ,谣言 的 影响范围与用户的影响 在着紧密的关联. 4. 4. 3 谣言影响力对谣言传播的影响 该实验主要 验证谣言影响 谣言传播的 影响.本实验中,初始用户U0 =3 876 165 335 330 640, 谣言影响力分别取Era_r =0• 5,Era_r =0• 6,Era_r = 0• 7•在NetworkX中分别对这3个谣言影响力情况 拟.图10、图11分别 件下 谣言的 概率密度和累计密度 . Fig. 10 Density of rumor infected users under different Eu細+ 图10不同Eu_+情况下 谣言的 密度 2596计算机研究与发展2017, 54(11) 4.5 实验5:GRPModel与SIR及SPNR的性能比对本节通过对比GRPModel、经典SIR模型以及 SPNR模型验证GRPModel的正确性和有效性.我 们在42节所 到的 数据集的基础 一份 比实验. 500个节 丨 GePhi[/0]开源软件模拟生 及6 325条边的社交网络数据,如图12所示.本 将 此数据 SIR定义整个社交网络的节 3种状态!)⑴表示感染 易感节点(susceptible),S\")表示易感节点在时刻( 的概率密度%)感染节点(infective)\")表示 节点在 节点在时刻(的概率密度;3)免疫节点(recovered), R (的概率密度.由易感节 节点转发 节点的概率为A(x),由 图11不同情况下感染谣言的用户累积密度 节点的概率为pG),社交网络中节点的平均 出度为L那么SIR 的平均场方 r dS\") = 从图10可以看出,谣言影响力作为谣言传播扩 散模型中的最重要特征,它的大小也和谣言影响范 围紧密相关.从图11 响 出,谣言的影响 . 大, ^ d^ _A⑴仙犯), ? , ( ^ AX )⑴S()々_\"(x)I⑴ 其所影响到的用户总数也是越多的,所以谣言的影 谣言的传播也起到了促 dR()_ ()() * I mmmm •d 峯•寒 Jt-Hr wJ? JS— :J100 200 300 400 Node Number(b) In-degree distribution Fig. 12 500100 200 300400 Node Number(c) Out-degree distribution 500 Experimental social graph 图12 实验网络图 谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2597 而SPNR[3]模型中定义整个社交网络中的节点 染节点的概率是A,由积极感染节点转变为免疫者 的概率为怂,由消 节 的概率 有)种状态,分别 节点S、、 节 节 节点I;、消 消极感 5 消极感染节点In、免疫节点见由易感节 节点的概率为Ai,由 节点的概率为//$,由消 染节点的概率为A.,由积极感染节 为(比实验的详细参数如表7所示.利用NetworkX 在模拟数据 SPNR GRPModel以 及SIR模型和 拟,图13描述了相 . Table 7 Parameters of Comparison Experiment 表7对比实验参数列表 No12345678910111213141516171819 Parameter Value50000. 9980. 0020inputinput112.650. 50110.20.20.20.10.20.11 DescriptionNumber of nodes Initial node Initial density of S (0)Initial density of N5〇S(0)I(0) I(0) R(0)pts (u,v)CPJ5mor( u,v) '(e X)k:rumorRumr A1A2 Initial density of R(0) Propagation probability of GRPModel and SIR Contact rate of GRPModel and SIRImmune probability of GRPModel and SIR Average node degreeInfluence of rumors The radius of the user node uThe quality of rumor rumorParameter of SPNR modelParameter of SPNR modelParameter of SPNR modelParameter of SPNR modelParameter of SPNR modelParameter of SPNR model Negative infection to the initial node of SPNR model '1'2((2I/ (0) !! 图 13 S Jcusn 0. .FCL)0 >0.;Cp.CL)JUl-HJomn^JO AUCUSQU 出 $ 与 SIR 及 SPNR模型的对比实验,本文所提出的GRPModel 与SIR模型以及SPNR模型所模拟的谣言传播的 化趋势类似,即感染谣言的 个波峰,然后缓慢下降.然而相 合真实情况,即谣言的传播在 的 的 能会出现一 GRPModel在 数 先 一 SIR模型与 SPNR模型,GRPModel在谣言传播的模拟中更符 活跃度普遍较高 高峰,这种情况的出现是接触率这一参数下考虑了 & 5 Fig. 13 Rumor propagation performance of GRPModel, SIR model and SPNR model 总结与展望 在线社交网络的谣言传播对人们的生活具有很 图13 GRPModel、SIR模型以及SPNR模型的谣言传播对比 强的破坏 .传统的基于传 的谣言传播分析 2598计算机研究与发展2017, 54(11) Wang Jiajia, Zhao Laijun, Huang Rongbing. 2SI2R rumor spreading model in homogeneous networks [J]. Physica A: Statistical Mechanics and Its Applications,2014,413: 153161 [8] Hong Weijun, Gao Zhipeng, Hao Yuwen, et al A novel SCNDR rumor propagation model on online social networks [C] //Proc of IEEE Int Conf on Consumer Electronics- Taiwan. Piscataway,NJ: IEEE [9] 模型未考虑社交网络中节点的特征,并不适合在线 社交网络的谣言传播分析.本文受引力学思想启发, 从用户和谣言信息2个角度出发,探索了一种新的 面向社交网络谣言传播分析的模型GRPModel.本 文以新浪微博谣言为研究对象,以对谣言的参数度 量和传播节点的参数度量为主要出发点,其中包括 谣言微博的影响力计算、用户节点的影响力计算、用 户对谣言的接触率建模,最后提出基于引力学的谣 言传播模型,并通过实验验证本文所提模型的合理 性与有效性. [7] ,2015: 154-155 Wang Li, Liu Fengming, Yang Rongrong, et al Research on spreading mechanism of network rumors based on potential energy [C] //Proc of In.t Conf on Cyber-Enabled 通过实验可以看出,谣言的影响力在谣言的传 播过程中起着非常重要的作用,影响力越高的谣言 其传播范围越广,当然用户对谣言的接触率也是一 个不可忽略的因素,通过实验证实整个社交网络用 户节点的接触率也会对谣言的传播起促进作用,即 高接触率会使谣言的传播范围更快更广.此外,上游 节点的用户影响力也在谣言传播过程中起着举足轻 重 的 & GRPModel基于新浪微博网络进行建模,其方 法亦可用于其他社交网络平台的谣言分析. 参考文献 [1] Zhao Laijun.,Wang Xiaoli,Qiu Xiaoyan.,et al. A model forthe spread of rumors in. barrat barthelemy vespignani (BBV) networks [J]. Physica A: Statistical Mechanics and Its Applications,2013,392(21): 5542-5551 [2] Zhao Laijun., Wang Jiajia, Chen Yucheng, et al. SIHR rumor spreading model in. social networks [J]. Physica A : Statistical Mechanics and Its Applications, 2012, 391(7): 2444-2453 [3] Bao Yuanyuan, Yi Chengqi, Xue Yibo, et al. Precise modeling rumor propagation and control strategy on social networks [G] !Applications of Social Media and Social Network Analysis. Berlin: Springer,2015 : 77-102 [4] Zhang Nan, Huang Hong, Su Bon.i, et al. Dynamic 8-state ICSAR rumor propagation model considering official rumor refutation [J]. Physica A: Statistical Mechanics and Its Applications,2014,415: 333—346 [5] Zhao Laijun, Wang Qin, Cheng Jingjing, et al. Rumor spreading model with consideration of forgetting mechanism: A case of online blogging Livejournal [J]. Physica A: Statistical Mechanics and Its Applications, 2011, 390 (13): 2619—2625 [6] Xia Lingling, Jiang Guoping, Song Bo,et al Rumor spreading model considering the importance and fuzziness of information [C] //Proc of the 9th In.t Conf on P2P,Parallel, Grid, Cloud and Internet Computing. Piscataway, NJ: IEEE, 2014: 161-166 Distributed Computing and Knowledge Discovery. Piscataway,NJ: IEEE ,2015: 282-285 [10] Wang Yannan, Chen Xiuzhen, Li Jianhua. A new geneti-- based rumor diffusion model for social networks [C] //Proc ofInt Conf on Cyber Security of Smart Citie+$Indu+trial Control System and Communications. Piscataway, NJ: IEEE ,2015: 1-5 [11] Li Yong$Li Li$ Zou Kai. Modeling and analysis the evolution of herding behavior in public opinion propagation [C] //Proc of Int Conf on Cyber-Enabled Distributed Computing and Knowledge Discovery. Piscataway, NJ: IEEE, 2015: 277-281 [12] Tan Zhenhua, Ning Jingyu, Liu Yuan, et al. ECRModel: An elastic collision-based rumor-propagation model in online social networks [J]. IEEE Access,2016, 4(1): 6105-6120 [13] Cao Jiuxin, Wu Jianglin, Shi Wei, et al. Sina microblog information diffusion analysis and prediction [J]. Chinese Journal of Computers,2014,37(4): 779^790 (in Chinese) (曹玖新,吴江林,石伟,等. 新浪微博网信息传播分析与预 测[ ]. 计算机学报,2014, 37(4): 779-790) [14] Liu Zhiyuan, Zhang Le, Tu Cunchao, et al Statistical semantic analysis of Chinese social media rumor [J]. Scientia Sinica: Informationis, 2015, 45 ( 12 ): 1536 - 1546 (in Chinese) (刘知远,张乐,涂存超,等. 中文社交媒体谣言统计语义分 析[ J]. 中国科学:信息科学,2015, 45(12): 1536-1546) [15] Xie Bolin, Jiang Shengyi, Zhou Yongmei, et al. Misinformation detection based on gatekeepers' behaviors in microblog [J]. Chinese Journal of Computers,2016,39(4): 730^744 (in Chinese) (谢柏林,蒋盛益,周咏梅,等. 基于把关人行为的微博虚假 信息及早检测方法[ ]. 计算机学报,2016, 39 (4): 730 744) [16] Huang Lijuan, Xiong Yeming. Evaluation of microblog users’ influence based on pagerank and users behavior analysis [J]. Advances in Internet of Things, 2013, 3(2): 34-40 [17] Yan Qiang,Wu Lianren, Zheng Lan. Social network based microblog user behavior analysis [J]. Physica A: StatisticalMechanics and Its Applications,2013,392(7): 1712—1723 谭振华等:基于引力学的在线社交网络空间谣言传播分析模型 [18] Qi Chao,Chen. Hongchang,He Chenglong, et al. Role [28] 2599 Sina Weibo [EB/OL]. [2016-05-10]. http://service, account. weibo&com [29] Ren Donghao, Zhang Xin, Wang Zhenhuang, et al. analysis of social network users based on neighborhood dissemination capability [C] //Proc of the 5th In.t Conf on Software Engineering and Service Science. Piscataway, NJ : IEEE, 2014: 1084-1087 [19] Zhang Nan, Chai Yueting, Liu Yi, et al. Modeling follow and forward behaviors of micro-blog user [C] //Proc of Int Conf of Management Science and Engineering. Piscataway, NJ: IEEE [20] [30] WeiboEvents: A crowd sourcing weibo visual analytic system [C] //Proc of IEEE Pacific Visualization Symp. Piscataway, NJ IEEE ,2014: 330-334 (2016-02 Gephi. The open graph Viz platform [EB/OL]. 15) [2016-06-10]. https://gephi.org ,2013: 113-119 Kempe D,Kleinberg J,Tardos E. Maximizing the spread of influence through a social network [C] //Proc of the 9th In.t Tan Zhenhua , born in 1980. PhD. Associate aprofessor. Member of CCF. His main Conf on Knowledge Discovery and Data Mining. New York: ACM ,2003: 137-146 [21] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model [C] / Proc of the 12th Int Conf on Knowledge-Based Intelligent Information and Engineering Systems. Berlin: Springer, 2008: 67-75 [22] Lh Shimming,Pan Li. Influence maximization in independent cascade model with limited propagation distance [G] //Web Technologies and Applications. Berlin: Springer,2014: 2334 [23] Chen Wei,Lakshmanan L V S,Castillo C. Information and Influence Propagation in Social Networks [M]. San Rafael, CA: Morgan i Claypool Publishers,2013: 9—35 [24] Fan Bo. Users report of sina Weibo in 2015 [EB/OL].(2015-12-21) [2016-05-10]. http;//data, weibo. com/report/ reportDetail?id= 304 (in Chinese)(樊博.2015 微博用户发展报告[EB/O L]. (2015-12-21) [2016-05-10]. http://data, weibo. com/report/reportDetail?id = 304) [25] Zhang Haiyi,Li Di. Naive Bayes text classifier [C] //Proc of In.t Conf on Granular Computing. Piscataway, NJ: IEEE, 2007: 708-708 [26] Goyal A,Bonchi F,Lakshmanan L V S. Learning influence probabilities in social networks [C] //Proc of the 3rd ACM In.t Conf on Web Search and Data Mining. New York: ACM,2010: 241-250 [27] NLPIR-team. NLPIR big data search imining development platform [EB/OL]. [ 2016-05-10 ]. https://github. com/ NLPIR-team!NLPIR research interests include networking 】behavioranalysis, information security and distributed secret sharing. s Shi Yingcheng, born in 1991. Master candidate. His main research interests include networking behavior analysis and rumor propagating modeling. c Shi Nanxiang, born in 1993. Master candidate. His main research interests include data mining and distributed secret sharing scheme. 1Yang Guangming , born in 1961. Professor. His main research interests includeinformation security and computer operating system. Wang Xingwei, born in 1968. PhD. Professor. Senior member of CCF. His main research interests include future Internet technology, cloud computing and information security. 因篇幅问题不能全部显示,请点此查看更多更全内容