您的当前位置:首页正文

广告经营

2023-08-04 来源:好走旅游网
 社交网络中的信息传播研究——剖析问答网站Quora中帖子的传播原理

作者介绍:Edwin Chen 是Twitter的数据科学家,个人主页 http://blog.echen.me/ 英文原文链接

(http://blog.echen.me/blog/2011/09/07/information-transmission-in-a-social-network-dissecting-the-spread-of-a-quora-post/) 正文

首先我们看一个视频链接(www.youtube.com/watch?v=cZ4Ntg4jQHw),了解一个帖子是如何在社交问答网站Quora中传播的。

信息是怎样通过网络传播的呢?正如我们所知道的,Quora的吸引力主要得归功于它的社交特性。当你拥有了一个社交网络账号后,你的邻居的一言一行,都将被发布到你的网络主页上,于是信息就像瀑布一样,以多种方式传播开来。那这样的机制是如何影响人们对事物的认识的呢?

举个例子来说,当你的小孩在学校学到了一个俚语。他并没有仅仅是上学的时候,在自己所在的Mckinley小学使用。在一次和另外学校的一次足球训练上,他把那个俚语告诉给了他的朋友。又过了几个月,他甚至第一次在家里使用了这句俚语。你听到后,也非常喜欢,于是你开始在上班的时候使用它。最后,Justin Bieber在他的歌曲中使用了这个俚语,也就是从此开始,这个俚语被爆炸式地传播开去。

于是我们要问,信息是怎样在社交网络中传播的呢?问答社交网站中的一个问题的答案会传到哪些人,并且是怎样到达那些人的?(用户都是单独地发现了新答案,或者存在一个信息传播的中心呢?)一个帖子(在问答社交网站中,post代表的是一个问题,之后翻译相同)关注度如何上升或者下降的?(在另外一些网站,他们对帖子的生命周期有限制,在第一波高峰后会很快被遗忘。然而当用户相互联系在一起后,在另外的人眼里,每一次的支持投票,都可能将一个帖子重新捧火,这个改变是怎样做到的呢?)

(尽管我研究的数据来自Quora,但是我希望这篇文章所得出的结论,同样能被应用到其他的社交网络,比如Facebook, Twitter和LinkedIn。)

为了给出一个最初的答案对于上述提到的问题,我研究了我在Quora上的一个比较受欢迎的帖子“一个门外汉是如何介绍随即森林的”链接

(http://www.quora.com/Random-Forests/How-do-random-forests-work-in-laymans-terms)

用户,话题

在深入研究帖子的投票机制影响力之前,我们首先了解些背景,看这个帖子可能传播到那些人。 如下是一个问题关注的话题图谱。(每个节点代表一个话题,每一次如果投了支持票的用户X同时关注了话题A和B,那么我在话题A和B之间增加一条边)

我们能从上面的图谱中发现,对这个问题投支持票的用户,比较感兴趣下面三种类型的话题:

· 机器学习和其他技术话题(绿色聚类):分类,数据挖掘,大数据,信息检索,数据分析,概率,支持向量机,R语言,数据科学等。

· 创业/硅谷(红色聚类):Facebook,瘦身创业,投资,种子基金,天使投资,技术趋势,产品管理,硅谷公司合并和收购,Asana, 社会游戏,Quora,Mark Zuckerberg, 用户体验,创始人和企业家等。 · 普通智力思维话题(紫色聚类):TED,科学,读书推荐,哲学,政治,自我提升,旅行,生活小妙招等。

同时,如下是用户的网络关系图谱(如果A关注B,那么A和B之间将有一条边):

从上面的用户图谱中,我们能看出主要有三类用户:

· 绿色聚类的用户都是些大人物(power user)和Quora的员工。

· 橙色聚类的用户大多数来自于机器学习领域的人,像Oliver Grisel, Christian Langreiter和 Joseph Turian。 · 而紫色聚类主要是我的粉丝。

· 更小的聚类用蓝色和黄色表示。(这里有大量的独立用户,不和任何人有联系,而我把那一部分的东西过滤掉了。)

发现这些话题和用户之间有如下关系:

· 橙色的用户聚类更多关心机器学习:在这个聚类中,有79%的用户关注了更多的绿色话题(机器学习和技术话题)而不是红色和紫色话题(创业和普通智力思维话题)。

· 而绿色用户却正好相反:77%的用户关注了更多的红色和紫色话题(创业和普通智力思维话题)而不是机器学习和技术话题。

然而你可能会问:在投了支持票的用户之间的这种联系与帖子的传播有什么关系呢?

社会投票动力学(Social Voting Dynamics)

我们先看如下演示:

http://v.youku.com/v_show/id_XMzUxMDg3NTQ0.html

为了表示这种社会学的投票动力机制,如果用户A通过投了支持票而使帖子传播到B,那么我从A到B画一条边。(具体来说,如果Bob关注了Alice,并且Alice的赞成帖子五天内让Bob看到,我们就从Alice到Bob画一条线,这样就模拟了Alice在我的帖子和Bob之间起到了桥梁的作用。) 同时,

· 绿色节点是那些用户,他们至少有一条边。

· 蓝色节点是那些用户,他们至少关注了一个这个帖子所属的话题(也就是说,用户自己也能发现这个话题对应的回答)。

· 红色节点是那些用户他们没有任何的连接,并且也没关注任何这个帖子所属的话题(也就是说不能确定这些用户他们如何发现这个帖子)。

· 当用户产生更多的连接时,他们的规模会增大。 如下对视频有个比较详细的解释:

· 在2月14(这天我写了一个回答),有一阵子的激烈传播。 · 几天过后,Tracy Chou赞同了我的回答,又导致了一波小高峰。

· 过后相当安静!Alex Kamil引来了一阵的赞同投票。同时发现Ludi Rehak通过自己的回答也引发了一阵的关注。他们很快被Christian Langreiter关注,之后这个帖子在对机器学习感兴趣的人中间,被广泛关注。 · 之后再一次安静了下来,直到几个月后,Aditya Sengupta让她的大量粉丝关注了这个帖子,同时她的赞同投票让MarcBodnick知道了,这哥们又导致了一轮广泛的关注。

(我们已经了解到了用户之间的关系图以及帖子是怎样传播的。 例如许多橙色用户来自于AlexiKamil和Christian Langreuter的投票, 很多绿色用户来自于Aditya Sengupta 和Mark Bodnick 的投票。然而有趣的是,为什么不像橙色用户,绿色用户并没有立即出现?那些很早就赞同的用户像Kah Seng Tay, Tracy Chou, Venkatesh Rao 和 Chad Little,直到几个月后AdityaSengupta的投票,才使许多绿色用户像Marc Bodnick, Edmond Lau发现了这个帖子。是不是简简单单的首次投票后就消失了呢?是不是起初关注的不够而被忽略呢?是不是用户倾向于相信更多的投票呢?)

从又一个投票动力学原理来看,如下图演示了早期的活动情况:

结尾

我们仍然有很多需要进一步探讨的问题,例如:

· 那些导致了小高峰的用户与没有导致小高峰的用户相比有什么不同呢?我相信并不是简简单单粉丝数量的问题。当许多具有大量粉丝的用户投了票过后,却还是没有导致大量的对帖子的关注。那是不是和权威性有关呢?

· 一个帖子究竟能传播好远呢?很显然,一个帖子至少会到达除自己外的一度分离距离(one degree of separation away from me,就是一个关注者);这种分离维度服从什么分布呢?分离维度和投票时间之间是不是有某种联系呢?

· 当一个用户因为看了我的回答而开始关注我,我们能从这个人上面了解到什么?是否还有更小的维度分离?他们是否更感兴趣机器学习呢?他们之前是否投了我的其他的帖子呢?(或许只有超过了某个兴趣阈值是,关注者才有可能被接纳。)

为了总结我们所讨论的内容,我列出了一个帖子在社交网络中传播的统计数据:

· 有五个活跃的聚类,在最初发布后,被名人(power users)或者很少连接的普通人刺激地更加活跃。 · 有35%的用户是因为其他人,而非赞成投票,而关注我的帖子(问题的回答)的。

· 通过用户之间的连接关系,这个帖子能够到达多种用户:有32%的投赞成票的用户甚至没有关注这个帖子所属的任何话题。

· 77%的赞成票是来自于发帖后两周的用户。

· 如果我们仅仅考虑那些投赞成票的,并且他们关注了这个帖子所属类别中的至少一个话题的用户,有33%的用户并没有直接看到我的帖子,而是通过其他人才发现的。换句话说,就是有可能大概三分之一用户是通过社交网络感兴趣我的这个帖子的。

所以看上去社交网络在帖子的传播过程中,扮演着重要的角色。最后我想感谢Stormy Shippy,他提供给我一个很好的脚本工具,用来收集这些数据。 (翻译有误的地方,请告诉我,谢谢^_^)

1)建模准备

数学建模是一项创新活动,它所面临的课题是人们在生产和科研中为了使认识和实践进一步发展必须解决的问题。“什么是问题?问题就是事物的矛盾,哪里有没解决的矛盾,哪里就有问题”。因此发现课题的过程就是分析矛盾的过程贯穿生产和科技中的根本矛盾是认识和实践的矛盾,我们分析这些矛盾,从中发现尚未解决的矛盾,就是找到了需要解决的实际问题,如果这些实际问题需要给出定量的分析和解答,那么就可以把这些实际问题确立为数学建模的课题,建模准备就是要了解问题的实际背景,明确建模的目的,掌握对象的各种信息,弄清实际对象的特征,情况明才能方法对。

(2)建模假设

作为课题的原型都是复杂的、具体的,是质和量、现象和本质、偶然和必然的统一体,这样的原型,如果不经过抽象和简化,人们对其认识是困难的,也无法准确把握它的本质属性。建模假设就是根据实际对象的特征和建模的目的,在掌握必要资料的基础上,对原型进行抽象、简化,把那些反映问题本质属性的形态、量及其关系抽象出来,简化掉那些非本质的因素,使之摆脱原型的具体复杂形态,形成对建模有用的信息资源和前提条件,并且用精确的语言作出假设,是建模过程关键的一步。对原型的抽象、简化不是无条件的,一定要善于辨别问题的主要方面和次要方面,果断地抓住主要因素,抛弃次要因素,尽量将问题均匀化、线性化,并且要按照假设的合理性原则进行,假设合理性原则有以下几点:

①目的性原则:从原型中抽象出与建模目的有关的因素,简化掉那些与建模目的无关的或关系不大的因素。

②简明性原则:所给出的假设条件要简单、准确,有利于构造模型。

③真实性原则:假设条件要符合情理,简化带来的误差应满足实际问题所能允许的误差范围。

④全面性原则:在对事物原型本身作出假设的同时,还要给出原型所处的环境条件。

(3)模型建立

在建模假设的基础上,进一步分析建模假设的各条件首先区分哪些是常量,哪些是变量,哪些是已知量,哪些是未知量;然后查明各种量所处的地位、作用和它们之间的关系,建立各个量之间的等式或不等式关系,列出表格、画出图形或确定其他数学结构,选择恰当的数学工具和构造模型的方法对其进行表征,构造出刻画实际问题的数学模型。

在构造模型时究竟采用什么数学工具,要根据问题的特征、建模的目的要求以及建模者的数学特长而定 可以这样讲,数学的任一分支在构造模型时都可能用到,而同一实际问题也可以构造出不同的数学模型,一般地讲,在能够达到预期目的的前提下,所用的数学工具越简单越好。

在构造模型时究竟采用什么方法构造模型,要根据实际问题的性质和建模假设所给出的建模信息而定,就以系统论中提出的机理分析法和系统辨识法来说,它们是构造数学模型的两种基本方法。机理分析法是在对事物内在机理分析的基础上,利用建模假设所给出的建模信息或前提条件来构造模型;系统辨识法是对系统内在机理一无所知的情况下利用建模假设或实际对系统的测试数据所给出的事物系统的输入、输出信息来构造模型。随着计算机科学的发展,计算机模拟有力地促进了数学建模的发展,也成为一种构造模型的基本方法,这些构模方法各有其优点和缺点,在构造模型时,可以同时采用,以取长补短,达到建模的目的。

(4)模型求解

构造数学模型之后,再根据已知条件和数据分析模型的特征和结构特点,设计或选择求解模型的数学方法和算法,这其中包括解方程、画图形、证明定理、逻辑运算以及稳定性讨论,特别是编写计算机程序或运用与算法相适应的软件包,并借助计算机完成对模型的求解。

(5)模型分析

根据建模的目的要求,对模型求解的数字结果,或进行变量之间的依赖关系分析,或进行稳定性分析,或进行系统参数的灵敏度分析,或进行误差分析等。通过分析,如果不符合要求,就修改或增减建模假设条件,重新建模,直到符合要求;通过分析如果符合要求,还可以对模型进行评价、预测、优化等。

(6)模型检验

模型分析符合要求之后,还必须回到客观实际中去对模型进行检验,用实际现象、数据等检验模型的合理性和适用性,看它是否符合客观实际,若不符合,就修改或增减假设条件,重新建模,循环往复,不断完善,直到获得满意结果 目前计

算机技术已为我们进行模型分析、模型检验提供了先进的手段,充分利用这一手段,可以节约大量的时间、人力和物力。

(7)模型应用

模型应用是数学建模的宗旨,也是对模型的最客观、最公正的检验 因此,一个成功的数学模型,必须根据建模的目的,将其用于分析、研究和解决实际问题,充分发挥数学模型在生产和科研中的特殊作用。

以上介绍的数学建模基本步骤应该根据具体问题灵活掌握,或交叉进行,或平行进行,不拘一格地进行数学建模则有利于建模者发挥自己的才能。 关于软件有matlab lindo 等

参考资料:数学建模教材

因篇幅问题不能全部显示,请点此查看更多更全内容