Facebook世界的数据科学

现在有一百多万人使用我们的Wolfram|阿尔法个人分析Facebook.并且作为我们的一部分最新更新,除了收集一些匿名的统计数据,我们还推出了一个数据捐赠项目,允许人们为我们的研究提供详细的数据。

几周前我们决定开始分析所有这些数据。而且我必须说,如果别的东西是一个极为优势的典范Mathematica和Wolfram语言进行数据科学。

我们一直计划用我们收集的数据来增强我们的个人分析系统。但我无法抗拒也试图用它做一些基础科学。

我一直对人和他们的生活轨迹感兴趣。但我从来没能把它和我对科学的兴趣结合起来。直到现在。在过去的几周里,看到我们能够取得的成果,我感到非常激动。有时证实我的印象;有时会展示一些我从未想过的东西。一直让我想起我研究过的科学现象一种新的科学

那么数据是什么样的呢?以下是一些数据捐赠者的社交网络——朋友群被赋予不同的颜色。(任何人都可以找到自己的网络使用Wolfram | Alpha.或者的SocialMediaData功能在Mathematica。)

社交网络

所以第一个要问的量化问题是:这些网络通常有多大?换句话说,人们在Facebook上通常有多少朋友?好吧,至少对我们的用户来说,这很容易回答。中位数是342 -这里有一个直方图显示了分布(有一个临界值是5000,因为这是一个个人Facebook页面的最大好友数):

为用户分发朋友数量

但我们的用户有多典型?在大多数方面 - 我们可以告诉他们看起来很典型。但肯定存在一些差异。喜欢这里的分发不仅适用于我们的用户,还可以为他们的朋友(有一个数学微妙而导出,我稍后会讨论):

用户+好友的好友数分布

我们看到的是,在这个更广泛的Facebook人口中,有些人几乎没有Facebook的朋友。是否应该包含在样本中的人,这是一个辩论问题。但只要一个人看起来很适当的比较,聚集体,等等,它们似乎没有巨大的影响。(200个朋友的尖峰可能与Facebook的朋友推荐系统有关。)

所以,好的。让我们举个例子,Facebook好友的典型数量是如何随着一个人的年龄而变化的。当然,我们所知道的都是自我报告的“Facebook时代”。我们来画一下朋友的数量随年龄的变化。实线是朋友的中位数;连续频带表示连续的八度分布。

朋友数量与年龄

经过迅速崛起,朋友们在迟到的青少年迟到的人中的数量峰值,然后下降。为什么是这样?我怀疑是对人民内在行为的反映,部分反映了Facebook尚未长期存在的事实。假设人们一旦他们添加了他们,他们就不会把朋友丢弃一个人可能期望的是朋友的数量只是随着年龄的增长而增长。对于足够的年轻人,基本上是我们所看到的。但是增长了一个限制,因为人们已经在Facebook上的年数有一个限制。并假设在年龄段大致不变,剧集表明的是,人们随着年龄的增长而逐渐增加了朋友。

但是他们加了什么朋友呢?例如,给定一个人的年龄,我们可以问他的朋友的年龄分布。以下是一些研究结果(年龄差异,尤其是70岁时的差异,来自我们现有的有限数据):

朋友年龄不同于不同的年龄

这是一个交互式版本,从而生成提供

我们首先看到的是,朋友的年龄总是在人的年龄或接近人的年龄时达到顶峰——这大概反映了一个事实,即在今天的社会中,许多朋友是在学校或大学里以年龄为基础的课堂上结识的。对于年轻人来说,这个年龄的峰值往往非常尖锐。对于老年人来说,这种分布越来越广。

我们可以总结通过绘制朋友年龄违反一个人的年龄(实线是朋友的中位年龄):

位于朋友的中位数与年龄

最年轻的年龄有一个异常,可能是因为13岁以下的孩子误报了他们的年龄。但除此之外,我们看到年轻人倾向于有朋友,他们对自己非常接近。随着人们变大的拓展可能与在其工作场所和社区中的非年龄相关的朋友的人有关。随着上述阵列的阵列,由人们的中期建议,在年轻的年龄开始,大大年龄的次要峰,可能随着人们的孩子成为青少年,并开始使用Facebook。

那么还可以看看人们生活的轨迹吗?以下是根据报告的关系状态作为年龄的函数的细分:

关系状态分数和年龄

此处更详细,分离出男性和女性的分数(“已婚+”意味着“民事联盟”,“分开”,“丧偶”等以及“已婚”):

关系状态分数和年龄

在与孩子们(稍微往往比男孩稍微比男孩稍微往往是男孩)有一些明显的愚蠢,误报了自己已婚。但总的来说,趋势很清楚。在20世纪20年代初开始结婚的比率 - 女性比男性更早,而不是男性 - 在30年代后期再次下降,然后左右的人曾被结婚。The fraction of people “in a relationship” peaks around age 24, and there’s a small “engaged” peak around 27. The fraction of people who report themselves as married continues to increase roughly linearly with age, gaining about 5% between age 40 and age 60—while the fraction of people who report themselves as single continues to increase for women, while decreasing for men.

我不得不说,当我看上面的剧情时,我被他们的相似性与化学反应等物理过程的情节击中。这就像所有这些人一样,具有他们生活的所有复杂性,仍然有点像分子 - 以某些“反应率”进入关系,结婚等。

当然,我们在这里看到的只是为“Facebook World”。那么它如何与世界相比?嗯,我们在Facebook世界中至少可以衡量的一些人也在官方普查中衡量。例如,我们可以看到我们的结果如何在给定年龄与官方人口普查的结果相比,我们的成绩与来自官方人口普查的结果相比:

结婚比率与年龄

我惊讶于这些信件如此紧密。尽管有一些明显的差异。比如20岁以下的孩子在Facebook上谎报自己已婚。在较年长的一方,寡妇们仍然因为Facebook的原因认为自己已经结婚了。对于20多岁的人来说,也有一个小小的系统差异——Facebook上的人平均比人口普查显示的结婚时间晚几年。(正如人们所料,如果排除美国农村人口,差距会明显缩小。)

谈人口普查,我们可以一般来说我们的Facebook人口如何与美国人口相比。例如,我们发现,毫不奇怪,我们的Facebook人口大量加权对年轻人来说:

人口与年龄

好的。我们在上面看到一个人的朋友数量是如何取决于年龄的。性别呢?也许令人惊讶的是,如果我们观察所有男性和所有女性,在朋友的分布上并没有明显的差别。但如果我们把男性和女性作为年龄的函数来看待,就有了明显的区别:

朋友数量与年龄

十几岁的男孩往往比十几岁的女孩有更多的朋友,也许是因为他们在接受朋友方面没有那么挑剔。但在20岁出头之后,性别差异迅速缩小。

关系状态有什么影响?这是男性和女性数据作为年龄的职能:

中位数的朋友数量与年龄

在较旧的集合中,关系状态似乎没有太大差异。但对于它的年轻人而言。与青少年(MIS)报告自己是“已婚”,平均是与那些没有人的朋友。对于早期的十几岁的女孩,他说他们“订婚”(也许能够标记一个BFF),通常拥有更多的朋友,而不是那些说他们单身或只是“在关系中”的朋友。

Facebook用户报告的另一件相当可靠的事情是位置。而且很常见的是在不同的地方会有很多不同。下面是世界各国朋友的中位数比较(没有足够数据的国家是灰色的),以及美国的州:

位置中位数的朋友数量

有一些奇怪的效果。俄罗斯和中国等国家的好友数中位数较低,因为这些国家的人们并没有广泛使用Facebook进行联系。也许美国西部的朋友数量较少是因为人口密度较低。但我不知道为什么在冰岛、巴西、菲律宾或密西西比这样的地方,Facebook上的好友数量会更高。(当然会有一些“噪音”,是人们谎报自己的位置造成的。但考虑到我们的样本量,我认为这不会产生太大影响。)

在Facebook中,人们可以列出“家乡”和“当前城市”。以下是如何在同一个美国国家的概率随着年龄而变化:

移动状态与年龄的百分比

我们所看到的和人们所期望的差不多。对于人口中的一部分,有一定的随机移动率,这在年轻人中可见。在18岁左右,随着人们离开他们的“家乡”去上大学等等,他们的年龄会有一个飞跃。后来,一些人搬回来,并逐渐把他们所居住的地方视为他们的“家乡”。

你可以问人们从哪里来,从哪里来。这是一个图表,显示了在美国不同州和不同国家之间移动的Facebook用户数量:

美国各国之间的迁移

各国之间迁移

我们可以问大量的人口统计学问题。让我们回到社交网络。人们往往会和和自己相似的人交朋友,这是一个常见的现象。为了验证这一点,我们可能会问朋友更多的人是否会有朋友更多的人。这是我们的用户拥有的朋友的中位数,作为他们自己拥有的朋友数量的函数:

中位数朋友算与朋友数量

结果是,是的,一般来说,朋友越多的人朋友越多。尽管我们也注意到,朋友很多的人朋友往往比自己的朋友少。

看到这让我有机会讨论我早些时候提到的微妙信息。这篇文章中的第一个绘图显示了我们用户拥有的朋友数量的分布。但是他们的朋友拥有的朋友数量呢?如果我们只有所有用户的所有朋友平均,这就是我们与用户本身的原始分发方式的方式:

分布朋友数量

看起来我们的用户的朋友总是往往比我们的用户自己更多的朋友。但实际上我们知道这不是真的。发生什么了?这是一个微妙的微妙,但一般的社交网络现象称为“友谊悖论”。问题是,当我们对用户的朋友进行样本时,我们不可避免地以非常不统一的方式对所有Facebook用户进行采样。特别是,如果我们的用户代表统一样本,则任何给定的朋友将以与他们有多少朋友成正比的速率进行采样 - 与更多朋友的人更频繁地进行采样,因此普通朋友数量上升。

通过对他们所拥有的朋友数量的重量比例来纠正这种效果是完全可能的 - 这就是我们在这篇文章中所做的事情。通过这样做,我们决定事实上,我们的用户的朋友通常不会比我们的用户自己更多的朋友;相反,他们的中位数的朋友实际上是229而不是342。

值得一提的是,如果我们看看我们为Facebook人口推断的朋友数量的分销,那么对幂律相当合适,具有指数-2.8。这是许多类型的网络的常见形式 - 这可以被理解为称为“优先附件”的效果的结果,因为网络增长,已经有许多连接的节点优先获得更多连接,导致a限制“无尺寸网络”,具有幂律特征。

但是,好吧。让我们更详细地看看个人用户的社交网络。我在Facebook上不够勤奋,我的社交网络不够有趣。但我15岁的女儿凯瑟琳很好心,让我展示了她的关系网:

社交网络

凯瑟琳在Facebook上的每个朋友都有一个点,他们之间的联系显示了谁是谁的朋友。(没有凯瑟琳自己的点,因为她会和其他每个点相连。)网络的布局是为了显示朋友的集群或“社区”(使用Wolfram语言功能)PERCHAGHCOMMURITIONS.)。它是一个惊人的网络“讲故事”的程度。每个集群对应于某些凯瑟琳的生命或历史。

以下是来自我们的数据捐赠者的所有网络:

社交网络

毫无疑问,这些网络中的每一个都讲述了一个不同的故事。但我们仍然可以产生整体统计数据。例如,这里是朋友群的数量如何随着年龄的增长而变化(如果我们有更多的数据,那么噪音):

平均簇数与年龄

即使在13岁的时候,人们似乎通常有3个群体(可能是学校、家庭和社区)。随着他们年龄的增长,去不同的学校,工作,等等,他们积累了另一群人。目前,这一数字在30岁以上的人群中处于饱和状态,这在很大程度上是因为Facebook出现的时间有限。

典型的群集有多大?最大的一个通常是100个朋友;下面的曲线显示了随着年龄的增长:

最大的集群中位数与年龄

这是最大群集的大小如何随着整个网络的一小部分而变化为年龄:

最大群集的相对大小与年龄

那么网络的更详细属性呢?是否存在一种网络结构的“周期表”?或者像这样的分类方案我很久以前做的适用于蜂窝自动机吗?

第一步是找到每个网络的某种标志性总结,例如,我们可以通过查看集群的整体连通性,忽略它们的子结构来做到这一点。因此,例如,对于Catherine(她恰好提出了这个想法),这将她的网络简化为以下的“集群图”:

社会网络的聚类图

对上面所示的数据捐赠网络做同样的事情,下面是我们得到的:

迷你社交网络

在制作这些图表时,我们将保持每个群集至少2个朋友。但要获得更好的整体视图,我们只能删除任何群集,比如所有朋友的10% - 在这种情况下,例如Catherine的群集图变为:

与少于10%的朋友的聚类图

现在,例如,我们可以计算所有数据捐赠网络中出现的不同类型结构的相对数量:

不同类型的群集社会网络的柱状图

我们可以看看这些结构的各个部分是如何随着年龄的变化而变化的:

社区图形化妆与年龄

我们学到什么?最常见的结构包括两个或三个主要簇,所有这些都是连接的。但是,还有一个结构,其中主要集群是完全断开连接的 - 可能是一个人的生命的反射方面,由于地理或内容的原因也完全断开连接。

对于每个人来说,在他们的集群图的结构背后都有一个不同的详细的故事。有人可能会认为这意味着不可能有一个关于这类事情的普遍理论。在某种程度上,这有点像试图找到人类历史的一般理论,或生物进化进程的一般理论。但现在关于Facebook世界的有趣之处在于,它为我们提供了如此多的数据来形成理论。

我们不需要只看群集图,甚至朋友网络:我们可以挖掘几乎任意深的东西。例如,我们可以分析人们在Facebook墙上发布的帖子的聚合文本,比如根据他们谈论的话题对他们进行分类(这使用了一个用Wolfram语言编写的自然语言分类器,并使用一些大型语料库进行训练):

在Facebook上讨论的主题

每一个话题都有一些出现频率很高的词:

关于Facebook上讨论的主题的词云

对于每个话题,我们都可以分析它的受欢迎程度如何随(Facebook)年龄而变化:

在Facebook上讨论的主题

这几乎是令人震惊的,这告诉我们人们典型兴趣的演变。人们谈到视频游戏,因为他们变老,更多关于政治和天气。男人通常比女性更讨论运动和技术 - 而且对我来说有点令人惊讶,他们还会更多地讨论电影,电视和音乐。女性更多地讨论宠物+动物,家庭+朋友,关系 - 并且至少在他们达到患儿患儿的年份后,健康。任何人谈论学校+大学的高峰时间(左右)左右20岁。人们通过青少年谈论“特殊场合”(主要是生日)的人来说不那么兴趣,但稍后逐渐获得利益。人们在20多岁时谈论职业+金钱逐步越来越感兴趣。等等。等等。

其中一些是令人沮丧的陈规定型。大多数人对任何人都知道不同年龄的人的合理多样性的人来说并不令人惊讶。但是,我既有卓越的是,我们如何看到在上面的图片中如上所述的定量细节,就像他们经历过生活的迹象一样。

当然,上面的图片都基于聚合数据,仔细匿名。但如果我们开始看个人,我们将看到各种其他有趣的东西。而且,例如,我很奇怪地分析我自己的档案25年的电子邮件- 然后也许通过比较一般人群中发生的事情来预测自己的事情。

几十年来,我一直在稳步积累无数的轶事“案例研究”,了解人们生活的轨迹 - 从中​​,我肯定注意到了很多一般的模式。但是,我在过去几周内做了什么,这是我们在过去几周所做的事情是有多少系统信息可以立即得到所有。这一切都是什么意思,我们可以从中建造什么样的一般理论,我尚不知道。

但这感觉就像我们开始能够用一架严肃的“计算望远镜”来观察“社会宇宙”。它让我们发现各种各样的现象。有可能帮助我们更多地了解社会和我们自己。顺便说一下,这提供了一个很好的例子,说明用数据科学和我长期以来致力于开发的技术可以实现什么。

发布在:数据科学个人分析

52岁的评论

  1. 你能把那些黄色矩形词云的大分辨率拷贝链接起来吗?其中一个被分为24个主题,其中有高频词汇。

    这对我的esl学生来说是非常棒的话题;想想那些可怜的学生吧! 

    杰克witkowski
  2. 迷人的东西!谢谢你的发布。

    斯科特史密斯
Baidu