我相信总有一天每个人都会例行公事地收集关于自己的各种数据。但因为我对数据感兴趣已经很长时间了,我很早以前就开始做这个了。我以为很多人也在这么做,但显然他们没有。所以现在我收集的个人数据可能是世界上最大的。
为了“自我意识”,我每天都会让自动化系统在前一天给我发几封电子邮件。但是,尽管我多年来一直在积累数据——而且总是打算分析数据——但我从来没有真正抽出时间来做这件事。但随着数学软件以及自动化的数据分析能力不久前放出在里面Wolfram | Alpha职业我想现在是时候去尝试一下了——并把自己作为实验对象来研究所谓的“个人分析”。
让我们从电子邮件开始。我有一个完整的电子邮件存档,可以追溯到1989年,也就是一年后数学软件在我成立两年之后沃尔夫勒姆研究. 下面是一个带有点的图,显示了我自1989年以来发送的第三万封电子邮件中的每一封的时间:
从这个情节中,人们首先看到的是,是的,我一直很忙。20多年来,我每天醒着的时候都在发邮件,尽管在晚餐时间会有一点下降。每天的巨大差距来自于我睡觉的时候。在过去的十年里,我的情节一直很稳定,东部时间凌晨3点左右睡觉,早上11点左右起床(是的,我有点像夜猫子)。(2009年夏天的条纹代表欧洲之旅。)
但是90年代呢?那是我花了十年时间做隐士,非常努力地工作一种新的科学.故事情节很清楚地说明了为什么在20世纪90年代末,当我的一个孩子被要求举一个“夜行”的例子时,他们给了我一个例子。2002年戏剧性的中断是一种新的科学终于结束了,我可以开始过一种不同的生活。
那么情节的其他特点呢?有些与我生活中可识别的事件和趋势相吻合,有时也反映在我的生活中在线剪贴簿新利手机下载或时间线.有些邮件一开始我根本不懂,直到我快速搜索了一下我的电子邮件档案,才记起来。这是非常方便的,我总是可以深入和阅读原始电子邮件。因为就像任何长时间尺度的数据项目一样,在有一致的数据进行分析之前,都有各种各样的故障(比如电子邮件标题格式错误、未设置的计算机时钟和未标记的自动邮件),必须找到并系统地纠正这些故障。在此之前,在这种情况下,我可以相信,午夜的任何点实际上是我起床和发送邮件的时间(这在现在非常罕见)。
上面的剧情表明,多年来我的电子邮件量逐步增加。如果只绘制我作为时间的函数发送的电子邮件总数,可以更明确地看到这一点:
同样,这里有一些可见的生活趋势。90年代初的逐渐减少反映了我减少了对公司日常管理的参与,转而专注于基础科学。2000年代的增长是我重新参与,推动越来越多的公司项目。2009年初的峰值反映了Wolfram|Alpha发布的最后准备工作。(个人高峰期,包括2006年8月27日的冠军,大多是周末或旅行日,专门用来“处理”积压的电子邮件。)
上面的情节似乎支持“生活是复杂的”这一观点。但如果把数据稍微汇总一下,很容易得到的图看起来就像是一些简单的物理实验的结果。比如,这是我自1989年以来每天发送的邮件数量分布:
这个分布是什么?有一个简单的模型吗?我不知道。Wolfram|Alpha Pro告诉我们,它找到的最佳拟合是几何分布。但官方拒绝了这种说法。尽管如此,至少尾巴似乎——经常——遵循幂次定律。也许这告诉了我一些关于我自己的事情,尽管我不得不说我不知道是什么。
这些收件人绝大多数是我们公司内的人或邮件组。我怀疑,整体增长既反映了公司员工人数的增加,也反映了我和公司参与的项目数量的增加。高峰通常与紧张的早期项目有关,在那里我直接与许多人互动,而且还没有一个组织良好的管理结构到位。我不太理解最近的减少,考虑到项目的数量是有史以来最高的。我只是希望它反映出更好的组织和管理……
好了,所有这些都是关于我发的邮件。我收到的邮件呢?下面是一个比较我收发邮件的图表:
1996年和2009年的峰值都与大项目的后期阶段相关联(数学软件3和Wolfram的推出)在我正在观看各种细节,通常使用基于电子邮件的自动化系统。
好的。电子邮件是我系统存档的一种数据。我们可以从中学到很多东西。我收集的另一种数据是按键。多年来,我捕获了我输入的每一个按键——现在已经超过了1亿次:
这里有各种各样的细节需要提取:比如我输入的键中退格键的平均比例一直是7%左右(我不知道竟然有这么高!)或者我使用不同电脑和应用程序的习惯发生了怎样的变化。通过查看每天的总数,我可以看到写作活动的峰值——通常与创建较长的文档相关(包括博客帖子).但至少在整体层面上,像上面的情节对于按键和电子邮件来说看起来是相似的。
那么其他的活动指标呢?多年来,我的自动化系统一直在悄悄地将许多文件归档。例如,这显示了在我的日历中出现的事件的时间:
这些年来的变化直接反映了我生活中发生的事情。2002年之前,我做了很多单独的工作,特别是关于一种新的科学,并且只安排了几次会议。但是,随着我在公司发起越来越多的新项目,并采取越来越结构化的方法来管理这些项目,人们可以看到越来越多的会议被填满。虽然我的“家庭晚餐条纹”仍然清晰可见。
这是我多年来完成的每日平均会议(和其他日历活动)的情节:
这一趋势相当明显。它反映了这样一个事实,在过去的十年左右,我逐渐学会了更好地“公开”工作,在与群体互动时有效地解决问题,我发现这使我在利用他人的专业知识和授权必须完成的事情方面更加有效。
当我告诉人们这一点时,人们常常感到惊讶,但自1991年以来,我一直是远程CEO,几乎只通过电子邮件和电话(通常是屏幕共享)与我的公司进行交流。(不,我觉得公司的视频会议没什么用,我最近买的远程呈现机器人大部分时间都处于闲置状态。)
所以电话是我的另一个数据来源。这是我打的电话次数的图表(灰色区域是缺失的数据):
是的,我每天都花很多时间打电话:
这显示了白天在电话上找到我的概率是如何变化的:
这是过去几年所有日子的平均值,事实上我猜,如果平均排除了我因为这样或那样的原因而离开的日子,“峰值工作日概率”实际上会比70%还要高。
下面是查看数据的另一种方法,它显示了呼叫在给定时间开始的概率:
有一种奇怪的高峰模式——接近小时和半小时。当然,这是因为很多电话都是在这个时间安排的。这意味着,如果一个绘图会议开始时间和电话开始时间,你会看到一个很强的相关性:
我很好奇这种相关性有多强:实际上就是所有这些电话是如何安排的。通过查看数据,我发现至少在我的外部电话会议中,至少有一半的会议确实在约定时间的两分钟内开始。对于内部会议——通常会有更多的人参加,而且我通常会把会议安排在一个接一个的会议上——分布范围更广,如左图所示。
当你看到电话时长的分布时,你会看到一种“物理类”的背景形状,但在这之上有一个“明显的人类”峰值在1小时标记,与计划一个小时长的会议有关。
到目前为止,我们所讨论的一切都是关于智力活动的。但我也有身体活动的数据。就像在过去的几年里,我一直带着一个小小的数字计步器来测量我走的每一步:
再一次,这显示了相当多的一致性。我每天走的步数差不多。其中许多是在我一天的早些时候在一个街区内拍摄的(通常与我做的前几次会议同时进行)。这一点并不神秘:几年前,我决定每天做一些运动,所以我设置了一台电脑和手机,在跑步机上行走时使用。(是的,有了正确的人体工程学安排,人们可以在跑步机上打字和使用鼠标,至少可以达到我的速度——大约2.5英里/小时。)
好的,让我们把这些放在一起。以下是我过去十年的“平均每日节律”(或者在某些情况下,稍微少一点):
总体模式相当清晰。白天的会议和协作工作,晚餐休息时间,更多的会议和协作工作,然后在晚上更多的我自己的工作。我不得不说,看着所有这些数据,我被它的许多方面惊人的规律所震惊。但总的来说,我很高兴看到它。我的一贯经验是,我在日常生活的基本实践方面做得越多,我就越能精力充沛,对智力和其他事情也越自然。
对我来说,目标之一就是要有想法,希望是好的想法。那么,个人分析可以帮助我衡量这种情况发生的速度吗?
这可能看起来很难。但作为一个简单的近似,我们可以通过观察一个人何时开始使用新词或其他语言结构来想象他开始使用新概念的速度。在识别真正的新“单词”等方面不可避免地会有一些棘手的问题(例如,我已经设法确定,在过去十年中,当涉及到普通英语单词时,我已经输入了大约33000个不同的单词)。如果你只局限于某个特定的领域,事情就会变得容易一些,例如,这里有一个图,显示了什么是现在的名称数学软件函数第一次出现在我的邮件中:
开头的尖峰是一个工件,反映了我存档的电子邮件中显示的预先存在的功能。最后的下降反映了一个事实,即人们还不知道未来数学软件的名字。但有趣的是,在情节的其他地方可以看到小的“创造力爆发”,多数情况下(但不总是)与重要时刻相关数学软件历史——以及近年来人口密度的普遍增长。
作为一种完全不同的衡量创造性进步的方法,这是我修改章节文本时的一个情节一种新的科学:
我手头没有从项目一开始就有的数据。在1995年和1996年,我继续做研究,但停止了编辑文本,因为我被抽离去完成数学软件3(和关于它的书)。但除此之外,我系统地研究了这门科学的每一章和每一个领域,看到了不可阻挡的进步。可以看到写每一章所花的时间(第十二章《计算等价原理》用了最长的时间,差不多2年),以及哪些章节导致了哪些章节的变化。只要付出足够的努力,你就可以钻下去找出每一个发现的时间(它是更容易现代的数学软件自动历史记录).但是在过去的十年中,在所有这些单独的击键和文件修改之后,最终逐渐出现了成品一种新的科学.
通过分析我所保存的各种各样的数据,我们可以得出惊人的结论。事实上,还有许多其他类型的数据我在这篇文章中甚至没有提及。我还收集了多年的医疗测试数据(以及我尚未非常有用的完整基因组)、GPS定位跟踪、逐个房间的运动传感器数据、无穷无尽的公司记录等等。
当我想到这一切的时候,我想我最大的遗憾是我没有早点开始收集更多的数据。我的电脑文件系统有一些1980年的备份。如果我查看当前文件系统中的170万个文件,就可以做一种考古工作,查看很长时间没有被修改的文件(最早的日期是1980年6月29日)。
下面是我当前所有文件的最新修改时间:
颜色代表不同的文件类型。在早期,有纯文本文件(蓝点)和C语言文件(绿色)的混合。但逐渐地,有一个过渡到数学软件文件(红色)-当我完成时,页面布局文件(橙色)突发一种新的科学. 整个情节再一次成为我30多年计算机活动的一种英语。
那么那些从来没有在电脑上出现过的东西呢?巧合的是,几年前我也开始保存纸质文件,基本上是基于这样的理论:把所有东西都保存起来比担心哪些东西值得保存更容易。现在我已经扫描了大约23万页纸质文件,如果可能的话,还进行了OCR。这只是我们可以做的分析的一个例子,这是一个不同的4位数“日期类序列”出现在所有这些文档中的频率图:
当然,并非所有这些4位序列都指的是日期(特别是例如“2000”) - 但其中很多都这样做。从剧情中,可以在1984年在我使用纸张中看到相当突然的周转 - 当我转过角落到数字存储时。
个人分析的未来是什么?有很多事情可以做。其中一些将专注于大规模趋势,一些将专注于识别具体事件或异常情况,还有一些将专注于从个人数据中提取“故事”。
随着时间的推移,我期待着能够询问Wolfram | Alpha关于我的生活和时代的各种事情,并让它立即生成关于它们的报告。不仅能够作为我个人记忆的附属物,而且能够自动计算历史,解释事情发生的方式和原因,然后做出预测和预测。
随着个人分析的发展,它将给我们一个全新的维度来体验我们的生活。乍一看,这一切似乎都很乏味(当然,当我回过头来看这篇博文时,也存在这样的风险)。但不久之后,人们就会明白这一切是多么的有用,每个人都会这么做,并想知道他们以前是如何度过难关的。希望他们早点开始,不要“失去”早年。
4月5日新增评论:
感谢所有伟大的评论和建议,在这里和在单独的消息!
我想回答几个常见的问题:
我怎么能做和你一样的分析呢?
最终,我希望答案会非常简单:只需将您的数据上传到Wolfram|Alpha Pro,它将是自动的。但现在,你可以用数学软件程序。我们刚发帖一个博客说明部分分析,并链接源代码数学软件你需要的程序。当然,要使用它们,您仍然需要将数据转换为某种可读形式。
您使用什么系统收集所有数据?
在不同的时间,在不同的计算机系统上。例如,对于击键数据,我使用了几个不同的键盘记录者,他们大多是一些主要用于秘密用途的模糊软件。对于电话呼叫数据,我所有的固定电话都一直连接到我们公司的电话系统(最初是PBX,现在是VoIP系统),因此我能够使用其内置的日志功能。在电子邮件方面,我在1989年建立了一个脚本,作为我们公司电子邮件系统的一部分,该脚本将我所有的邮件复制出来,并将其发送到存档。多年来,当我们更改电子邮件系统时,此脚本必须更新多次。
你的跑步机是如何设置的?
这是很简单的。我有一个键盘安装在一块板上,连接到跑步机的两侧栏杆上。我仔细地调整了键盘的高度,在键盘前面放了一条凝胶条,让我的手腕休息。我把鼠标放在跑步机旁边的一个小平台上。我面前有两个显示器。我有时想过开发一种设备,让其他人把跑步机“电脑化”,但这似乎与我的日常工作相距甚远。(当我第一次安装跑步机的时候,我仍然为自己即将步入中年,需要锻炼感到有点尴尬。)
你有这么多事要忙,有时间陪家人吗?
令人高兴的是,确实如此。我一直在家工作,这对我有很大的帮助,所以当我不在工作的时候,我可以花时间和我的家人在一起。这对我很有帮助,因为我在很长一段时间里一直坚持和我的家人一起吃晚饭(在我的大多数作品中,傍晚时分可以看到两个半小时的间隔)。在博客中,我专注于与工作相关的个人分析;我还有很多以家庭为导向的,但我没有在博客中提到这些。