数据文明的进步:时间表

的前兆我们要做的可计算的数据Wolfram | Alpha在许多方面可以追溯到人类历史的开端——事实上,它们的发展与整个文明的进步有着迷人的联系。

去年我们邀请今天伟大的数据仓库的领导者Wolfram数据峰会——作为一篇谈话文章,我们整理了一个系统数据和可计算知识的历史发展时间表。

今年,当我们接近2011年沃尔夫勒姆数据峰会,我们已经采纳了我们得到的意见和建议,我们正在提供一个五英尺长1.5米印刷海报以及基本的内容在网络上

历史数据的时间表

时间轴讲述了一个引人入胜的故事:我们的文明是如何一步步地将越来越多的知识领域系统化——收集与之相关的数据,并逐渐使它们易于自动化。

通常的历史叙述很少提及大多数这些发展——尽管它们中的许多在我们今天的生活中是如此明显。度量衡。日历。按字母顺序列表。块数据。字典。地图。音乐符号。股票图表。时间表。 Public records. ZIP codes. Weather reports. All the things that help us describe and organize our world.

从历史上看,每一个都需要一个想法,并且有一个起源。最常见的情况是,世界的某些方面实际上正在变得越来越大——一个组织或一个人率先引入了一种系统化的方法。

有时候,参与其中的人要么是有权有势的人,要么是名人。但通常情况下,他们在某种意义上处于幕后,只是在解决实际问题——通常是谦逊地开始。然而,随着需求的增加,他们发明的也许是专制的计划逐渐传播开来。

大多数人都听说过欧几里得他定义了一种将数学系统化的方法尤利乌斯•凯撒他对一年中的月份进行了标准化。很少有人听说过圭多·德阿雷佐,他在公元1030年发明了音乐的五线谱法。还有罗伯特·考德里,他在1604年编写了可能是第一本字母字典。或者本间宗久,他在1755年制作了可能是第一张市场价格表。或乔治·布拉德肖1839年,他制定了第一张列车时刻表。还有马尔科姆·戴森,他在1946年发明了IUPAC标准的化学命名符号。

当你看整个时间线时,你可以看到几个明确的创新类别。

一类是描述或表示事物的方案。比如纬度/经度(由埃拉托色尼公元前200年左右)。或者代数的符号(从Franciscus Vieta1595年左右)。或二名种名(由卡尔·林奈1750年左右)。或地质时期(1830年左右引入)。或者对法律案件的引用(来自Frank Shepard, 1873年)。或CIE色彩空间(从1931年开始)。或SI单位(从1954年起)。或者ASCII码(从1963年开始)。或互联网地址的DNS(1983年起)。

另一类创新是收集事物知识的计划或知识库。比如巴比伦的土地记录(公元前3000年)。或者是库底比斯(公元前1250年)。或托勒密(从公元150年开始)。或者是永乐百科全书(从1403年)。或者美国人口普查(从1790年开始)。或谁是谁(从1849年)。或天气图罗伯特菲茨罗伊在1860年)。或者是牛津英语词典(从1880年代)。或者是“黄页”(1886年Reuben H. Donnelly)。或化学文摘(从1907年)。或者棒球统计数据(从艾尔·埃利亚斯在1913年)。或者盖洛普民意测验(从1935年开始)。或者是GenBank(1982年)。

另一类创新则更为抽象:实际上是处理知识的形式主义。比如算术(公元前20000年)。或者形式语法(起源于公元前400年左右的帕尼尼)。或逻辑(从亚里士多德公元前350年左右)。或者人口统计数据(尤其是来自约翰Graunt在1662年)。或微积分(从艾萨克·牛顿戈特弗里德莱布尼兹1687年左右)。或者流程图(来自Frank & Lillian)按打算更便宜吉尔布瑞斯在1921年)。或者是计算机语言(1957年左右)。或者地理信息系统(Roger Tomlinson, 1962年)。或者关系数据库(始于20世纪70年代)。

当然,还有像Wolfram|Alpha那样尝试做事情的奇怪历史。我想亚里士多德在公元前350年左右就已经在思考类似的问题了,当时他试图对世界上的物体进行分类,并使用逻辑来形式化推理。到了1680年代戈特弗里德莱布尼兹他非常明确地想要将所有人类问题转化为一种通用的符号语言,并使用基于逻辑的机器来获得答案——而知识最终来自他希望组装的图书馆。

不用说,亚里士多德和莱布尼茨都活得太早,无法使这些东西发挥作用。但偶尔也会出现这种想法。例如,从1910年开始,保罗·奥特雷和亨利拉封丹实际上为他们收集了1200万张索引卡信息创作遗泽他的想法是运营一个以电报为基础的世界问答中心。

1937年h . g .威尔斯提出了他的“世界大脑”构想,并在1945年Vannevar Bush描述了他的“memex”,这将使计算机访问世界知识。到了20世纪50年代和60年代,人们开始想当然地认为知识有一天会变成可计算的——就像电影里描绘的那样一套办公用具《2001太空漫游,或在电视节目中《星际迷航》

然而,当时的假设是,关键的创新将是“人工智能”——人类智能的自动化。随着时间的推移,人工智能的衰落,使知识广泛可计算的进展也在减弱。

正如我在其他地方谈到的,我自己的关键认识来自于我的基础研究一种新的科学智能最终不可能有任何特别之处:它只是计算而已。但是,这种计算的原材料应该从哪里来呢?关键是,它不需要像人类那样,通过一些渐进式的教育过程来学习。相反,我们可以从整个系统知识和数据——以及方法、模型和算法——开始,这些都是我们的文明积累起来的,大量注入我们的计算系统。

这就是我们对Wolfram|Alpha所做的:实际上直接使用了在时间轴中描绘的整个丰富的历史。

我应该说,作为一个对思想历史感兴趣的人,实际的时间轴的组装过程是非常迷人的。我们从查看我们在Wolfram| alpha中覆盖的所有不同的知识领域开始——或者希望覆盖。实际上,我们向后追溯,试图找到定义每个地区的最早的历史先例。

有时我们大多数人都知道这些前因后果。但我们经常会惊讶于这些先例究竟发生了多久或多久。在某些情况下,我们不得不询问一系列的专家,才能确信我们有正确的故事。

时间轴上的每一条都是分开写的,我最好奇的是,当整个时间轴合在一起时会出现什么。当然,时间轴上实际出现的内容有相当大的随意性,而且不可避免地会对更近期的发展产生偏见,尤其是因为这些发展并不需要存在那么长时间才能在今天显得重要。

但当我第一次看到完整的时间表时,第一件让我震惊的事是两个实体在他们的贡献中脱颖而出:古巴比伦和美国政府。因为巴比伦——作为第一个伟大的文明——给我们带来了诸如第一个已知的人口普查、标准化计量、历法、土地登记、法典和第一个已知的数学表格等东西。在美国,也许是从头构建一个国家的精神,或者“人民政府”的概念,但从早在1785年(与美国土地条例)的形成,美国政府开始一个令人印象深刻的一系列第一次系统的数据收集。

有了时间轴,一个非常明显的问题是:所有这些事件在时间和空间上是如何分布的?

这张图显示了每十年和每个世纪发生的事件数量:

每十年和每世纪发生的事件数

这是相同信息的累积版本:

图的累积版本显示每个世纪事件的数量

在第一个情节中,我们看到了黄金时代的活动爆发古希腊.然后我们看到更多文艺复兴时期的,工业革命,计算机革命.但值得注意的是,即使在欧洲,至少仍有一些活动中世纪

从累积图中我们可以看到,公元前500年左右,活动中心从巴比伦转移到希腊,然后在公元1000年左右转移到欧洲大陆(在罗马帝国的适度活动之后)。1600年左右,英国开始腾飞,到19世纪中期,与欧洲大陆势均力敌。美国在1800年之前就开始活动了,但真正起飞是在20世纪初。

以下是“到目前为止的事件”是如何随着时间的推移而演变的CDF交互式条形图版本):

饼状图说明了到目前为止事件的份额是如何随时间变化的

古希腊在公元前250年超过了巴比伦。欧洲在1595年超过了希腊。英国在1786年一度超过欧洲大陆。美国在1942年超过了英国,在1984年超过了整个欧洲——今天只差12%就超过了所有国家的总和。

值得注意的是,在典型的“西方文明”国家,一切都是如此的集中。也许这反映了我们对其他历史的无知,但我更怀疑这反映了不同文化的不同兴趣以及他们获取知识的不同方法。

上述图表最明显的特征之一是近年来条目的快速增加。正如我之前提到的,生存偏见是不可避免的。但对我来说,值得注意的是,这个时间表上将近20%的工作在公元1000年完成,1800年完成40%,1900年完成60%。不过,如果我们回顾一下过去500年,就会惊奇地发现,这与指数增长非常吻合,每95年翻一番。

记住,时间轴不是关于技术或科学,而是关于数据和知识。当你看时间表时,你可能会问:“在哪里?爱因斯坦?在哪里达尔文?太空计划在哪里?”好吧,他们不在那里。因为尽管它们在科学技术史上很重要,但它们并不是时间轴所讲述的故事的一部分:系统的数据和知识是如何在我们的世界中形成的。正如我上面所说的,这些都是“密室历史”,在今天的历史书中并没有真正讲述。

在Wolfram|Alpha中,我们也有越来越多的关于更多传统科学/技术发明和发现的信息。这些的时间轴看起来有点不同。例如,在中世纪,经济活动就少得多,而在过去的500年里,经济增长非常符合指数增长,75年翻了一番。如果说有什么不同的话,那就是这里的生存偏差效应比数据+知识的时间轴更显著。但是,如果时间线之间的差异有什么重要意义的话,或许它反映了这样一个事实:数据和知识的系统化为世界提供了核心基础设施——而且增长得更缓慢、更稳定,逐渐使所有其他创新成为可能。

无论如何,当我们在Wolfram|Alpha上工作时,我们清醒地看到我们今天所走过的道路有多么漫长。但看到现代科技已经使我们有可能前进,这是令人兴奋的。我很自豪能成为这一悠久而杰出历史中的一小部分。如果没有别的,罗列历史会让漂亮的海报...

4评论

  1. 谢谢你的邮件。我发现很有趣的一点是,数据组织是创新的,但越来越不是人类需要内化的东西。比起理解化学命名的结构或邮政编码的工作方式,使用Wolfram | Alpha或谷歌更容易找到答案。你是否看到了将这些知识和组织模式抽象到计算或搜索引擎中的趋势?

    贾斯汀母马
  2. 你对公元1500年以前的年代资料的有效性有什么看法?特别是,你为什么不使用统计方法来确定叙述文本或事件的创作日期(A.T.Fomenko)。

  3. 伟大的汇编,先生,公元前4000年之前呢
    公元前5000年. .你只能去印度了,那是你唯一能找到的地方
    更多关于综合知识的描述。它还在那里。

    这是你在研究中故意遗漏的吗?
    我想没有,但在那个时候,它可能看起来更需要理解。
    说句公道话,我觉得如果没有吠陀文明,它就不完整。什么都没有。

    Erstine

Baidu