数据文明的进步:时间表

的前兆我们正在努力做什么具有可计算数据Wolfram | Alpha在许多方面可以追溯到人类历史的开端——事实上,它们的发展与整个文明的进步有着迷人的联系。

去年我们邀请今天的伟大数据存储库的领导者Wolfram数据峰会——作为一篇谈话文章,我们整理了一个系统数据和可计算知识的历史发展时间表。

今年,当我们接近2011年沃尔夫勒姆数据峰会,我们已经采纳了我们得到的意见和建议,我们正在提供一个五英尺长1.5米印刷海报时间轴 - 以及具有基本内容在网络上

历史数据时间表

时间轴讲述了一个引人入胜的故事:我们的文明是如何一步步地将越来越多的知识领域系统化——收集与之相关的数据,并逐渐使它们易于自动化。

通常的讲历史的讲解使得大多数这些发展提到了这些发展 - 尽管我们今天的生活中有很多都很明显。重量和措施。日历。按字母顺序排列。数据绘图。词典。地图。音乐符号。股票图表。时间表。 Public records. ZIP codes. Weather reports. All the things that help us describe and organize our world.

从历史上看,每一个都需要一个想法,并且有一个起源。最常见的情况是,世界的某些方面实际上正在变得越来越大——一个组织或一个人率先引入了一种系统化的方法。

有时候,参与其中的人要么是有权有势的人,要么是名人。但通常情况下,他们在某种意义上处于幕后,只是在解决实际问题——通常是谦逊地开始。然而,随着需求的增加,他们发明的也许是专制的计划逐渐传播开来。

大多数人都听说过欧几里德他定义了一种将数学系统化的方法尤利乌斯•凯撒谁标准化了一年中的月份。在1030年广告发明的音乐轨道符号中,较少者将听到Guido D'Inzzo。或者罗伯特Cawdrey,在1604年,谁制作了什么是第一个字母词典。或者Munehisa Homma,1755年,谁制造了最第一个市场价格图表。或者乔治·布拉德肖1839年,他制定了第一张列车时刻表。还有马尔科姆·戴森,他在1946年发明了IUPAC标准的化学命名符号。

当你看整个时间线时,你可以看到几个明确的创新类别。

一类是描述或表示事物的方案。比如纬度/经度(由埃拉托色尼公元前200年左右)。或者代数的符号(从Franciscus Vieta1595年左右)。或二名种名(由卡尔·林奈1750年左右)。或地质时期(1830年左右引入)。或者对法律案件的引用(来自Frank Shepard, 1873年)。或CIE色彩空间(从1931年开始)。或SI单位(从1954年起)。或者ASCII码(从1963年开始)。或互联网地址的DNS(1983年起)。

另一类创新是收集事物知识的计划或知识库。比如巴比伦的土地记录(公元前3000年)。或者图书馆在THEBES.(从1250年)。或者托勒密(从公元150年开始)。或者永乐百科全书(从1403年)。或者美国人口普查(从1790年开始)。或者谁是谁(从1849年)。或天气图罗伯特菲茨罗伊1860年)。或者牛津英语词典(从1880年代)。或者在1886年从Reuben H. Donnelly的“黄页”)。或者化学摘要(从1907年)。或者棒球统计数据(从艾尔·埃利亚斯在1913年)。或者盖洛普民意测验(从1935年开始)。或者是GenBank(1982年)。

另一类创新则更为抽象:实际上是处理知识的形式主义。比如算术(公元前20000年)。或者形式语法(起源于公元前400年左右的帕尼尼)。或逻辑(从亚里士多德大约350年BC)。或人口统计统计(特别是来自约翰格劳斯人在1662年)。或微积分(从艾萨克·牛顿戈特弗里德莱布尼兹1687年左右)。或者流程图(来自Frank & Lillian)按打算更便宜“1921年Gilbreth)。或计算机语言(从1957年左右)。或地理信息系统(来自1962年的Roger Tomlinson)。或关系数据库(从20世纪70年代)。

当然,当然,有奇怪的尝试历史,试图做像Wolfram | alpha的那样。我想亚里士多德已经在思考类似于350年的公元前350年的东西,因为他试图在世界上分类对象,并使用逻辑来形式化推理。然后在1680年代有戈特弗里德莱布尼兹他非常明确地想要将所有人类问题转化为一种通用的符号语言,并使用基于逻辑的机器来获得答案——而知识最终来自他希望组装的图书馆。

不用说,亚里士多德和莱布尼茨都活得太早,无法使这些东西发挥作用。但偶尔也会出现这种想法。例如,从1910年开始,保罗·奥特雷和亨利拉封丹实际上为他们收集了1200万张索引卡信息Mundaneum在操作电报基础的世界问答中心的想法。

1937年h . g .威尔斯提出了他的“世界大脑”构想,并在1945年Vannevar Bush描述了他的“Memex”,这将为世界知识提供计算机化。在20世纪50年代和20世纪60年代,它开始被认为是理所当然的,有一天会变得可计算 - 如电影所描绘的那样一套办公用具《2001太空漫游,或在电视节目中《星际迷航》

然而,当时的假设是,关键的创新将是“人工智能”——人类智能的自动化。随着时间的推移,人工智能的衰落,使知识广泛可计算的进展也在减弱。

正如我在其他地方谈到的,我自己的关键认识来自于我的基础研究一种新的科学智能最终不可能有任何特别之处:它只是计算而已。但是,这种计算的原材料应该从哪里来呢?关键是,它不需要像人类那样,通过一些渐进式的教育过程来学习。相反,我们可以从整个系统知识和数据——以及方法、模型和算法——开始,这些都是我们的文明积累起来的,大量注入我们的计算系统。

这就是我们对Wolfram的所作所为的Alpha:实际上是直接直接使用时间表中描绘的整个丰富的历史。

我应该说,作为一个对思想历史感兴趣的人,实际的时间轴的组装过程是非常迷人的。我们从查看我们在Wolfram| alpha中覆盖的所有不同的知识领域开始——或者希望覆盖。实际上,我们向后追溯,试图找到定义每个地区的最早的历史先例。

有时我们大多数人都知道这些前提。但经常我们经常对多久以前感到惊讶 - 或者近来的那些前辈实际上是。在某些情况下,我们必须在我们确信我们有正确的故事之前问一整串专家。

时间轴上的每一条都是分开写的,我最好奇的是,当整个时间轴合在一起时会出现什么。当然,时间轴上实际出现的内容有相当大的随意性,而且不可避免地会对更近期的发展产生偏见,尤其是因为这些发展并不需要存在那么长时间才能在今天显得重要。

但是,当我第一次看完完成的时间表时,让我震惊的第一件事是他们的贡献中有多少两个实体:古老的巴比伦和美国政府。对于巴比伦 - 作为第一个伟大的文明 - 将我们这样的东西带到了第一个已知的人口普查,标准化措施,日历,土地登记,法律规范和第一个已知的数学表中。在美国,也许是从划伤建立一个国家的精神,或者也许是“政府为人民的概念”,但早在1785年(随着美国土地条例的形成)开始,美国政府开始了系统数据收集中令人印象深刻的第一系列。

鉴于时间表,一个非常明显的问题是:所有这些事件如何及时分发,以及空间?

这张图显示了每十年和每个世纪发生的事件数量:

情节显示每十年和百村的事件数量

这是相同信息的累积版本:

图的累积版本显示每个世纪事件的数量

在第一个情节中,我们看到了黄金时代的活动爆发古希腊.然后我们看到更多文艺复兴时期的, 这工业革命,计算机革命.但值得注意的是,即使在欧洲,至少仍有一些活动中世纪

看着累计情节,我们看到从巴比伦到希腊大约500年左右的活动转向中心,然后到欧洲大约1000左右(罗马帝国的谦虚活动后)。大约1600英国开始在1800年代中期沿着大陆竞争,扎实。美国开始在1800年之前显示活动,但在20世纪初确实起飞。

以下是“到目前为止的活动”的份额随着时间的推移而发展(这是一个CDF交互式条形图版本):

饼状图说明了到目前为止事件的份额是如何随时间变化的

古希腊在公元前250年超过了巴比伦。欧洲在1595年超过了希腊。英国在1786年一度超过欧洲大陆。美国在1942年超过了英国,在1984年超过了整个欧洲——今天只差12%就超过了所有国家的总和。

值得注意的是,在典型的“西方文明”国家,一切都是如此的集中。也许这反映了我们对其他历史的无知,但我更怀疑这反映了不同文化的不同兴趣以及他们获取知识的不同方法。

上述地块最明显的特征之一是最近的条目快速加速。正如我之前提到的那样,不可避免地存在生存偏见。But to me what’s somewhat remarkable is that nearly 20% of what’s on the timeline was already done by 1000 AD, 40% by 1800 and 60% by 1900. If one looks at the last 500 years, though, there’s a surprisingly good fit to an exponential increase, doubling every 95 years.

记住,时间轴不是关于技术或科学,而是关于数据和知识。当你看时间表时,你可能会问:“在哪里?爱因斯坦?在哪里达尔文?太空计划在哪里?”好吧,他们不在那里。因为尽管它们在科学技术史上很重要,但它们并不是时间轴所讲述的故事的一部分:系统的数据和知识是如何在我们的世界中形成的。正如我上面所说的,这些都是“密室历史”,在今天的历史书中并没有真正讲述。

在Wolfram|Alpha中,我们也有越来越多的关于更多传统科学/技术发明和发现的信息。这些的时间轴看起来有点不同。例如,在中世纪,经济活动就少得多,而在过去的500年里,经济增长非常符合指数增长,75年翻了一番。如果说有什么不同的话,那就是这里的生存偏差效应比数据+知识的时间轴更显著。但是,如果时间线之间的差异有什么重要意义的话,或许它反映了这样一个事实:数据和知识的系统化为世界提供了核心基础设施——而且增长得更缓慢、更稳定,逐渐使所有其他创新成为可能。

无论如何,正如我们在Wolfram工作的那样,它是清醒的,看看我们今天的道路有多长。但它很令人兴奋,看看我们有多大的现代技术已经让我们能够去。我很自豪能成为这么杰出和悠久的历史的一小部分。如果没有别的,铺设历史就是一个漂亮的海报......

4评论

  1. 谢谢你的邮件。我发现很有趣的一点是,数据组织是创新的,但越来越不是人类需要内化的东西。比起理解化学命名的结构或邮政编码的工作方式,使用Wolfram | Alpha或谷歌更容易找到答案。你是否看到了将这些知识和组织模式抽象到计算或搜索引擎中的趋势?

    贾斯汀母马
  2. 你对公元1500年以前的年代资料的有效性有什么看法?特别是,你为什么不使用统计方法来确定叙述文本或事件的创作日期(A.T.Fomenko)。

  3. 伟大的汇编,先生,公元前4000年之前呢
    公元前5000年. .你只能去印度了,那是你唯一能找到的地方
    更多关于综合知识的描述。它还在那里。

    这是你在研究中故意遗漏的吗?
    我想没有,但在那个时候,它可能看起来更需要理解。
    要公平..在你没有吠陀文明之前,我感觉不完整。什么都没有。

    奥斯汀

Baidu