Wolfram|Alpha:第一年

(这篇文章最初发表在Wolfram | Alpha博客.)

几年前,我想知道是否有可能系统地使人类知识可计算。今天,在Wolfram|Alpha正式发布一年后,我想我可以肯定地说:它可能的。

这需要一堆技术和想法,我已经组装了近30年。在许多方面,这是一个极其困难的项目。但今年已经证明了这一点可能的。

Wolfram|Alpha当然是一个非常长期的任务。但是,很多东西已经建成,方向已经确定,事情正在加速发展。

在过去的一年里,沃尔夫拉姆·阿尔法所知道的数量大约翻了一番。我们已经将它处理的域数量和可以使用的算法数量增加了一倍。实际上,我们已经将其中的原始数据量增加了一倍多。

情况似乎越来越好。我们在Wolfram | Alpha中投入的越多,就越容易添加更多。我们在Wolfram | Alpha已经完成的基础上,逐步完善了自动化和人工流程。

当我们一年前推出Wolfram|Alpha时,大约2/3的查询都产生了响应。现在超过90%的人这样做了。

那么,我们在过去的一年里学到了什么呢?

首先,令人鼓舞的是,人们似乎真的“理解”了Wolfram | Alpha的概念。也许科幻小说中的早期先驱有所帮助。但人们似乎理解这样一种想法,即他们可以问Wolfram | Alpha一个特定的问题,并计算出一个特定的答案。

事实上,目前对Wolfram | Alpha的所有查询中有超过50%的查询在网络搜索中没有命中率:它们是新出现的问题,没有在网络上的任何地方明确记录下来。

在过去的一年里,我们学到的另一件美妙的事情是,世界上有很多人真的希望看到Wolfram | Alpha取得成功。看到我们正在努力做的事情得到了多少支持,并得到了这么多有用的反馈,真是太棒了。

特别有价值的是众多领域的所有专家,他们自愿投入时间、专业知识、数据和方法,帮助我们实现尽可能深入、准确地覆盖多个领域的目标。

我想我们今年真正吸取的一课是,与最好的、确定的、第一手的资源合作是多么重要。到目前为止,几乎没有一个Wolfram|Alpha中的原始数据只是“从网络上搜集的”。

大多数情况下,它直接从主要来源输入Wolfram | Alpha,这是基于我们与数据负责人之间的关系,尤其是在过去一年中。

不过,我们还了解到,导入原始数据可能只占工作的5%。之后,我们必须真正理解数据:它是如何表示其单位、约定等的——以及它的含义。我们必须让它与我们已有的数据保持一致。然后我们必须看看如何从中计算,如何找出重要的东西,以及如何表达它。

我们还必须弄清楚人们将如何引用数据:他们将如何称呼实体;他们将如何描述他们想要的属性。几乎从来没有一个系统的来源。网络和类似维基百科的东西是我们的起点。进行自动和手动的“语言发现”,试图建立正确的词汇和语法。

当然,现在我们有了另一个重要的来源:大量的实际查询被输入Wolfram | Alpha。

我研究了许多不同领域的数据。我不得不说,今年让我感到惊讶的是Wolframα查询流的“定律”是多么精确。完美指数。完美幂律。几乎比我见过的任何物理实验都要好。

这些定律告诉我们一些我们已经知道的事情:Wolfram | Alpha永远不会“完蛋”。总是有更多的尾巴。但他们也告诉我们,凭借我们在Wolfram | Alpha中投入的所有知识,我们的状态还不错。

我们研究Wolfram | Alpha查询流,将其提取出来,得到一个巨大的“待办事项”列表。其中还有一些“明显”的东西,比如对流行文化、体育和本地信息的深入报道。我们正在研究这些。

但是已经有一些在清单上排名靠前的事情看起来相当深奥。纸牌游戏太阳黑子老鼠的基因外国共同基金.但我们正在系统地进行所有这些工作。

当我们第一次发布Wolfram | Alpha时,我认为有些东西太晦涩了,无法涵盖。我一直举“法国山羊”的例子,作为我们永远无法回答的问题。

但是,几个月前,我突然尝试了这个查询,结果成功了!我们有关于牲畜在法国.用羊的数量的时间序列追溯到1971年!

我现在已经有过很多次这样的经历了。随着我们对世界上存在的数据越来越深入,我不断惊讶于实际上有多少是可以知道的,或可以计算的。

然而,我们学到的一个教训是,没有什么是真正完成的。甚至在Wolfram | Alpha于一年前推出之前,我们就已经拥有了迄今为止规模最大、最具学术性的治疗方法计量单位这是全世界所见过的。近8000个单元,仔细分析了它们的所有使用模式,并以可计算的形式组织起来。

但在今年的过程中,每周我们都会从Wolfram | Alpha的各个角落发现更多的单位需要添加。比如伯伯德(桶油当量/天)斯林奇夫(滑动力),即小争吵(立体角单位)迪格尼(阻力单位),或新干草装载量“(质量单位)。

我的一个原则是总是有一系列的开发项目在进行。从小的改进到核心的多年工程工作,再到空中楼阁的研究调查。

新的数据每秒流入Wolfram | Alpha。但今年,我们能够在每一周发布一个全新的经过全面测试的Wolfram | Alpha代码库。

今年我们引入了一些重要的新通用框架。碰巧的是,我们有一些重大的新项目正在筹备中。涉及数据。和计算。和语言学。和介绍。

对我来说,Wolfram|Alpha是一个令人兴奋的智力冒险。不仅仅是它所涵盖的所有知识领域。还因为它代表了计算和思考知识的全新范式。

我过去一贯的观察之一是,我花了十年时间才真正吸收一种新的范式,并看到如何用它迈出下一步。沃尔夫拉姆·阿尔法或许也是如此。

但我很高兴地说——也许是因为我们拥有出色的团队——我认为已经有了相当大的进步。

我们最近取得了一些突破,例如,在理解如何将Wolfram | Alpha和Mathematica-创造一种普通人类语言和精确计算机语言的迷人的混合体,我怀疑这代表了与计算机系统交互的未来。

我们正在了解如何使Wolfram | Alpha不仅能够处理其内部数据和知识,还能从文档、传感器和提要中吸收新的输入。

我甚至认为,通过Wolfram | Alpha范式,我可能已经找到了一个非常抽象的主题的一些非常基本的东西:数学的系统自动化。

今年在Wolfram | Alpha的实际部署中发生了很多事情。这个API.与微软的必应搜索引擎.的iPhone应用程序,现在iPad应用程序.第一本集成了Wolfram | Alpha的电子书。此外,还提供了第一款Wolfram | Alpha设备,用于在中部署自定义版本的Wolfram | Alpha企业环境。

但这仅仅是一个开始。

在许多方面,我们一直在阻止Wolfram | Alpha的使用,直到我们认为我们达到了正确的点。但现在我们做到了。今年我们将大力使Wolfram | Alpha尽可能广泛地提供。

为了纪念我们的周年纪念日,我们发布了一些新功能。

主页

一个更简单的,可自定义主页. 还有很多内容添加. 喜欢本地街道地图.覆盖数千人疾病和症状.既然我们对地球天气做了彻底的研究-太空天气

我们还对如何解释查询进行了系统的补充。通常,Wolfram | Alpha的工作原理是试图准确、完整地理解每个查询。如果可能的话,这就是我们想要的。

但是Wolfram | Alpha所覆盖的语言和内容空间现在已经占据了一定的位置,还有其他的东西可以尝试。即使Wolfram | Alpha无法解释特定的查询,它仍然可以尝试找到它可以解释的“最近的”查询。

从今天起,Wolfram | Alpha就是这样建立起来的。在接下来的一段时间里,“最近的查询”的概念将更加复杂。但这种技术已经为使用Wolfram | Alpha的典型体验增加了不少。

不用说,Wolfram | Alpha仍然不能做所有的事情。几天前,团队刚刚对新的“最近查询”功能进行了实时测试。我正在查看我们的实时监视器,它可以监视我们仍然无法响应的查询。

“火星上的鸡”一闪而过。好吧,我想那需要一段时间。过了一会儿,又问“我的帽子在哪儿?”我想不会太久了。无论是通过RFID或愿景或其他东西,我认为我们正在使Wolfram|Alpha能够响应的道路上!

我成年后的大部分时间都在做大型项目。Wolfram|Alpha无疑是迄今为止最大和最复杂的。在今年的比赛中,我们继续打造了一支出色的球队。这将一个曾经看似不可能实现的目标变成了一个实际的、高度可伸缩的工程努力。

在许多人的帮助下,我们正在建立一个卓越的智力结构,它正在稳步地从“有趣”到“方便”,再到绝对必要。这让我们都想知道,在2009年5月18日之前,如果没有Wolfram | Alpha,我们究竟能有多大的生存空间…。

张贴于:18luck ,Wolfram | Alpha

Baidu