克服人为愚蠢

今天是一个重要的里程碑Wolfram | Alpha.以及一般计算知识:第一次,Wolfram | Alpha现在平均完整,成功的响应超过90%的网站上输入的查询(以及附近的“附近”解释,分数更近到95%)。

我认为这是一个令人印象深刻的成就——这是多年来逐步充实系统的知识和语言能力的来之不易的结果。

The picture below shows how the fraction of successful queries (in green) has increased relative to unsuccessful ones (red) since Wolfram|Alpha was launched in 2009. And from the log scale in the right-hand panel, we can see that there’s been a roughly exponential decrease in the failure rate, with a half-life of around 18 months. It seems to be a kind of摩尔定律用于计算知识:无数个性地,工程成果和新思路的净效应是指数改善。

Wolfram | Alpha查询成功率

但为了庆祝我们达到了90%的查询成功率,我想看看我们留下的一些东西会很有趣。自从早期的Wolfram|Alpha,我们一直在保存一个剪贴簿,我们最喜欢的“人工愚蠢”的例子:Wolfram|Alpha得到错误新利手机下载的想法,并应用它的版本的“人工智能”走在我们人类似乎是一个愚蠢的方向。

下面是一个例子,一年前捕获的(现在已经修复很久了):

豚鼠

当我们输入“豚鼠”时,我们可能指的是那些毛茸茸的小动物(比如我曾经有过一次)作为一个孩子).但是Wolfram|Alpha不知怎么的产生了错误的想法,认为我们在询问几内亚国家的猪,并且勤奋地(如果在这种情况下是荒谬的)告诉我们在2008年的统计中有86431只猪。

在某种程度上,这并不是那么大的错误。毕竟,在输出Wolfram的顶部完全良好地告诉我们,它正在假设“几内亚”是一个国家“,并提供了将投入作为”物种规范“的替代方案。事实上,如果今天尝试查询,但物种是默认值,一切都很好,如下所示。但是,在一年前存在错误的默认口译是一个简单但典型的人为愚蠢的例子,其中一个微妙的缺陷会导致我们看似明显的愚蠢行为。

以下是“天竺鼠”如今的所作所为——一个良好而明智的结果:

豚鼠

下面是我们过去3年收集的其他一些人为愚蠢的例子。新利手机下载我很高兴地说,现在每一个都很有效;事实上,许多人给出了相当令人印象深刻的结果,你可以通过点击下面的每一张图片看到。

北极熊的速度

特洛伊沦陷

国王所有的马

死马

美国亚利桑那州

意大利最高的火山

男人+女人

男性型脱发治疗

什么是李子

这些例子中有很多都带有某种幽默的荒谬性。事实上,研究它们表明,这种人为的愚蠢可能实际上是我们人类发现幽默的一个很好的系统来源。

但这种人为的愚蠢从何而来?我们怎样才能克服它呢?

有两个主要问题似乎结合在一起,产生了我们在这些剪贴簿例子中看到的大多数人工愚蠢。新利手机下载第一,Wolfram|Alpha过于努力地取悦用户——即使它不知道自己在说什么,也会勇敢地给出一个结果。第二,Wolfram|Alpha可能只是知道的不够多——因此它没有抓住重点,因为它完全不知道查询的一些可能的含义。

好奇地,这两个问题也出现了人类的一直都是 - 特别是,当他们在谈论一个糟糕的手机连接时,不能清楚地听到。

对于人类来说,我们还不知道这些东西是如何工作的内部故事。但是在Wolfram|Alpha中,它定义得非常好。有几百万行Mathematica代码,但最终Wolfram | Alpha所做的是将其作为输入给出的自然语言的片段,并尝试将其映射到一些精确的象征形式(在Mathematica语言),以标准方式表示输入的含义,Wolfram|Alpha可以从中计算结果。

到目前为止,特别是来自近3年的实际使用-Wolfram的数据,阿尔法知道自然语言的详细结构和脱脂症的巨大金额。必要性,它必须远远超出任何语法书中的内容。

当人们在Wolfram|Alpha上输入内容时,我认为我们看到的是一种未消化的思想的语言表达。它不是一堆随机的单词(人们可能会给搜索引擎提供这些单词)。它有结构——通常相当复杂——但它很少尊重传统语序或语法的细微之处。

就我而言,Wolfram|Alpha最大的成就之一是创建了一个足够健壮的语言理解系统来处理这些事情,并成功地将它们转换为精确的可计算的符号表达式。

人们可以把任何一种特殊的符号表达看作是具有某种语言形式的“吸引盆地”,它将导致它。其中一些形式可能看起来非常合理。其他的可能看起来很奇怪,但这并不意味着它们不会在人类实际的Wolfram|Alpha查询的“意识流”中发生。

通常它不会损害任何东西来允许甚至非常奇怪的形式,具有相当奇怪的横向扭曲的共同语言。因为将发生的最糟糕的是,这些形式实际上不会被用作输入。

但问题是:如果其中一种形式与另一种意义完全不同的东西重叠怎么办?如果这是Wolfram|Alpha知道的事情,Wolfram|Alpha的语言理解系统将识别冲突,如果一切正常,将选择正确的含义。

但是,如果重叠与Wolfram的重叠有什么会发生什么?

在上面的最后一个剪贴簿例新利手机下载中(从2年前)Wolfram被问到“什么是李子”。当时,它并不知道哪些水果不是明确的植物类型。但它碰巧知道月球上有一个叫做“梅子”的陨石坑。语言理解系统当然注意到了plum前面的不定冠词“a”。但一无所知的名字“李子”以外的月球陨石坑(和erring-at至少在网站的方向给予一些回应而不是没有),它将得出结论,“a”必须“语言噪音”,离开了月球陨石坑的含义,和做一些看起来很愚蠢。

Wolfram|Alpha如何避免这种情况?答案很简单:它只需要知道更多。

有人可能会认为,要更好地理解自然语言,就要涵盖更广泛的更类似语法的形式。当然,这是其中的一部分。但是根据我们使用Wolfram|Alpha的经验,添加到系统的知识库中至少是同样重要的。

许多人为的愚蠢是关于未能对输入的含义拥有“常识”。在某些狭窄的知识领域内,一种解释似乎是相当合理的。但在更普遍的“常识”背景下,这种解释显然是荒谬的。重点是,随着Wolfram|Alpha知识领域的扩展,它们逐渐填补了我们人类认为的常识的所有领域,推出了荒谬的“人工愚蠢”解释。

有时候Wolfram|Alpha在某种意义上可能会过了头。考虑这个查询"聪明的人口”。这是什么意思?这种语言结构似乎有点奇怪,但我可能会认为它是在谈论某个地方有多少聪明的人。但这里是Wolfram|Alpha说:

聪明的人口

重点是Wolfram|Alpha知道一些我不知道的事情:密苏里州有一个叫“Clever”的小城市。啊哈!现在建设“聪明人口”是有意义的。对于密苏里州西南部的人来说,这可能一直是显而易见的。但根据典型的日常知识和常识,它不是。就像上面剪贴簿示例中的Wolfram|Alpha一样,大多数人会假设查新利手机下载询是关于完全不同的东西。

在人工智能工作历史上创建自然语言问题回答系统的许多尝试。在立即用户印象方面,这些系统的问题通常并不是没有创造人工智能的不大,而是存在痛苦明显的人为愚蠢的存在。在比上面的剪贴簿例子更戏剧性的方式,系统将“抓住”它发生的意义,它发生了新利手机下载解,并且机器人地坚持使用这个,即使对人类而言似乎是愚蠢的。

我们从Wolfram中学到了什么Alpha经验是,问题并不是我们无法发现一些特定的魔术人类思维语言理解算法。相反,它是一个更广泛和更基本的:系统只是不知道,无法锻炼,足够关于世界。这不足以知道一些特定域名;您必须在足够深度覆盖足够的域名以实现您所看到的语言形式的常识。

我一直认为Wolfram|Alpha是一个包罗万象的项目。现在很清楚的是,要想成功,必须这样做。只解决一部分问题是不够的。

截至今天我们在查询理解中达到了90%的成功率,这是一个显着的成就 - 这表明我们肯定是在正确的轨道上。事实上,看着Wolfram | Alpha查询流,在许多域中,我们绝对至少在一个典型人类查询理解性能方面。我们不在运行中进行图灵测试,但是:Wolfram | Alpha目前没有对话交换,但更重要的是Wolfram | Alpha知道并且可以为人类传递太多。

事实上,经过这么多年,也许是时候升级图灵测试了,认识到计算机实际上应该比人类做得更多。从用户体验的角度来看,最明显的指标可能就是消除人为的愚蠢。

当第一次释放Wolfram | alpha时,即使在休闲使用中,它也很常见于人造愚蠢。而且我不知道克服它需要多长时间。但现在,只有3年后,我很高兴我们有多远。当然可以在Wolfram |在Wolfram的人工愚蠢(并且尝试很有趣)。但它绝对更困难。

随着我们投入Wolfram的所有知识和计算,我们成功地制作了Wolfram | Alpha不仅更聪明,而且更愚蠢。我们继续扩展到完美查询理解的指数曲线。

9日评论

  1. 我可能忽略了这个问题,但对我来说,这似乎是一个知道得太少和知道得太多的问题。

    你在整篇文章中概括了这样一个事实:w| A不知道李子是什么,不知道豚鼠是什么,等等……虽然这是真的,但对我来说还有另一个问题:它知道太多别人不知道的事情。我不知道北极熊项目。我不知道梅坑的事。

    更重要的是了解关于写作查询的人知道的事情是,我认为,了解他所有的事情,他将永远不会问你一个问题,因为他不太可能知道这个主题。

    如果我哥哥问我一个关于CKY的问题,我不会解释我知道的所有算法因为我不指望他知道。我可能会问他是否有可能谈到这个问题,如果他回答说没有,他就会说我什么都不知道。

  2. +++++
    对于许多群体的人(人为的愚蠢)-
    实现对人的控制的一种有用手段 -

    所以没有关心和没有羞耻的感觉传播废话-

    那些善于使用语言的人,比如阿拉伯世界的人
    这种技术是否被广泛应用

    通过创建循环参数-
    表现出非常复杂的逻辑结构 -

    能够改变拥有正确东西的群体
    在他们的侧面 - 一个群体被归咎于和嘲笑 -

    监测那件事的最佳方法 - 需要受过教育的分析师 -
    谁知道使用的语言和分析facebook
    大量的帖子和回复

    (文化组学)
    我认识一个教授
    http://www.nics.tennessee.edu/leetaru.

    是否利用索引分析所有媒体资源
    来自如。〇阿拉伯之春国家
    并使用超级计算机提取结论 -

    这是好的 - 但更多人类也需要帮助 -
    人不可能使每件事都自动地工作

    我可以扩展长度 - 如果你想要的话 -
    我欣赏你的作品-谢谢-

  3. 更多关于“可知性”问题:人们可能对某件事的了解正在迅速发展。例如,假设今天只有10个人知道梅子陨石坑,但在一个月后,我们在陨石坑中发现了一些最原始的外星生命。在一天之内,消息会传播开来,几乎每个人都可以问关于它的问题。

    This is a known problem for search engines, and I wonder if W|A couldn’t find an interest in working toegether with a search engine (Bing+Powerset or Google+Freebase) to learn about “how many people search a certain keyword” and, if possible, dissambiguations used for those keywords. This thing evolves at a rapid pace and maybe W|A is simply too small to know about thoses. It may also help to answer questions on subjects WA simply don’t know about.

    也许创建个人资料也会有帮助。不是每个人都对天文学感兴趣,但也许从事天文学的人更有可能知道梅子陨石坑。

  4. 有一种行为我一直想知道,你似乎在这篇文章中提到了。

    假设我问阿尔法“英语单词的数量”。阿尔法能够给出一个完美的答案——很明显,它理解这个问题,并且有知识来回答它。但如果我表面上用另一种语言回答同一个问题,比如德语,阿尔法就会显得很困惑。

    这很有趣,因为它似乎是alpha似乎没有了解这个问题,而因为我问了第一个问题,我可以推断真正的问题是它对德语不足。我想知道关于用户的反馈意见是什么在何种程度上理解的是您认为在知识引擎中都有重要的事情,因为它似乎在人类交流中很重要。例如,可以alpha要求智能问题来澄清某些情况下的用户意味着什么?

    我还想知道,这种行为是否只是阿尔法试图给出某种答案的人为产物,还是它对语言语义的解释与它所拥有的知识不可分割地联系在一起?

    本陶里斯
  5. 是的,Wolfram|Alpha查询响应的成功率作为一个任意90%的数字里程碑是值得注意的,对于一种新科学(NKS)的进展来说更是值得注意的里程碑。十年前,NKS关于自然语言的计算不可约性似乎解释了解决人工智能问题的令人沮丧的前景,同时NKS提供了一个模糊的承诺,即挖掘计算宇宙可能会找到可以模拟甚至处理自然语言的简单规则。今天,NKS将我们带到了一个点,我们现在可以自信地说18个月的半衰期可以消除人为的愚蠢。Stephen关于NKS在Wolfram Alpha中的作用的公开声明的简短时间线说明了这一快速进展:

    2004.Wolfram|Alpha的制作故事,http://www.stephenwolfram.com/新利18官网客服publications/recent/50yearspc/
    “如果我们相信NKS的范式和发现,那么所有这些复杂的知识应该在某种程度上有与之相关的简单规则。”

    2007.追求终极知识,庆祝格雷戈里朝景的60岁生日,http://www.stephenwolfram.com/新利18官网客服publications/recent/ultimateknowledge/
    “如果一个人选择将自己限制在计算可简化的问题上,那么这就提供了一个约束,使寻找语言的精确解释变得更容易。我相信我们已经非常接近能够开发出这样的技术了。把人类话语中的问题,当它们是可计算的,就计算它们。结果将会是…非常重要的。我们最终将能够定期访问我们日常世界的计算内容。”

    2009.第一款杀手级NKS应用,http://blog.wolfram.com/2009/05/14/7-Years-of-nksand-its-first-killer-app/
    ”Wolfram | Alpha是[…与NKS中思想的全部力量相比,仍然是平淡无奇的。正是由于计算不可约性的普遍性,使得计算可约性只存在一小部分——即使从相当模糊的语言输入中也能很容易地识别出来。目前,任何人都将第一次能够走近计算机,立即看到它能进行多么多样化的可能计算。”

    2011.计算和哲学,http://blog.stephenwolfram.com/2011/05/talking-about-computing-and-philosophy/
    “[计算当量的NKS原则意味着]没有明亮的线路标识”智能“;这只是计算。......这是哲学支撑,使得建立Wolfram alpha的想法并不完全疯狂。因为如果一个人必须建立整个人工智能,那么就知道一个人是很长的方式。但事实上,事实证明,只需使用纯粹的计算概念就有更直接的路线。“

    2012.克服人为愚蠢,http://blog.stephenwolfram.com/2012/04/overcoming-artificial-stupidity/
    “人们可能认为在理解自然语言方面做得更好将是涵盖更广泛的更多语法形式。......但我们对Wolfram的经验是,它至少适想地添加到系统的知识库。...作为Wolfram的域名| Alpha知识扩张,他们逐渐填写了我们人类认为常识的所有领域,推出荒谬的“人工愚蠢的”解释。“

  6. 关于自我意识,我相信你至少听说过一些关于更高但可达到的自我意识形式的潜力,与外部计算、数据收集或分析无关。
    特别是葛吉夫的方法(遗憾的是几乎每个人都知道扭曲和误解的名字)是一种意义深远的方式(我犹豫地说“法”,因为这意味着限制)以“量子水平”是自我意识高于的意识状态中,我们大多数人通过我们的日常生活。
    “大心”的人,可能相应的“大”的注意力和专注力的力量,学习(不容易,但哦那么简单)的方法,第一个“结果”的应用程序的经验,和正在进行的和非常要求努力维持这种形式的更客观的自我意识,在目前的情况下,可以产生一些远远超出“头脑”的最高抱负——甚至是最聪明的头脑——的东西。这不是智力本身的问题,而是一个有智力、无法抑制的愿望和不屈不挠的人将会得到世俗或传统宗教观念无法衡量的回报。
    如果你还没有这样做,那么你会考虑这一点。
    致以最良好的祝愿,迈克·贝格尔

  7. Fremy公司有一个很好的观点,那就是知道得太多和知道得太少都是问题。西澳需要能够建立一个环境来选择适当的输入解释。

    There are a number of possible approaches, such as learning a user’s areas of interest (as does Google, and various social networking sites), but it might be easier initially to provide a context selection field (perhaps as a branching tree of topics of increasing specialization) for the user to point WA in the right direction. Given a contextual field of interest, WA could then rank the input keywords & phrases with regard to their likelihood and so probable meaning in that context.

    合适的排名数据可以通过一个正在运行的自动搜索系统收集,就像流行的搜索引擎一样,在互联网上搜网,记录不同领域中单词和短语的使用频率,并评估相关网站的专业化水平(这将是棘手的部分)。可能已经有相当数量的此类数据被收集用于其他目的,例如搜索引擎,所以技术可以使这成为可能。

    域名骑士
  8. 90%的数字是训练机器还是人类的结果?

    当Wolframalpha推出时,它得到了很多关注,人们在一个非常各种主题上进入了问题。其中许多没有e答案,并且可能会使用该网站对这些查询停止,但频繁地返回他们看到系统可以回答的事情。即使没有添加额外的知识,此过程也会导致答案查询百分比增长。

  9. 谷歌它

    在我看来,这就是问题所在(将输入输入到alpha知道的符号中,缺乏分区的能力)。选择哪些数据,“最佳谷歌命中”(DBM搜索)的想法

    谷歌不需要了解您要聪明,只需允许您在干草堆中选择查找针。一个适当的库搜索只能由内容击中,而是由所有参考书目表项:即“TI中的Word1和Word2”(在标题或公式中)

    它看起来像我已经这样做了!

Baidu