启动数据科学民主化

这是一个悲哀但真实的事实,即使付出了相当大的努力,大多数生成或收集的数据也从未得到任何严肃的分析。但从某种意义上说,这并不奇怪。因为做数据科学一直都很难。即使是专家级的数据科学家通常也要花费大量的时间来争论代码和数据,以进行任何特定的分析。

我自己使用计算机处理数据已经超过三分之一个世纪了。随着时间的推移,我的工具和方法逐渐进化。但是这周释放属于Wolfram | Alpha职业一些戏剧性的事情发生了,它将永远改变我处理数据的方式。

关键思想是自动化。Wolfram | Alpha Pro中的概念是,我应该能够以任何原始形式获取数据,并将其放入Wolfram | Alpha Pro中。然后Wolfram | Alpha Pro会自动进行一系列分析,然后给我一份关于我的数据的组织良好的报告。如果我的数据不是太大,这一切都会在几秒钟内发生。

令我惊讶的是,它真的有效。我有各种各样的数据:测量数据、商业报告、个人分析等等。我已经把它输入到Wolfram|Alpha Pro。Wolfram|Alpha Pro已经向我展示了可视化和分析,告诉我关于数据的各种有用的东西。

数据输入

在过去,当我真的很有动力的时候,我会在这里或那里收集一些数据,读入其中数学软件,并使用一些强大的工具进行分析。但令人兴奋的是,Wolfram|Alpha Pro是如此自动。我可以心血来潮地输入我的数据,并期望看到一些有用的结果。

它的基本思想非常符合Wolfram|Alpha的整个核心任务:获取专家级的知识,并创建一个可以在需要时自动应用它的系统。在这里,专家级知识是一组优秀的数据科学家所拥有的方法的集合,而Wolfram|Alpha Pro所做的就是利用这些知识并使用它来分析您输入的任何数据。

我们面临着许多挑战,而我们仍处于解决所有这些挑战的早期阶段。但与整个Wolfram|Alpha技术堆栈,以及底层数学软件语言,我们能够从一个非常牢固的基础开始。在建造Wolfram | Alpha Pro的过程中,我们发明了各种新方法。

类别编号性别

这个问题有几个方面。第一种方法是以任何一种结构良好的形式将数据导入Wolfram|Alpha。任何用过真实数据的人都知道,这往往不像听起来那么容易。

你认为你得到了按列排列的数据。但是那些奇怪的分隔符呢?那些标题呢?数据元素中出现的分隔符是什么?那些缺失的元素呢?从浏览器中复制时被剥离的那些行呢?那同一电子表格中的第二个表格呢?等等。

这有点像Wolfram|Alpha在理解自由形式的自然语言时所做的,以及它的所有变化和冗余。但结构化数据的语法是不同的,在某些方面也不那么宽容。正如在最初的Wolfram|Alpha开发中一样,我们所做的是采用了大量的示例语料库,并试图从我们所看到的推断出适当的语法——我们知道,当我们得到大量的实际查询时,我们将逐渐能够改进它。(不用说,我们使用Wolfram|Alpha Pro本身的分析功能来做大部分的分析。)

我们已经知道了数据中各个元素的位置。现在我们要算出它们是什么。这就是Wolfram|Alpha的语言能力至关重要的地方。因为它能让我们立刻理解数字和日期等所有奇怪的格式。不仅如此,它还能让我们识别单位和地名以及其他很多东西,并自动将它们转换成标准的可计算形式。

有时,在普通的Wolfram|Alpha中,当输入中给出了日期、单位或地点时,它可能是模糊的。但是当它被输入整列数据时,Wolfram|Alpha Pro通常可以自动解决这些歧义(“所有日期可能是美国风格”;“这些单位可能都是温度单位”;等等)。

城市

让我们假设Wolfram|Alpha Pro知道一个数据表中的所有元素是什么——它们的“值”是什么。然后它必须开始弄清楚它们的“意思”。这个数字序列是否代表某种标签或坐标?或者只是随机分布的样本?这一货币价值序列是否代表了具有随机变化的资产价格?或者只是一系列不相关的货币数量?这两列实际上都是主要数据,还是其中一列只是另一列的排名?等等。

Wolfram|Alpha Pro有大量的算法和启发式方法来尝试推断它所给出的数据所代表的内容。这立刻让它走上正轨,看看它应该做什么样的可视化和分析。

总会有棘手的问题。什么时候在2D图中连接点是有意义的?什么时候应该使用柱状图、散点图、饼图等等?哪些地块的比例尺接近到可以合并?我们应该如何建立回归分析:我们应该尝试预测哪些变量?等等。

Wolfram | Alpha Pro继承自数学软件许多标准的统计分析.但它所做的是完全自动化这些。有时它会根据数据来选择哪种分析是有意义的。但通常它只是并行运行相当数量的可能分析,然后只报告有意义的分析。

在某种程度上,Wolfram|Alpha Pro的关键目标是能够获取任何一组数据,并能够从中“讲述一个故事”。能够展示数据中有趣或不寻常的地方,以及从中可以得出什么结论。

日期-货币-2

有一个例子是适合的。给定数据,Wolfram|Alpha Pro通常会尝试大量不同类型的功能形式。直线。多项式。指数。物流曲线。正弦曲线。等等。然后它有一个标准来决定哪些(如果有的话)是与原始数据合理匹配的。

Wolfram|Alpha Pro对概率分布做了同样的事情。它还使用各种统计方法,能够得出统计结论,是否排除统计假设等。

当它处理的数据不只是由数字组成时,事情就变得更加有趣了。

如果给出了日期和货币值,它就可以计算出货币转换和通胀调整。如果给定了地点,它可以在地图上画出来,但它也可以根据地点的属性(如人口或面积)进行标准化。如果给它任意重复的物体,它就会把它们当作网络中的节点。

电子邮件地址

对于任何给定的输入数据,Wolfram|Alpha Pro通常有大量的分析可以运行。但接下来的挑战是对结果进行修剪、组合和组织,以强调什么是重要的,并使它们尽可能容易被人类吸收——适当地添加严格但非专家可理解的文本摘要。

通常情况下,Wolfram|Alpha Pro会给出一个整体的摘要作为它的“默认报告”,然后有各种各样的按钮和下拉按钮,允许深入到许多变化或细节。

在我多年的数据工作中,我可能在某些时候生成了至少一些Wolfram|Alpha Pro显示的大多数类型的图、表和分析。但我很确定,在任何特定的情况下,我从未生成超过Wolfram|Alpha Pro将产生的一小部分。

重要的是,通过自动生成包含精心选择的条目的完整报告,Wolfram | Alpha Pro为我提供了一些东西,让我一眼就能了解数据中的内容。

毫无疑问,只要花足够的时间讨论代码和数据,我就可以重现结果的任何特定部分。但关键是,作为一个实际问题,只有在我非常清楚自己在寻找什么的情况下,我才会最终这么做。纯粹出于探索的目的,“一时兴起”做这件事需要太多时间。

但Wolfram | Alpha Pro改变了这一切。因为这是第一次,它让我能够立即得到一份关于我所有数据的完整报告。这意味着在实践中我最终会这样做。正如经常发生的情况一样,一个足够大的“定量”的变化会导致我们在实践中所做的事情发生质的变化。

现在,不用说,本周发布的Wolfram|Alpha Pro版本只是一个开始。还有许多额外的分析需要包括在内,还有许多具有特殊特性的新数据类型需要处理。

States-genders-counts-currencies

现在,Wolfram|Alpha Pro的设置只是为了处理相当小的数据集(数千行,少量列),它可以在典型的“web响应时间”几秒钟内生成有意义的报告。

架构或底层没有任何内容数学软件然而,基础设施限制了数据集如此之小。我希望将来我们能够使用Wolfram | Alpha Pro技术堆栈处理越来越大的数据集。

但是现在,我很高兴地看到,使用Wolfram|Alpha Pro从几乎任何一小块原始数据中获取有意义的见解变得非常容易。我相信,这是数据科学成就的民主化进程。这使得世界上产生的更多数据可以被用在有意义的地方。

14日的评论

  1. 好极了

    umut karakoc
  2. 对于那些花了几个月时间拼接和分割数据、处理图表和参考教科书来计算f-stats的人来说,只有一个词可以形容这一点

    很神奇的。

    等不及要用了。

    袭击
  3. 哇,这听起来真的很有希望。该服务是否能够处理除英语以外的其他语言?还有,是否有可以使用的API ?

  4. 如果系统支持自动元启发式及其相关的计算(贝叶斯逻辑/推理)等,那将是有趣的。然后,只需要知道Mathematica语法就可以设计一个实验,并为响应曲面....选择模型回归器都在网上

  5. 这非常非常有趣,可以在我们的一些现场场景中看到立即的应用。我想多了解一些

    一个的
  6. 我想知道WOLFRAM Alpha是否会考虑为那些想通过WolframAlphaPro提供ERM数据的企业提供一个“后端”服务,并得到一个分析面板,每隔30分钟左右同步一次。

    汉堡王
  7. 看起来真的像是我们一直在等的工具来深入研究数据,如果有可能有一些免费的数据集,比如天气,那就更酷了。我们一定要试一试!

  8. 这听起来真的很棒。这让我想到了自动收集数据的不同方法。期待着玩这个!

  9. 这是美妙的。

    我们生活在这样一个世界,开放政府开始在世界各地的数据酒店中推出免费数据集,我只是想知道一件事:
    您是否有*任何*机会与开放知识基金会(okfn.org)合作,并自动分析输入世界开放数据门户的数据集?这可以是一个免费的推广,向人们介绍你的服务,或者由一个基金会支持,我相信会找到很多支持。

  10. 如果它能与Evernote、谷歌Docs和Dropbox一起工作,那就太棒了。

    菲利普威尔逊
  11. 我刚刚测试过。它对我的大部分数据(带有时间序列的csv文件)都不起作用。在一种情况下,我得到了一个散点图和一些频率图。在他们像承诺的那样改进wolfram|alpha之前,我将坚持使用一些更成熟的自动分析工具,如Cepel Inspect和Deltamaster。

    克劳迪娅Bittermann
  12. 我开始使用免费的WOLFRAM演示不到一个星期前,我想知道我可以为这个钻石价值的免费技术向谁表示真诚的感谢。我读和听到Mathematica已经20年了。我总是对它显露出来的巨大能力感到惊讶,我从来没有买过这个包。现在,我在开罗大学(Cairo University)教授物理课程时,使用了其中一些令人震撼的演示。你是向我表达谢意的最佳人选。再次,非常感谢,以我和我的学生的名义。

  13. 使用mm的统计部分看起来很棒,我对“最佳数据图”的能力印象深刻。我猜幸存下来的只有“一个焦点”,因为列的顺序很重要,或者因为它只有两种可能性(更多的独立性)。

    保险程序员可以通过使用概率和样本空间(计数技术)来归纳和推导“意义”。“考虑到事故和是否下雨,显示%的影响”。给出一个明确的计数,但它的统计性质或“过去事件的期望值”是不必要的。(p646科尔。Alg +trig第二,Jerome kaufmann)。我认为“不太可能”并不是这样,因为可能性还没有被数学描述;)就像订购由规则没有依存关系(不公平的游戏,游戏和统计)(一个不会说“可能”,除非有计数原理使用当使用一个预期值方程,计算)(统计可以组(计数)数据以任何方式,但没有规则的结果是随机的,可能性!)

    因此,它意味着什么这个问题可能意味着要显示什么,按照要求的顺序或依赖是好的(避免显示结论的阶乘)。如果不知道是否有一个算法从一个阶乘结果“一个有趣的”结果…将不得不考虑,如果没有指定什么,将被计数为突出显示比(其余垃圾)。金钱很重要,时间也很重要!买安然,你确定??

    我喜欢新的“最佳图形选择器”或“最佳图形列表”可以比许多图形选项节省大量的时间。

  14. 对于统计包,语言上的含义可以根据选择进行分类

    我寻找的是:趋势,趋势的例外,一个事物可能存在或不存在的地方。趋势可以是分组趋势,线性或曲线趋势,等等,但它可能需要计算原则来“追求”时间和金钱最大化,在那里它们需要被计算(例如,车祸被计算为损失,在散点图中哪里是更多的钱?)

    如果呈现出各种各样的情节,人们通常可以从统计数据上看到发生了什么,而无需进行分析:这些情节可以根据独立性/依赖性以及上文提到的语言进行选择。我确信{"趋势","分组",…}可能是一个选项,但不确定这种语言将如何与当今书籍中统计学(计算公式)的教学相比较

Baidu