您的位置首页 >网络行情 >

与AI同行如何发现存储和清理所需数据

去年八月,数据科学负责人莫妮卡·罗加蒂(Monica Rogati)为企业家提供了一种思考人工智能的新方法。模仿心理学家亚伯拉罕·马斯洛(Abraham Maslow)的五层心理需求层次结构,她的AI需求层次结构已成为会议上的最爱,因为它说明了如何将AI融入业务。

尽管企业家对AI感到兴奋,但Rogati的层次结构却使人感到不适。很少有公司准备采用AI。大多数公司都在努力满足基本需求,例如可靠的数据流和存储。事实是,大多数公司都希望获得AI的收益,而缺乏数据素养。

你得到你所投入的。

为了帮助企业家了解高质量数据的重要性,我们的团队提出了我们所谓的AI不确定性原则:

关键要点?如果右侧的任何值均降为零,则AI程序的值也将降为零。我们在上一篇《企业家》文章中讨论了评估AI的商机,因此我们现在关注第二个变量:最大化数据质量。

高质量数据是所有类型的机器学习的关键-监督学习,无监督学习和强化学习。对于大多数企业而言,监督式学习是低调的成果,因为它是从过去的案例中学习。如果先前的示例无关紧要或质量低下,那么您猜怎么着?从他们那里得到的任何见解也将是。没有任何篮球经验的人不能只加入NBA球队-至少如果他想成功就不能。

尽管大多数数据科学家更喜欢机器学习的核心数学,而不是清理数据的繁琐工作,但如果没有后者,就无法拥有前者。数据科学与工程学齐头并进,合适的机器学习团队将拥有可以同时处理这两个方面的人员。

利用良好的数据做更多事情;没有高质量的数据,任何机器学习计划都不会奏效。为了获得良好,干净的数据,您需要:

1.从检测开始。

机器学习计划与公司本身一样多样。仔细考虑一下需要什么样的示例来训练算法,以便做出预测或建议。

例如,我们与之合作的在线婴儿注册中心希望在注册后的几天内预测客户的终生价值。对我们来说幸运的是,它可以主动记录交易数据,包括客户添加到其注册表中的项目,添加位置和购买时间。此外,客户端已经记录了整个事件流,而不仅仅是每个注册表的当前状态,以维护数据库记录。

客户还为我们带来了Web和移动事件流数据。通过Heap Analytics,它已将每个注册者使用的设备和浏览器类型记录到其事务数据库中。该注册公司甚至使用UTM代码收集了归因数据,这是2017年AdRoll调查中仅有51%的北美受访者收集的用于全部或大部分营销活动的数据。

综合起来,所记录的信息使公司能够记录各种营销活动和渠道如何映射到客户的生命周期价值。它唯一缺少的是有关销售接触点和类似指标的CRM数据。尽管我们许多其他客户使用Salesforce等CRM,但人工输入的数据却很杂乱。尽管其中可能包含信号,但我们倾向于将其优先于机器生成的数据以下,这更加一致。

在处理不同的数据集时,请考虑可连接性。如果提供软件产品,请考虑要求登录。因为我们使用的注册表使用了一个注册表,所以我们能够轻松地将跨设备和平台的操作与单个用户相关联。代替可能造成用户冲突的登录,请考虑记录用户IP地址或使用跟踪cookie。必须以一种或另一种方式将单个动作捆绑在一起,形成用户的单个一致视图。

2.标记并存储数据。

将数据存储在数据仓库中,例如Google BigQuery或Amazon Redshift,尽管还有其他强大的存储选项。这些系统使用强制规范的结构化格式,这使得下游用户可以更轻松地访问和分析数据。

在存储工作流程中构建标签,并尝试尽可能自动执行标签。例如,在我们的一项预测性维护项目中,要求技术人员使用应用程序记录故障原因将产生干净的,带有标签的数据集。人类在时间上和个体之间都不一致,除非您创建了真正出色的数据输入系统,否则就很难针对这些差异标准化数据。

为了使标准化更加容易,请干净地标记数据沿袭并与数据本身一起跟踪它们。产品更改可能会使分析人员和工程师不易察觉的方式使数据变色。例如,如果推出新的用户界面,请清楚地标识切换前后的数据。

3.“清除”收集的数据。

清理数据远非令人兴奋,但对于您要从AI计划中获取结果至关重要。在AI项目方面,CrowdFlower2017年数据科学家报告调查的51%的人认为质量问题是最大的瓶颈。清理可以涉及对丢失的记录进行插值,消除导致结果倾斜的异常值,删除冗余和日志记录状态更改。如果您是从头开始的话,清理数据可能涉及所有这些事情以及更多,例如回填丢失的数据。

记住AI不确定性原则。当数据丢失,不完整或不干净时,您将无法从AI中获得太多价值。话虽这么说,不要一口气清理所有数据。

使用我们的注册表客户端,我们首先只使用事务数据库,然后将其迁移到Redshift中以创建许多下游模型。直到那之后,我们才将客户的Heap数据合并到Redshift中,并且我们目前仍在处理其电子邮件营销数据。

如果您不确定从哪里开始,请选择一种端到端解决方案,该解决方案可通过增加数据清理的副产品来提供业务价值。

与收集和清除数据一样重要,要知道这一点:这永远是不够的。就像自您创业以来一样,您的产品,环境和目标将继续发生变化。您的数据收集和清理工作也应如此。这就是为什么设计AI计划的最佳时机是当您成立公司时的原因。第二好的时间是现在。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。