我们几乎听不到数据实际上是如何从收集到算法的

2019-09-11 16:09:56

似乎我们每天都会听到更多关于人工智能(AI)的潜力以及用于实现它的技术(如机器学习(ML))的更多话题。随着人工智能越来越突出,用例或潜在的未来用例的故事也将变得无处不在。

尽管对AI和ML的兴奋正在合理增长,但我们几乎听不到数据实际上是如何从收集到算法的。通过研究构建假设机器学习模型背后的过程,我们可以看到在赞美AI的优点的文章中经常掩盖的重要过程。

在这篇eWEEK数据点文章中,图八的人机交互开发人员Kiran Vajapey 提供了有关此数据旅程及其工作原理的五个关键见解。图八公司开发了一种人在环AI软件平台,可以为数据科学和机器学习团队培训,测试和调整机器学习模型。它支持文本,图像,音频和视频数据类型。

例如,如果我们对“城市街道”进行谷歌图像搜索并将其提供给我们的自动驾驶汽车算法,那么它产生的结果可能无法采取行动。相反,我们需要让人类注释器使用工具来创建边界框或在通过模型发送数据之前标记数据。在提交给模型的每张照片中,人类将需要放置盒子并标记每个路缘,消防栓,电线杆和人类以及其他物品。

为了构建自动汽车模型,组织可能希望比照片中的边界框和标记项更进一步。在这种情况下,组织可以转向所谓的语义分割,从而图像中的每个像素都会收到一个标签。当模型的结果与指导自动驾驶汽车一样重要时,人工智能对其周围环境尽可能了解至关重要。

注释过程对于确保数据质量和准确性尤其重要。为此,您应确保用于注释数据的工具可以充分地将人工智能应用于流程。即使在标记数据之前,组织也希望首先考虑他们收集数据的方法。

数据点2:数据增强

如果您的算法的完美数据集不存在,您通常可以执行数据扩充以增强您拥有的数据集。考虑语音识别系统的模型(例如Alexa或Siri)。如果您从录音室收集清晰的声音叮咬,该算法可能会在现实世界中遇到问题。由于该模型经过训练以识别无菌环境的干净声音,因此在出现充满环境噪音或静电的语音控制时可能会很困难。幸运的是,为了使数据更加真实,您可以通过增强方法在干净数据的背景中模拟噪声。

数据点3:转移学习

如果您尝试为商业应用程序构建ML算法,则很可能不存在用例的确切数据集。考虑一个模型来检测X射线图像中的癌症。对于您的使用案例,可能没有很多来自癌症患者的公开数据X射线图像。转移学习允许您利用现有模型。在这种情况下,您可以使用可用模型,该模型已经学习了关于像素级边缘检测和来自先前数据集的一般图像组件识别的规则。

与其使用数百万张图像预先训练您的模型,您可以改为删除此现有模型的图层,直到您有一个合适的起点。然后,您可以将特定数据集提供给已经过训练的算法,以识别图像中的某些像素。在处理特定数据集时,您可以重新训练模型以更好地了解X射线图像的细微差别。在使用您的数据重新训练现有算法的过程中,您将开发适合您的用例的神经网络。

数据点4:迭代

虽然这听起来可能违反直觉,但团队收集过多数据很容易。在训练模型时,最合理的方法通常是迭代地工作。如果碰巧有1000张X射线数据图像,请先使用这些图像。训练模型后,您将更好地了解该模型是否有效。假设您的目标是85%的准确率。如果这1000张图像的准确率达到85%,那么您就不需要收集更多。如果它们只导致提供67%准确度的模型,那么您将不得不投资为数据集寻找更多图像。

即使您确实可以访问更大的数据集,迭代工作也许是创建模型的最有效选择。考虑需要标签和边界框的数据。您可以使用现有的标记数据来训练一个模型,该模型可以自己标记其他数据。当您通过模型运行标记数据时,它将构建您的神经网络并最终提高算法的可信度。

该模型可以生成一个图像,其中20%置信度,另一个置信度为80%。通过将图像低于某个置信度阈值给人类来指定标签,您可以将人类智能融入到过程中。这将有助于从人类获取模型不确定的数据的基本事实。一旦人类注释了选择的数据点,您就可以使用适当标记的数据训练模型。

数据点5:使用这些工具改进算法而不降低成本

公司遇到的主要数据挑战是他们不确定使用数据的最佳方式。我们曾与一家试图预测股票价格的公司合作过一次。例如,在试图预测Apple的股价时,我们收集了有关Apple的各种情绪数据。最后,我们了解到我们需要合并分类Apple以外的实体的数据点,以获得更准确的预测。我们意识到收集不同类型的数据产生了更稳定的长期投影算法。

公司首先必须设定一个目标,以了解他们试图用他们的数据建立什么。如果我们提前为自己设定目标,我们可能会从一开始就创建一个更准确的模型。通过创建目标,您将在制定策略和构建AI计划时拥有一个参考框架。

您尝试解决的数据细节和给定问题会随着时间的推移而发生变化。但是,如果您希望实现某个州,则可以开发工具和算法以达到该特定点。通过在构建模型时使用这四个工具,您的项目更有可能最终更高效,准确且更具成本效益。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。