谷歌用来加速其Hadoop数据分析工具的内部使用

2020-02-25 09:44:16 来源: INeng财经

寻找更快的方式来为企业用户完成Hadoop查询是“钻探”的目标,“钻探”是由Apache Software Foundation承担的最新开源项目。Hadoop供应商MapR Technologies的产品管理总监Tomer Shiran表示,Drill已被确立为Apache孵化器项目,并向全世界的软件工程师开放其持续开发的经验。MapRTechnologies是Apache Drill项目的支持者之一。

Drill项目将致力于创建Google Dremel Hadoop工具的开源版本,Google用来加速其Hadoop数据分析工具的内部使用。

“我们已经花了几个月的时间与Drill的许多组织和潜在用户以及我们的客户群进行了交谈,” Drill项目的创始成员Shiran说。“我们想把它作为一个开源项目放在那里,而不是仅仅将其保存在MapR中供我们单独使用。”

Shiran说,Drill通过实现对大型数据集的更快查询来帮助Hadoop用户。

他说:“有了Drill,您将能够获得非常快的响应。” 他补充说,用户将能够在一秒钟内获得响应,这是与当今可用的其他工具的主要区别。

Hadoop目前按设计工作,因此可以对大数据集进行批处理。Shiran说,Drill会通过进行“交互式分析”来改进该方法,从而可以更快地在数据中找到所需的答案。“交互式分析比批处理要快得多。”

他说,对Drill之类的工具的需求源于用户需求的不断增长。“人们一直在Hadoop中进行查询,但是由于它不会在几秒钟内向您返回答案,因此存在局限性。”

根据Shiran的说法,使用Drill的用户将能够进行即席分析并获得更快的响应,无论他们是在寻找异常,数据趋势甚至是网络入侵。“考虑到所有这些情况,您将必须获得相当快的响应,或者当您弄清楚它的时候,这将是老新闻了。”

新生的Drill开源项目目前正在开发中,包括目前正在从事该项目的各种公司和个人。Shiran说:“将为此做出广泛的努力。” “现在有很多人正在积极地开发该项目,因此我认为发布我们的早期版本还需要很长时间。”

Drill受到Google Dremel项目的启发,该项目可帮助Google对庞大的数据集进行数据分析,例如分析已爬网的Web文档,跟踪Android Market上应用程序的安装数据,分析垃圾邮件,分析Google分布式构建系统上的测试结果等等,据西兰说。

通过将Drill开发为Apache开源项目,组织者将能够建立Drill自己的API并建立一种灵活而强大的体系结构,该体系结构将支持广泛的数据源,数据格式和查询语言。

MapR提供了其Hadoop产品的两个版本:免费的MapR M3;MapR M5是该产品的商业版本,具有高级功能,包括高可用性,创建数据快照和镜像数据集的能力以及24/7支持。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。