数据库可以处理用于大数据分析的结构化和非结构化输入

2020-02-17 16:26:19 来源: INeng财经

混合硬件基础结构是企业技术领域的重要话题。CIO和技术经理希望将内部功能与云计算融合在一起,以保留旧的投资并为新的投资创造路径。数据和业务分析部门中发生了同样的事情。

我在波士顿的大数据创新峰会上呆了几天。尽管对非结构化数据,Hadoop和社交数据的概念进行了很多讨论,但讨论的重点是如何创建一种混合企业数据结构,该结构将通常存储在数据仓库中的传统结构化数据与从各种来源衍生来的非结构化数据相结合。数据网格化问题受到了很多讨论,因为它是企业技术的真正优先事项。

结构化数据的传统数据存储通常以业务交易的形式存储在数据仓库中,并可以通过SQL进行访问。这是Oracle,IBM和Microsoft的领域,其中的数据是公司客户交易,库存以及行和列中存储的所有其他内容的中央存储库。正是这些数据成为通过业务分析进行仓储,清理和查询的对象。没有理由拆除这些数据仓库。

捕获公司外部产生的点击流,社交互动,情感和多媒体的原因很多,但这是公司福祉和未来不可或缺的。该数据不适合进行传统的捕获,清理和存储。

这些数据属于Hadoop,HBase,NoSQL以及Google,Yahoo,Facebook和Twitter等面向Web的巨头发明的所有其他形式的数据捕获,存储和分析领域。存储的规模巨大,查询技术各不相同(在捕获数据之前,您通常不知道要查找什么),并且技术架构和术语对传统的数据库世界并不熟悉。

“传统数据库不会消失,” StubHub的首席架构师Sastry Malldi说。StubHub在2007年被eBay以3.1亿美元的价格收购。该公司最初是买卖活动门票的地方(后来被新英格兰爱国者起诉)。但是它正在演变成一个提供与活动相关的全方位住宿,交通和便利设施的组织。

买卖门票是经典的交易事件,而围绕事件提供意见和气氛是非结构化且非交易性的。将交易基础与非结构化的未来融合在一起的任务是许多企业面临的混合项目类型。Malldi当前正在处理25种不同的数据源。

进入公司的非结构化数据越多,处理所有这些源时就必须变得越结构化。StubHub使用由数据管理伞监督的四层数据方法。数据和数据管理位于eBay的私有基础架构云中。

基本层代表向基础架构提供的那25个数据源。这些来源包括结构化和非结构化数据,目的是创建一个可以接受来自各种输入数据的平台。数据导入的第二层旨在清理数据并识别数据依赖性。第三层是进行分析的地方。第四层是面向用户的层,在此进行电子商务,高级分析和可视化。

此处提供了对StubHub基础架构的更深入的了解(截至2012年的最新信息),但处理的是突发数据流(事件发生前需求巨大,事件发生后没有需求),进行付款和欺诈检测的需求以及要求交付各种格式的票证是一个复杂的企业数据库问题,无处不在。

混合数据库将成为未来几年企业数据架构师的目标。平台的创建可以接受各种各样的结构化和非结构化输入,并产生对消费者友好且业务经理可以访问的信息,这将成为成功公司的基础。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。