数据湖和大数据分析:什么,数据湖的原因和方式

什么是数据湖?它们如何用于大数据分析?数据湖的定义和描述,他们的工作方式和好处是什么,驱动因素和缺点。

做一个大数据项目成功你至少需要两件事:知道什么(混合)可操作数据您需要您所期望的结果,并获得正确的数据来分析和利用,以实现这些结果。

这很明显。然而,正如你所知,我们有越来越多的数据来自越来越多的来源,以越来越多的形式和形状。确实是大数据。正如你所知道的,这个数据量,品种等也不会很快下降。恰恰相反。

数据湖-为什么和如何-大数据分析

数据湖是一种在快速增长和日益非结构化的大数据世界中结束数据孤岛的方法

看看这个vwin免佣百家乐 (物联网)其中主要是工业物联网准备在未来几年快速成长。

随着这一增长,确实会带来更多或更好的数据:数据就是我们在物联网上所追求的,为了获得深刻的洞察力,并推动相关行动和运营以实现任何成果:大数据分析有目的;智能数据对于智能应用程序——不可避免地人工智能去理解所有的数据。

数据湖是放置所有企业(可能)想要收集的数据的地方,商店,分析并转化为洞察力和行动,包括结构化,半结构化和非结构化数据

传统上,数据存在于整个组织和IT运营生态系统(外部数据)的筒仓中。这是一个挑战:如果一个大数据项目中的数据到处都是,那么你就不能组合正确的数据来成功地完成这个项目。.

这是,在其他中,大数据湖的概念和现实来自何处。作为一个概念,数据湖是由詹姆斯·狄克逊推动的,他曾在Pentaho担任首席技术官,并将其视为比数据集市或数据仓库更好的大数据现实存储库替代品。

下面是Dixon如何定义或解释数据湖在他的博客上2011年:“如果你把一个数据集市看作是一个瓶装水的商店,它经过清洗和包装,结构简单,便于饮用,那么数据湖就是一个更自然状态下的大水体。数据湖的内容从一个源头流入,以填满湖泊,湖上的各种各样的使用者可以来检查,潜入水中,或者取样。

数据湖是具有分析和操作目的的存储库

你可以看到一个数据湖确实有点像一个湖,没有天鹅和水。好啊,看起来不像湖。但你可以理解:一个大数据湖本质上就是一个存储库,其中包含原始数据的负载,本地格式。

传统的数据管理方法不适合(或者需要很多钱)处理大数据和大数据分析。通过大数据分析,我们希望找到不同数据集之间的相关性,这些数据集需要组合才能实现我们的业务成果。如果这些数据集位于完全不同的系统中,这几乎是不可能的。

这样一个目标的例子可以是将来自一个来源的客户的数据与来自其他来源的数据,甚至看似无关的数据相结合。(例如,交通数据,气象资料,与我们的业务无关的客户数据)以增强客户体验,vwin免佣百家乐提出新的服务或只是销售更多。

自下而上的数据分析:摄取以填满数据池

所有这些与数据湖有什么关系?好,大数据湖是用于分析的两种信息管理方法之一。

第一个是自顶向下(数据仓库)。第二个是自下而上的,数据湖我们在这里讨论的主题。为了使这更具体,让我们回到一个真正的湖泊。一个湖不仅仅是这样被填满的。通常有河流或小河把水引到那里。

数据湖是为大数据分析和解决大数据中的数据筒仓挑战而设计的。

在数据湖中,同样的情况也会发生。这也被称为数据的摄取,不管来源或结构。我们通过所提到的数据分析收集我们达到目标所需的所有数据。

这些“数据流”有几种格式:结构化数据(简单地说,来自传统关系数据库甚至电子表格的数据:行和列)非结构化数据 (社会性的,视频,电子邮件,课文,…,来自各种日志的数据(例如WebLogs,单击流分析…),XML机器对机器,物联网和传感器数据,您可以命名它(日志和XML也称为半结构化数据)。

它们还从上下文的角度涉及各种类型的数据:客户数据,来自业务线应用程序的数据,销售数据,等。(通过API在数据湖中输入).而且,显然,为了实现我们的目标,我们越来越多地需要利用外部数据(源)。

数据湖的使用:存储,分析学,可视化和行动

所有这些数据,就其意义而言,存储在数据池中,同时它也不断进入,通过应用程序接口协议(API)提供来自各种应用程序和系统的数据,或者通过批处理。

存储维度是第二大部分(摄取是第一个)。在大数据湖方法中,这实际上意味着没有筒仓。这个,因此,意味着我们已经准备好开始有趣的工作:大数据分析。

回到我们结合数据集的例子,这些数据集有时似乎是无关的,例如,我们可以检测购买行为和天气模式之间的模式(使用人工智能)。在一个来源的客户数据和另一个来源的客户数据之间,在交通数据和污染数据之间,名单还在继续。我们尽量保持简单。你能用这些模式做什么?正如你所能想象的,在现实生活中有大量的大数据使用实例,这就是你的业务或其他目标的切入点。

显然,分析是不够的。你还需要形象化,理解并根据你分析的内容采取行动。或者作为信息图表电磁兼容关于湖泊是如何工作的,下面的数据表明:水的流出是经过分析的数据,这将导致采取行动,从而产生业务洞察力。这的确是我们的老朋友

了解数据湖—什么是数据湖以及数据湖如何工作—由EMC提供的信息图
了解数据湖-什么是数据湖以及数据湖如何工作-信息图表 电磁兼容

为什么是数据湖?好处

如前所述,传统上有两种用于分析的信息管理方法。为什么数据湖(自下而上的方法)在数据分析中很受欢迎?

有不同的原因。第一,重要的是要了解,我们对数据湖的印象并不完全正确,这不仅仅是一个自下而上的大混乱数据沼泽(尽管它可以变成一个)有相当多的技术,协议等等。利用河流进入湖泊的图像:在水真正进入湖泊之前,有过滤器。

历史遗留数据架构挑战

数据湖更受欢迎的一些原因是历史原因。

传统的传统数据系统没有那么开放,至少可以说,如果你想开始整合,将数据添加并混合在一起以进行分析和操作。使用传统数据架构的分析既不明显也不便宜(需要额外的工具,取决于软件)。此外,它们不是用我们通常在大数据中看到的所有新的和新兴的(外部)数据源构建的。

作为数据湖采用的驱动因素,更快的大数据分析

使用数据湖的另一个重要原因是大数据分析可以更快地完成。

事实上,数据湖是为大数据分析而设计的,如果你愿意的话,比以往任何时候都重要,基于实时分析的实时操作。数据湖适合以一致的方式利用大量数据和算法来驱动(实时)分析快速数据.

混合和聚合数据:一个数据池中的结构化和非结构化数据

我们或多或少已经提到的一个好处是可以获得,混合,集成和聚合所有类型的数据,不管来源和格式如何。

Hadoop数据湖架构之一,还可以处理主要数据块之上的结构化数据:前面提到的来自社会数据的非结构化数据,日志等等。附带说明:非结构化数据是所有数据中增长最快的形式。(即使结构化数据也在不断增长)预计将达到所有数据的90%。

将数据分析转移到源——数据湖和边缘

然后,事实上,来回移动大型数据集并不是最明智的做法。

对于大数据湖,应用程序离数据所在位置很近。从这个意义上说,一个有趣的开发是您看到了应用程序(或大数据分析)移动到边缘而不是存储库以更快地移动并减轻网络负担,在其他中。这就是雾计算,最近的应用边缘计算在关联工厂的数据分析范围内徳赢中国 以及工业互联网.

数据湖和灵活性:随需增长和扩展

下一步,数据湖具有高度的可扩展性和灵活性。这不需要太多的阐述。系统和过程可以很容易地扩展以处理更多的数据。

什么是数据湖-根据pwc-来源
什么是数据湖? 根据普华永道-来源

保存企业数据仓库资源

我们提到的最后一个好处是,正如上面普华永道的插图所示,数据池可以作为(企业)数据仓库(EDW)的临时区域。

然后只将相关数据传递给仓库,从而节省EDW资源。

数据湖挑战,风险与演变

大数据湖的好处更多,但和往常一样,我们不想太专业。而且,同样按照惯例,有好处,要解决的风险和挑战。

其中一个风险是,如果没有按照必要的目标进行适当的战略设计并牢记清洁,数据湖可能会变成数据沼泽。这也是组织从传统的数据湖方法转向面向目标和业务驱动的方法的原因。

显然,数据湖应该通过业务驱动和战略方法来实现。然而,从历史上看,它们通常是从不断增长的数据量的角度来看的,并且认为最终所有数据都具有潜在价值。

潜在意味着未来,虽然这个值确实是,好,潜力,相当多的公司表现得像数据囤积者(顺便说一下,这在信息管理,这是为什么仍然存在的一个关键原因这么多纸无纸化仍然是一个白日梦),不必考虑太多真正重要的数据和元数据(元数据管理是数据湖环境中的一个重要元素)。

此外,如果您的组织和目标需要一个数据湖,这是一个问题,如果是这样,如果你能从你的数据湖中获得价值。

一个2015调查加特纳显示了对几家公司来说(数据湖架构的领导者)是过度杀戮和技能差距(推导价值来自Hadoop是主要的抑制剂。

大数据湖的规模

由于大数据量和使用量随着大数据计划的不断增长而不断增加,这些计划的广度也在不断增加,Qubole在博客中提到的深度和包容性,数据湖的规模显然也在不断增长。

这个博客帖子,它宣布2018年大数据趋势与挑战报告通过维度研究(由Qubole赞助)指出,平均数据池大小超过100兆字节的组织比例从2017年的36%上升到2018年的44%。(一年内增长22%).这一趋势只会持续下去,而且只是大数据处理向云端转移的众多驱动因素之一。

平均数据湖大小

新闻稿中的古柏乐在2018年9月的报告中:“在一定程度上,由于公司所处理的数据量不断增长和多样性,必须向云技术转移,现在有44%的组织报告说,他们使用的海量数据池的大小超过了100兆字节”。

报告,你可以在这里下载,提醒我们,预测需要的未来数据集远远超过当今大数据存储库的规模。

然而,永恒的挑战仍然存在:如何从所有这些数据中获取价值。事实上,决策和行动——这是并应该是市场发展的关键驱动力。

上图:Shutterstock–Copy右边: 加里基尔连–所有其他图像均为其各自提及的所有者的财产。