超越批处理的世界:流计算

作者:博亚体育app下载发布时间:2023-01-03 01:24

本文摘要:今日,流式数据处理是大数据里的很重要一环。原因有不少,其中还包括: 1.商业(竞争)极为渴求更慢的数据,而转换成流计算出来则是一个好的方法来减少延后。 2.海量的、无穷数据集在现在的商业环境里逆的更加少见,而用专门设计来处置这样数据的系统来应付这些数据则更加更容易。 3.在数据抵达时就对他们展开处置需要更为平均值地把阻抗展开平衡,获得更佳的一致性和更加可预测的计算资源消耗。

最新平台

今日,流式数据处理是大数据里的很重要一环。原因有不少,其中还包括:  1.商业(竞争)极为渴求更慢的数据,而转换成流计算出来则是一个好的方法来减少延后。  2.海量的、无穷数据集在现在的商业环境里逆的更加少见,而用专门设计来处置这样数据的系统来应付这些数据则更加更容易。  3.在数据抵达时就对他们展开处置需要更为平均值地把阻抗展开平衡,获得更佳的一致性和更加可预测的计算资源消耗。

  尽管业务驱动带给了对流计算出来兴趣的激增,但绝大部分现有的流计算出来系统比起于批处理还过于成熟期,而后者早已产生了很多令人激动的、多产的应用于。  作为专门从事海量大规模流计算出来系统的从业者(在谷歌工作多达五年,研发了MillWheel和CloudDataflow),我很高兴能看见对于流计算出来的时代热潮。考虑到批处理系统和流计算出来系统在语义上的有所不同,我也很不愿来协助大家来解读流计算出来的方方面面,如它能做到什么?怎么用于它最差?  好的,下面不会有很长的内容,让我们变为技术狂吧。

  背景  开始我会讲解一些对我们解读后文的内容很最重要的背景科学知识。我会分三个主题来讲:  技术术语:为了能准确地介绍简单的题目,必需对涉及术语做到准确的定义。对于一些早已被欺诈的术语,我也不会很具体地解释我用它们时的意思。

  能力:我会对一些重复感受到的流计算出来系统的缺点做到一些评论。我也不会明确提出我所指出的数据处理系统的建造者不应使用的基本思路,基于这样思路建构的系统或可以应付现代数据消费者大大快速增长的市场需求。  时间域:我会讲解与数据处理涉及的两个主要时间域概念,说明他们是如何涉及的,并得出这两个域所带给的一些难题。

  技术术语:什么是东流计算出来  在之后前进前,让我们再行解决问题一个最重要问题:“什么是东流计算出来?”。尽管文章到这里为止我也是在随便的用着这个名词。流计算出来这个词有很多有所不同的意思,这就造成了关于究竟什么是东流计算出来或者究竟流计算出来系统能做到什么的误会。正因如此,我不愿在这里再行准确地定义它。

  这个问题的难题在于很多术语本应当被叙述成他们是什么(例如无穷数据处理和近似于结果处置),但却被叙述为他们过去是怎么被构建的(例如通过流计算出来继续执行引擎)。缺少准确的定义模糊不清了流计算出来确实的意思,在某些场合下它还被贴上了它的能力仅限于“流”的那些特征(如近似于结果、推断结果处置)的标签。鉴于较好设计的流计算出来系统能与现有的批处理引擎一样产生精确、完全一致和可重现的结果,我更加不愿把流计算出来十分具体地定义为:一种被设计来处置无穷数据集的数据处理系统引擎。仅此而已。

考虑到完整性,必须特别强调的是这个定义不仅包括了确实的流计算出来构建,也还包括微批处理(micro-batch)的构建。  下面是与流计算出来涉及的其他几个经常出现的术语,我也得出了更加准确和明晰的说明。

期望业界需要接纳和用于。  1.无穷数据(Unboundeddata):一种持续分解,本质上是无穷尽的数据集。

它常常不会被称作“流数据”。然而,用流和出厂来定义数据集的时候就有问题了,因为如前所述,这就意味著用处置数据的引擎的类型来定义数据的类型。

现实中,这两类数据的本质区别在于否受限,因此用能反映出有这个区别的词汇来定性数据就更佳一些。因此我更加偏向于用无穷数据来指代无限流数据集,用有贫数据来指代受限的出厂数据。  2.无穷数据处理(Unboundeddataprocessing):一种发展中的数据处理模式,应用于前面所说的无穷数据类型。尽管我本人也讨厌用于流式计算出来来代表这种类型的数据处理方式,但是在本文这个环境里,这个众说纷纭是误导的。

用批处理引擎循环运营来处置无穷数据这个方法在批处理系统刚开始构想的时候就经常出现了。忽略的,设计完备的流计算出来系统则比批处理系统更加能分担处置有贫数据的工作。因此,为了明晰清了,本文里我就要用无穷数据处理。

博亚体育app下载

  3.较低延后,近似于和/或推断性结果(Low-latency,approximate,and/orspeculativeresults):这些结果和流处置引擎常常关联在一起。批处理系统传统上不是设计来处置较低延后或推断性结果这个事实意味着是一个历史产物,并无它意。当然,如果想要,批处理引擎也几乎能产生近似于结果。

因此就如其他的术语,最差是用这些术语是什么来叙述这些结果,而不是用历史上它们是用什么东西(通过流计算出来引擎)产生的来叙述。  此后,文里任何地方我用于术语“流计算出来”,我就是指为无穷数据集所设计的处置引擎,仅此而已。当我用于上述任何术语时,我就不会具体说道无穷数据、无穷数据处理,或较低延后,近似于和/或推断性结果。这些也是我在CloudDataflow里用于的术语,我也建议业界去用于。


本文关键词:超越,批处理,的,博亚体育app下载,世界,流,计算,今日,流式

本文来源:博亚体育app下载-www.btjwlj.com