大规模批量计算是对存储的静态数据进行大规模并行批处理的计算批量计算是一种批量、高时延、主动发起的计算习惯上我们认为离线和批量等价,但其实是不准确的离线计算一般是指数据处理的延迟这里有两方面的含。什么是大数据批量计算?更多详情请大家跟着小编一起来看看吧!

什么是大数据批量计算

什么是大数据批量计算(1)

大规模批量计算是对存储的静态数据进行大规模并行批处理的计算。批量计算是一种批量、高时延、主动发起的计算。习惯上我们认为离线和批量等价,但其实是不准确的。离线计算一般是指数据处理的延迟。这里有两方面的含义第一就是数据是有延迟的,第二是是时间处理是延迟。在数据是实时的情况下,假设一种情况:当我们拥有一个非常强大的硬件系统,可以毫秒级的处理 Gb 级别的数据,那么批量计算也可以毫秒级得到统计结果。 业界常见的大规模批量计算框架:Tez、MapReduce、Hive、Spark、Pig、大数据的编程模型 Apache Beam。