020-29815005
预约专线时间:09:00-23:59

大数据是如何解决数据处理问题的

新闻来源:优漫教育 日期:2021-06-22
大数据技术以数据为中心,如何存储、计算、传输海量数据是需要考虑的核心问题。
  通常的计算模型是这样的:输入->计算->输出,程序就在这里,我们去提取数据,输入计算,最后得到输出结果。但是在网络时代,需要处理的数据实在是膨胀得太快了,因此传统的计算模式已经不适合处理大数据了,此时我们可以采用一种新的思路。因为数据很大,而程序又很小,所以在程序中输入数据是很不划算的,是不是可以把程序分发给所有数据的地方都重新计算一遍,然后汇总结果呢?回答是肯定的。

  不过,又要提出新的问题,不同的两台计算机之间,怎样合作来完成计算和汇总呢,这时就需要从技术角度重新构建。MapReduce是一个处理大型和超大型数据集并生成相关执行的编程模型,最早由Google于2003年至2004年间发布了GFS、MapReduce和BigTable这三个版本。

大数据培训班


  怎样实现?

  在集群服务器上存储要处理的数据,主要是用来把文件分成若干个文件。DigitalEngine根据不同服务器的处理能力,在每个服务器上启动任务执行进程并等待任务分配。编程时使用大数据计算支持的编程模型,如hadoop的mapreduce模型,或者hadoop的RDD模型,然后在程序中编写jar包。

  使用hadoop或spark启动命令执行jar包,执行引擎将数据分片,并基于数据路径为每个任务执行进程。当任务执行进程接收到分配的任务后,自动装入程序jar包并以反射方式运行程序。根据分配的数据片地址和数据文件的偏移量,任务执行进程读取数据进行处理。以大数据为基础的编程模型和编程框架,使开发者只需关注大数据算法的实现,而不需关注算法如何在分布式环境下运行,从而大大简化了大数据开发的难度和门槛。