020-29815005
预约专线时间:09:00-23:59

怎么从零开始学习大数据?

新闻来源:本站 日期:2021-07-29
在过去的几年里,大数据创业公司大量增加,都试图处理大数据,帮助组织理解大数据,越来越多的公司正在慢慢采用并转向大数据。
    学大数据有两个基本要求:

    一、最佳年龄为20-32岁;

    二、大专以上学历最好(理科生)优先。

    学习大数据的零基,需要由浅入深,循序渐进的入门,这样才能扎实的掌握大数据技术。

    学习大数据的基础是Java语言和Linux操作系统,学习顺序不分先后,一般都选择先学习Java语言。由于大数据相关软件基本上运行在Linux操作系统上,所以Linux系统也是必学大数据必学的基础,需要扎实的知识,才能深入学习真正的大数据技术。

    了解了两个基础后,接下来是大数据相关的技术:

    1、Hadoop。

    如今,流行的大数据处理平台几乎成为大数据的代名词,因此这是必须学习的。Hadoop包含一些组件HDFS、MapReduce和YARN,HDFS是存储数据的地方,就像我们电脑的硬盘,这些文件都储存在这里,MapReduce是用数据处理的,它有一个特点,就是不会有太大的数据,只给它时间,它就会跑完,但是时间可能不会太快,所以它被称为数据批处理。

    YARN是体现Hadoop平台概念的重要组件,使用其大型数据生态系统中的其他软件也可以在hadoop上运行,这使得HDFS大容量存储器的优势得以充分发挥,例如,我们不再需要单独创建一个spark集群,让它直接运行在现有的hadoopyarn之上。

    实际上,学习Hadoop的这些组件,你可以做大数据处理,但是你对“大数据”还没有什么概念,听我的,不要纠结于这些。等一下,你工作之后会有很多场景会遇到几十T/几百T的大尺寸数据,到时候你也不会觉得数据太大,越大越头疼。要处理这么多的数据,当然不必担心,因为这就是您的价值。使html5和DBA都羡慕Javaee的php。

    2、Zookeeper

    当Hadoop安装Hadoop的HA时,它是一种万金油,并将其用于将来的Hbase。经常用来存储一些相互协作的信息,这些信息比较小,一般不会超过1M,都是软件使用的依赖它,对于我们个人来说,只要正确安装,让它正常运行就可以了。


大数据


    3、Mysql。

    mysql数据库是一个小型的数据处理工具,因为您可以将它用于装载hive,那么mysql需要达到什么级别?您可以安装、运行Linux、简单的权限、修改根密码、创建数据库。这里主要学习SQL的语法,因为hive的语法和这个非常相似。

    4、Sqoop。

    此功能用于将数据从Mysql导入Hadoop。当然,你也可以不用这个,直接将Mysql数据表导出到一个文件,然后放到HDFS上,当然要注意Mysql在生产环境中的使用压力。

    5,Hive。

    这是一种使用SQL语法的神器,它使您能够在不编写MapReduce程序的情况下轻松地处理大量数据。有些人是这么说的?和皮克差不多就能掌握一次。

    6、Oozie

    既然已经了解了Hive,我认为您肯定需要它,它可以帮助您管理Hive或MapReduce、Spark脚本,并且检查您的程序是否正常工作,如果有错误,您可以报警,帮助您重新尝试您的程序,最重要的是,这也有助于您配置您的任务依赖关系。你一定会喜欢的,不然你就会在一堆杂乱无章的剧本中看到一堆杂乱无章的杂乱无章的小东西。

    7、Hbase。

    在Hadoop生态系统中,NOSQL数据库的数据存储在key和value中,key是唯一的,所以可以用它来排重数据,与MYSQL相比,它可以存储很多很多数据。所以,当大数据处理完成之后,通常用来存储目标。

    8、Kafka。

    这是一个可以使用的队列工具,队列中有什么?您知道购票要排队吗?资料多了也要排队处理,所以和你合作的其他同学都不会叫起来,干嘛给我那么多资料(比如好几百G的资料)我怎么处理呢,别怪他因为他不是搞大数据的,你可以跟他说,当我把数据放在队列里用的时候再用,然后用这个方法来解释。

    他有些事不能做到。你没给这个问题。当然,我们也可以使用这一工具,在线上做实时数据的入库,或者进入HDFS,当你进入一个名为Flume的工具时,它专门用来提供简单的数据处理,并写到不同的数据接收者(例如Kafka)。

    9、Spark

    这种方法可以弥补基于MapReduce的数据处理速度的不足,它的特点是将数据装载到内存中,而不去读取进化速度特别慢的硬盘。特别适合于迭代运算,因此计算法流显得尤为重要。它写在scala上。Java或Scala都使用JVM,这是因为它们都使用JVM。

    只要掌握了这些技术,那么基本上就可以成为一个专业的大数据开发工程师。之后再进阶稍微提高一些,python语言,机器学习等知识,让自己在以后的工作中更有进步,更出色。