当前位置: 100md首页 > 电子书籍 > 资料下载2021 >
编号:46934
Hadoop大数据入门与实践.pdf
http://www.100md.com 2020年11月10日
第1页
第10页
第17页
第22页
第45页

    参见附件(3194KB,84页)。

    Hadoop大数据入门与实践

    大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用,小编今天就为大家准备了相关的资料供大家

    书籍内容部分预览

    实例简介

    全书共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了简单介绍,旨在让读者了解当前的其它的大数据处理技术。

    本书除了对Hadoop的理论进行说明之外,还对如何使用各组件进行了介绍,但介绍的只是基础的使用,没有涉及到底层的高级内容,所以本书只是起一个引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。

    Hadoop功能和作用

    Hadoop是一个分布式存储和计算的平台

    http://hadoop.apache.org

    2个核心组成部分

    HDFS:分布式文件系统,存储海量数据

    MapReduce:并行处理框架,实现任务分解和调度

    主要应用

    搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务(搜索引擎,商业智能,日志分析,数据挖掘)

    主要优势

    高扩展,理论上无限扩展

    低成本

    成熟的生态圈(开源的力量),基于这个平台的工具很多

    Hadoop已经成为业界大数据平台的首选

    【Hadoop生态系统和版本】

    HDFS

    MapReduce

    Hive,小蜜蜂,降低使用Hadoop的门槛。把SQL语句转化为Hadoop任务

    Hbase,存储结构化数据的分布式数据库。

    与传统关系型数据库区别:放弃事务特性,追求更高的扩展

    与HDFS区别:提供了数据的随机读写和实时访问,实现对表数据的读写功能

    zookeeper,动物管理员。监控Hadoop节点状态,管理集群,维护节点间数据的一致性。

    Hadoop1.x与2.x差别很大。现在已经是3.x版本。

    自学大数据Hadoop需要哪些基础知识

    需要的基础知识:我觉得Java就够了。Linux基本上需要用的时候之直接百度就可以了,但是Java你必须过完基础,这个可以保证你能够上手hadoop,至少想要实现的逻辑能够自己用Java写出来。

    Linux的基础用在三部分

    (1)搭建hadoop集群环境:这个需要安装操作系统,安装一些组件,配置SSH无密码登陆,修改hadoop配置文件等。这部分有博客介绍入门 hadoop学习之hadoop完全分布式集群安装 你按照步骤来,但是估计这个要折腾一两个星期的,期间会有各种小问题。

    (2)hadoop 本身有些命令是 和Linux shell命令很像的,比如 shell里面的查看/usr/hdfs/目录下文件命令是

    ls /usr/hdfs在hadoop中查看 /user/hdfs命令是

    hadoop fs -ls /usr/hdfs有这个基础 你可以快速使用hadoop shell命令

    (3)集群的维护。hadoop作为开源分布式框架,用起来没那么舒服。期间会各种各样的问题,你需要去排查,这个过程你得有些linux的基础才知道如何去查看问题日志,定位问题的根源。

    关于是否培训:

    我个人并不看好培训,一者费用过高,一般都是上万;二者现在各种在线的网络课堂都有成套的教程,按照教程慢慢来也是可以系统学到的。

    培训的唯一价值,我个人认为在于对没有相关工作经验的人来说,培训机构可以为你推荐一些就业机会。

    Hadoop大数据入门与实践截图