资料下载：Hadoop大数据入门与实践.pdf

Hadoop大数据入门与实践.pdf

http://www.100md.com 2020年11月10日

第1页

第10页

第17页

第22页

第45页

    参见附件(3194KB，84页)。

    Hadoop大数据入门与实践

    大数据时代已经到来，越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop，作为一个开源的分布式并行处理平台，以其高扩展、高效率、高可靠等优点，得到越来越广泛的应用，小编今天就为大家准备了相关的资料供大家

    书籍内容部分预览

    实例简介

    全书共有12章，从Hadoop起源开始，介绍了Hadoop的安装和配置，并对Hadoop的组件分别进行了介绍，包括HDFS分布式存储系统，MapReduce计算框架，海量数据库HBase，Hive数据仓库，Pig、ZooKeeper管理系统等知识，最后对Hadoop实时数据处理技术作了简单介绍，旨在让读者了解当前的其它的大数据处理技术。

    本书除了对Hadoop的理论进行说明之外，还对如何使用各组件进行了介绍，但介绍的只是基础的使用，没有涉及到底层的高级内容，所以本书只是起一个引导作用，旨在让读者了解Hadoop并能够使用Hadoop的基本功能，并不是学习Hadoop的完全手册。

    Hadoop功能和作用

    Hadoop是一个分布式存储和计算的平台

    http://hadoop.apache.org

    2个核心组成部分

    HDFS：分布式文件系统，存储海量数据

    MapReduce：并行处理框架，实现任务分解和调度

    主要应用

    搭建大型数据仓库，PB级数据的存储，处理，分析，统计等业务(搜索引擎，商业智能，日志分析，数据挖掘)

    主要优势

    高扩展，理论上无限扩展

    低成本

    成熟的生态圈(开源的力量)，基于这个平台的工具很多

    Hadoop已经成为业界大数据平台的首选

    【Hadoop生态系统和版本】

    HDFS

    MapReduce

    Hive，小蜜蜂，降低使用Hadoop的门槛。把SQL语句转化为Hadoop任务

    Hbase，存储结构化数据的分布式数据库。

    与传统关系型数据库区别：放弃事务特性，追求更高的扩展

    与HDFS区别：提供了数据的随机读写和实时访问，实现对表数据的读写功能

    zookeeper，动物管理员。监控Hadoop节点状态，管理集群，维护节点间数据的一致性。

    Hadoop1.x与2.x差别很大。现在已经是3.x版本。

    自学大数据Hadoop需要哪些基础知识

    需要的基础知识：我觉得Java就够了。Linux基本上需要用的时候之直接百度就可以了，但是Java你必须过完基础，这个可以保证你能够上手hadoop，至少想要实现的逻辑能够自己用Java写出来。

    Linux的基础用在三部分

    (1)搭建hadoop集群环境：这个需要安装操作系统，安装一些组件，配置SSH无密码登陆，修改hadoop配置文件等。这部分有博客介绍入门 hadoop学习之hadoop完全分布式集群安装你按照步骤来，但是估计这个要折腾一两个星期的，期间会有各种小问题。

    (2)hadoop 本身有些命令是和Linux shell命令很像的，比如 shell里面的查看/usr/hdfs/目录下文件命令是

    ls /usr/hdfs在hadoop中查看 /user/hdfs命令是

    hadoop fs -ls /usr/hdfs有这个基础你可以快速使用hadoop shell命令

    (3)集群的维护。hadoop作为开源分布式框架，用起来没那么舒服。期间会各种各样的问题，你需要去排查，这个过程你得有些linux的基础才知道如何去查看问题日志，定位问题的根源。

    关于是否培训：

    我个人并不看好培训，一者费用过高，一般都是上万；二者现在各种在线的网络课堂都有成套的教程，按照教程慢慢来也是可以系统学到的。

    培训的唯一价值，我个人认为在于对没有相关工作经验的人来说，培训机构可以为你推荐一些就业机会。

    Hadoop大数据入门与实践截图

附件资料：

Hadoop大数据入门与实践.pdf（3194KB）

本页网址：

http://www.100md.com/html/file/202011/105402.htm