当前位置: 首页 > 新闻 > 信息荟萃
编号:5777
Flume日志收集与MapReduce模式.pdf
http://www.100md.com 2020年11月19日
第1页
第10页
第11页
第22页
第49页
第99页

    参见附件(28581KB,182页)。

     《大数据技术丛书:Flume日志收集与MapReduce模式》展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。对于各个架构组件(源、通道、接收器、通道处理器、接收器组等),都提供了详尽的各种实现以及配置选项,你可以借此根据自己的需要来定制Flume

    本书面向的读者

    本书面向需要将来自各种系统的数据自动化地移动到Hadoop集群中的人。如果需要定期将数据加载到Hadoop中,那么本书就是为你准备的,它将使你从手工工作中解脱出来,也无需再继续维护一些自己编写的工具。

    阅读本书只需要对基本的Hadoop HDFS知识有一定了解。我们提供了一些自定义的实现,如果需要可以使用。对于这种级别的实现,你需要了解如何使用Java进行编程。

    最后,你需要使用一款自己喜欢的文本编辑器,因为本书的大部分内容都涉及如何通过代理的文本配置文件来配置各种Flume组件。

    本书主要内容

    第1章介绍了Flume及其将会解决的问题空间(特别是与Hadoop相关的部分),架构概览介绍了将会在后续章节中讨论的各个组件。

    第2章帮助你尽快上手Flume,包括Flume、创建"Hello World"配置并运行。

    第3章介绍了大多数人都会用到的两个主要通道以及每个通道可用的配置选项。

    第4章详细介绍了如何使用HDFS Flume输出,包括压缩选项以及数据格式化选项。此外还介绍了故障恢复选项以创建更为健壮的数据管道。

    第5章介绍了几种Flume输入机制及其配置选项。此外,还介绍了如何根据数据内容在不同的通道间切换,这样就可以创建复杂的数据流了。

    第6章介绍了如何即时转换数据以及如何从负载中抽取信息来与通道选择器搭配以进行路由判定。还介绍了如何通过Avro序列化对Flume代理进行分层,如何将Flume命令行作为独立的Avro客户端进行测试以及手工导入数据。

    第7章介绍了内外部用于监控Flume的各种方式,包括Monit Nagios,Ganglia以及自定义钩子。

    第8章超越了Flume配置与使用本身,对实时分布式数据收集的各个方面进行了讨论。

    第9章介绍了如何使用Java(不使用MapReduce)编写一个单词统计应用。我们会将其与MapReduce模型进行比对。

    第10章介绍了如何使用MapReduce编写单词统计应用以及如何使用Hadoop本地模式运行。

    第11章介绍了如何在分布式环境中安装Hadoop并运行之前的Wordcount job.

    第12章介绍了如何编写一个Hadoop数据格式化器来读取Amazon数据格式以作为记录而非逐行读取数据。

    第13章介绍了如何通过MapReduce处理Amazon数据,生成直方图数据以及使用gnuplot来绘制结果。

    第14章介绍了如何通过MapReduce连接两个数据集。

    第15章介绍了如何处理Amazon数据以及通过MapReduce实现差集。此外还介绍了如何通过类似的方法实现其他的集合操作。

    第16章介绍了如何通过MapReduce统计两个条目同时出现的次数(交叉相关)。

    第17章介绍了如何处理Amazon数据以及通过反向索引实现简单的搜索。

    第18章介绍了如何通过MapReduce实现图的遍历。

    第19章介绍了如何通过Kmeans算法建立数据集的集群。集群会将数据划分为各个小组,这样每个分组中的条目都是类似的,根据不同的距离度量方法,不同分组中的条目是不同的。

    文件类型

    默认情况下,HDFS接收器会以Hadoop SequenceFiles的形式将数据写到HDFS中。这是个常见的Hadoop包装器,包含了一个键与一个值域,其中值域通过二进制字段与记录分隔符进行分隔。通常情况下,计算机上的文本文件会假定换行符确定了每一条记录。那么如果数据包含了换行符(如XML),那该怎么办呢?使用序列化文件可以解决这个问题,因为它使用了不可打印的字符作为分隔符。SequenceFiles也是可以分割的,这样在数据上(特别是大文件上)运行MapReduce job时就可以实现更好的定位与并行处理。

    Flume日志收集与MapReduce模式截图

您现在查看是摘要介绍页, 详见PDF附件(28581KB,182页)