Flume1.9基础学习
一、Flume 入门概述
1、概述
Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据(或者网络端口数据),将数据写入到HDFS
2、Flume 基础架构
2.1 Agent
Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink
2.2 Source
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、 sequence generator、syslog、http、legacy
2.3 Sink
Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义
2.4 Channel
Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个 Sink 的读取操作。Flume 自带两种 Channel:Memory Channel 和 File Channel。
Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么 Memory Channel 就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据
2.5 Event
传输单元,Flume 数据传输的基本单元,以 Event 的形式将数据从源头送至目的地。 Event 由 Header 和 Body 两部分组成,Header 用来存放该 event 的一些属性,为K-V 结构, Body 用来存放该条数据,形式为字节数组
3、Flume 安装部署
3.1 安装地址
- Flume 官网地址:http://flume.apache.org/
- 文档查看地址:https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html
- 下载地址:http://archive.apache.org/dist/flume/
3.2 安装部署
1 | # 首先已经搭建好hadoop和jdk了,可以参考之前的hadoop笔记 |
二、Flume 入门案例
1、监控端口数据官方案例
1.1 概述
使用 Flume 监听一个端口,收集该端口数据,并打印到控制台。
首先通过netcat工具向本机的44444端口发送数据,Flume监控本机的44444端口,通过Flume的source端读取数据,最后Flume将获取的数据通过Sink端写出到控制台(测试命令使用nc localhost 44444)
1.2 实现步骤
1 | # 安装 netcat 工具 |
2、实时监控单个追加文件
2.1 概述
案例需求:实时监控 Hive 日志,并上传到 HDFS 中
2.2 实现步骤
1 | # Flume 要想将数据输出到 HDFS,依赖 Hadoop 相关 jar 包 |
3、实时监控目录下多个新文件
3.1 概述
案例需求:使用 Flume 监听整个目录的文件,并上传至 HDFS
3.2 实现步骤
1 | vim flume-dir-hdfs.conf |
4、实时监控目录下的多个追加文件
4.1 概述
Exec source 适用于监控一个实时追加的文件,不能实现断点续传;Spooldir Source
适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步;而 Taildir Source适合用于监听多个实时追加的文件,并且能够实现断点续传
案例需求:使用 Flume 监听整个目录的实时追加文件,并上传至 HDFS
4.2 实现步骤
1 | vim flume-taildir-hdfs.conf |
4.3 Taildir 问题说明
Taildir Source 维护了一个 json 格式的 position File,其会定期的往 position File中更新每个文件读取到的最新的位置,因此能够实现断点续传。Linux 中储存文件元数据的区域就叫做 inode,每个 inode 都有一个号码,操作系统用 inode 号码来识别不同的文件。
但是例如log4j的日志是每过凌晨自动更名为新的文件,这会导致数据的重复上传,若后端不配合,可以修改源码,flume-ng-sources→flume-taildir-source源码包,ReliableTailEventReader读数据,TailFile的更新数据,将更新和读取仅按照inode来。修改完成后打包去lib文件夹,替换掉原来的的jar包
5、Kafka相关
kafka相关文档:https://flume.apache.org/releases/content/1.11.0/FlumeUserGuide.html#kafka-channel
flume一般都和kafka配合使用,用于离线和实时数仓的数据获取,kafka source相当于kafka的消费者,channel数据会存储到kafka topic中,而kafka sink相当于生产者
进入flume软件目录,编写配置文件vim job/file_to_kafka.conf
1 | #定义组件 |
测试
1 | # 启动flume |
同理还有kafka到hdfs的flume配置文件
1 | #定义组件 |
6、Kafka群起脚本
1 |
|
三、Flume 进阶
1、Flume 事务
下面时commit和rollback的核心源码,回滚的时候,putList会直接清空,而takeList会将数据重新塞回到channel中(sink的hdfs写成功但通讯失败可能重复消费,source的nc可能会消息丢失);doCommit会提前判断channel够不够takeList回滚以防回滚失败
1 |
|
2、Flume Agent 内部原理
-
ChannelSelector
ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 **Replicating(复制)**和 Multiplexing(多路复用)
ReplicatingSelector 会将同一个 Event 发往所有的 Channel,Multiplexing 会根据相应的原则,将不同的 Event 发往不同的 Channel
-
SinkProcessor
SinkProcessor 共 有 三 种 类 型 , 分 别 是 DefaultSinkProcessor 、LoadBalancingSinkProcessor 和 FailoverSinkProcessor
DefaultSinkProcessor 对应的是单个的 Sink , LoadBalancingSinkProcessor 和 FailoverSinkProcessor 对应的是 Sink Group,LoadBalancingSinkProcessor 可以实现负载均衡的功能,FailoverSinkProcessor 可以错误恢复的功能
3、Flume 拓扑结构
3.1 简单串联
这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。
3.2 复制和多路复用
Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地
3.3 负载均衡和故障转移
Flume支持使用将多个sink逻辑上分到一个sink组,sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能
3.4 聚合
这种模式是我们最常见的,也非常实用,日常 web 应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用 flume 的这种组合方式能很好的解决这一问题,每台服务器部署一个 flume 采集日志,传送到一个集中收集日志的flume,再由此 flume 上传到 hdfs、hive、hbase 等,进行日志分析
4、Flume 企业开发案例
4.1 复制和多路复用
使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 LocalFileSystem
1 | # https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#avro-sink |
执行配置文件并检查
1 | # 分别启动对应的 flume 进程:flume-flume-dir,flume-flume-hdfs,flume-file-flume |
4.2 负载均衡和故障转移
使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能
1 | # https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-sink-processors |
如果要换成负载均衡,只需要修改第一个文件
1 | # 如果要改成负载均衡,就变成load_balance |
4.3 聚合
hadoop102 上的 Flume-1 监控文件/opt/module/group.log,hadoop103 上的 Flume-2 监控某一个端口的数据流,Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台
1 | # 分发 Flume,进入module模块分发 |
5、自定义 Interceptor
5.1 概述
使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统
在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Interceptor,为不同类型的 event 的 Header 中的 key 赋予不同的值。
在该案例中,我们以端口数据模拟日志,以是否包含"atguigu"模拟不同类型的日志,我们需要自定义 interceptor 区分数据中是否包含"atguigu",将其分别发往不同的分析系统(Channel)
5.2 官网实现
https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#multiplexing-channel-selector
1 | # 匹配header为state的值,一般需要我们实现拦截器,实现多路复用,只有在source可以使用 |
5.3 代码实现
创建一个 maven 项目,并引入以下依赖
1 | <dependency> |
定义 com.atguigu.interceptor.TypeInterceptor.CustomInterceptor 类并实现 Interceptor 接口
1 | public class TypeInterceptor implements Interceptor { |
打包放入flume/lib目录下,启动时会自动通过反射扫描包
然后新建job/group4,编辑 flume 配置文件,为 hadoop102 上的 Flume1 配置 1 个 netcat source,1 个 sink group(2 个 avro sink),并配置相应的 ChannelSelector 和 interceptor
1 | # https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-interceptors |
为 hadoop103 上的 Flume4 配置一个 avro source 和一个 logger sink
1 | a1.sources = r1 |
为 hadoop104 上的 Flume3 配置一个 avro source 和一个 logger sink
1 | a1.sources = r1 |
启动,先启动103,104,最后启动102
1 | # hadoop103 |
6、自定义 Source
6.1 概述
官网给出的source:https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-sources
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequencegenerator、syslog、http、legacy。官方提供的 source 类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 source。官方也提供了自定义 source 的接口,根据官方说明自定义MySource 需要继承 AbstractSource 类并实现 Configurable 和 PollableSource 接口。实现相应方法:
getBackOffSleepIncrement()
:backoff 步长getMaxBackOffSleepInterval()
:backoff 最长时间configure(Context context)
:初始化 context(读取配置文件内容)process()
:获取数据封装成 event 并写入 channel,这个方法将被循环调用
使用场景:读取 MySQL 数据或者其他文件系统
6.2 需求与分析
使用 flume 接收数据,并给每条数据添加前缀,输出到控制台。前缀可从 flume 配置文件中配置
6.3 编码实现
导入依赖
1 | <dependency> |
创建com.atguigu.source.MySource
1 | public class MySource extends AbstractSource implements |
将写好的代码打包,并放到 flume 的 lib 目录(/opt/module/flume
)下,然后创建配置文件,启动可以查看效果
1 | # Name the components on this agent |
7、自定义 Sink
7.1 概述
Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。Sink 是完全事务性的。在从Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent,Sink 就利用 Channel 提交事务。事务一旦被提交,该 Channel 从自己的内部缓冲区删除事件。
Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。官方提供的 Sink 类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 Sink。官方也提供了自定义 sink 的接口:MySink 需要继承 AbstractSink 类并实现 Configurable 接口。实现相应方法:
configure(Context context)
:初始化 context(读取配置文件内容)process()
:从 Channel 读取获取数据(event),这个方法将被循环调用。使用场景:读取 Channel 数据写入 MySQL 或者其他文件系统。
7.2 需求
使用 flume 接收数据,并在 Sink 端给每条数据添加前缀和后缀,输出到控制台。前后缀可在 flume 任务配置文件中配置
7.3 编码实现
1 | public class MySink extends AbstractSink implements Configurable { |
将写好的代码打包,并放到 flume 的 lib 目录(/opt/module/flume)下,然后编写配置文件
1 | # Name the components on this agent |
开启任务
1 | bin/flume-ng agent -c conf/ -f job/mysink.conf -n a1 -Dflume.root.logger=INFO,console |
8、Flume 数据流监控
8.1 Ganglia 的安装与部署
Ganglia 由 gmond、gmetad 和 gweb 三部分组成。
- gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。
- gmetad(Ganglia Meta Daemon)整合所有信息,并将其以 RRD 格式存储至磁盘的服务。
- gweb(Ganglia Web)Ganglia 可视化工具,gweb 是一种利用浏览器显示 gmetad 所存储数据的 PHP 前端。在 Web 界面中以图表方式展现集群的运行状态下收集的多种不同指标数据
1 | # 在 102 103 104 分别安装 epel-release |
8.2 操作 Flume 测试监控
1 | bin/flume-ng agent \ |
四、企业真实面试题(重点)
1、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?
- Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy
- Channel 组件对采集到的数据进行缓存,可以存放在 Memory 或 File 中
- Sink 组件是用于把数据发送到目的地的组件,目的地包括 Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义
2、Flume 的 Channel Selectors
3、Flume 参数调优
-
Source
增加 Source 个(使用 Tair Dir Source 时可增加 FileGroups 个数)可以增大 Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个 Source 以保证 Source 有足够的能力获取到新产生的数据。batchSize 参数决定 Source 一次批量运输到 Channel 的 event 条数,适当调大这个参数可以提高 Source 搬运Event 到 Channel 时的性能。
-
Channel
type 选择 memory 时 Channel 的性能最好,但是如果 Flume 进程意外挂掉可能会丢失数据。type 选择 file 时Channel 的容错性更好,但是性能上会比 memory channel 差。使用 file Channel 时 dataDirs 配置多个不同盘下的目录可以提高性能。Capacity 参数决定 Channel 可容纳最大的 event 条数。transactionCapacity 参数决定每次 Source 往 channel 里面写的最大 event 条数和每次 Sink 从 channel 里面读的最大 event 条数。transactionCapacity 需要大于 Source 和 Sink 的 batchSize 参数
-
Sink
增加 Sink 的个数可以增加 Sink 消费 event 的能力。Sink 也不是越多越好够用就行,过多的 Sink 会占用系统资源,造成系统资源不必要的浪费。batchSize 参数决定 Sink 一次批量从 Channel 读取的 event 条数,适当调大这个参数可以提高 Sink 从 Channel 搬出 event 的性能
4、Flume 的事务机制
Flume 的事务机制(类似数据库的事务机制):Flume 使用两个独立的事务分别负责从Soucrce 到 Channel,以及从 Channel 到 Sink 的事件传递。
比如 spooling directory source 为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到 Channel 且提交成功,那么Soucrce 就将该文件标记为完成。同理,事务以类似的方式处理从 Channel 到 Sink 的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保持到 Channel 中,等待重新传递。
5、Flume 采集数据会丢失吗?
根据 Flume 的架构原理,Flume 是不可能丢失数据的,其内部有完善的事务机制, Source 到 Channel 是事务性的,Channel 到 Sink 是事务性的,因此这两个环节不会出现数据的丢失,唯一可能丢失数据的情况是 Channel 采用 memoryChannel,agent 宕机导致数据丢失,或者 Channel 存储数据已满,导致 Source 不再写入,未写入的数据丢失。
Flume 不会丢失数据,但是有可能造成数据的重复,例如数据已经成功由 Sink 发出,但是没有接收到响应,Sink 会再次发送数据,此时可能会导致数据的重复