Flume安装及简单部署
Flume是Cloudera提供的一个分布式日志采集、聚合和传输系统,支持在日志系统中定制数据发送方,处理数据后将结果写入接收方。它由事件(Event)贯穿始终,事件是Flume的基本数据单位,携带日志数据并携带有头信息。Flume的核心组件包括Agent、Channel和Sink,其中Agent是独立运行的JVM进程,包含Source、Channel、Sink;Channel是事件的临时存储,Sink负责持久化日志或将事件推送给另一个Source。Flume支持多种Source类型,如Avro、Thrift、Spooling等,具有较好的性能和广泛的应用场景。安装Flume需要配置JDK、下载安装包、解压、配置环境变量等步骤。Flume可以用于实时数据采集和监控,例如通过Avro监听端口或Spool监控目录下的文件并写入HDFS。Flume的版本升级从Flume-OG到Flume-NG解决了性能和架构问题,改名为Apache Flume后更易集成到Hadoop生态系统中。
1 Flume简介
Flume是一个由Cloudera提供的高可用性和高可靠性的分布式海量日志采集、聚合和传输系统。该系统支持在日志系统中定制各种数据发送方用于收集数据,并提供了一种对数据进行简单处理后记录到各种数据接收方的能力。
Flume作为Cloudera推出的实时日志收集系统,在企业环境中得到了广泛应用。2010年11月,Cloudera发布了首个可用版本Flume-OG,该版本被统一称为Flume-OG。随着Flume功能的扩展,其模块化架构不够完善,导致核心组件设计存在缺陷,配置管理混乱等问题,特别是在Flume-OG的最后一个版本0.94.0中,日志传输的稳定性问题尤为突出。为了解决这些问题,2011年10月,Cloudera对Flume的核心组件、核心配置和代码架构进行了重构,重构后的版本统称为Flume-NG。此次重构的另一主要原因是将Flume纳入Apache项目,因此Flume-NG正式更名为Apache Flume。
2 Flume工作原理
Flume的数据流始终由事件贯穿。事件是Flume处理的核心数据单位,每个事件都包含一组日志数据(以字节数组形式呈现)以及附加的元数据。这些事件由Agent外部的Source生成,当Source捕获事件后,会进行特定的格式化处理,随后将事件推送到一个或多个Channel中。Channel可以视为一个临时存储区域,用于暂时存放事件直到Sink处理完毕。以下是Flume的核心概念:
Events:每个数据实体,可选地带有消息头字段,支持日志记录、Avro对象等多种类型。
(2)Agent:JVM中一个独立的Flume进程,包含组件Source、Channel、Sink。
(3)Client:运行于一个独立线程,用于生产数据并将其发送给Agent。
Source是用于接收和传递到该组件的Event的接口,从Client接收数据并传输给Channel。
Channel:一个临时存储中转Event的结构,用于接收并存储来自Source组件的Event,其本质是连接Source和Sink,类似于消息队列。
(6)Sink:从Channel收集数据,运行在一个独立线程。
Flume以其为最小的独立运行单位的Agent为核心概念,每个Agent都等同于一个JVM实例。每个Agent都由Source、Sink和Channel三大组件构成,如图所示:

值得注意的是,Flume提供了丰富的内置Source、Channel和Sink类型。不同类型的Source、Channel和Sink可以灵活组合,其组合方式基于用户设置的配置文件,具有高度的灵活性。例如,Channel可以将事件暂时存放在内存中,或者持久化存储在本地硬盘上;Sink则可以将日志写入HDFS、HBase、ES,甚至另一个Source。Flume支持用户建立多层次流,也就是说多个Agent可以协同运作,如图所示:

3 Flume的安装
3.1 安装JDK
具体方法略。
3.2 下载安装包并解压
$ wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.1.tar.gz
$ tar -xvf flume-ng-1.6.0-cdh5.7.1.tar.gz
$ rm flume-ng-1.6.0-cdh5.7.1.tar.gz
$ mv apache-flume-1.6.0-cdh5.7.1-binflume-1.6.0-cdh5.7.1
3.3 配置环境变量
$ cd /home/hadoop
$ vim .bash_profile
export FLUME_HOME=/home/hadoop/app/cdh/flume-1.6.0-cdh5.7.1
export PATH=PATH:FLUME_HOME/bin
$ source .bash_profile
3.4 配置flume-env.sh文件
$ cd app/cdh/flume-1.6.0-cdh5.7.1/conf/
$ cp flume-env.sh.template flume-env.sh
$ vim flume-env.sh
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
export HADOOP_HOME=/home/hadoop/app/cdh/hadoop-2.6.0-cdh5.7.1
3.5 版本验证
$ flume-ng version
4 Flume部署示例
4.1 Avro
Flume可以通过Avro监听某个端口并捕获传输的数据,具体示例如下:
// 创建一个Flume配置文件
$ cd app/cdh/flume-1.6.0-cdh5.7.1
$ mkdir example
$ cp conf/flume-conf.properties.template example/netcat.conf
// 配置netcat.conf用于实时获取另一终端输入的数据
$ vim example/netcat.conf
Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
Describe the sink
a1.sinks.k1.type = logger
Use a channel that buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
// 运行FlumeAgent,监听本机的44444端口
执行Flume代理命令,配置文件为example/netcat.conf,指定代理名为a1,并设置日志级别为INFO,输出到控制台。

// 打开另一终端,通过telnet登录localhost的44444,输入测试数据
$ telnet localhost 44444

// 查看flume收集数据情况

4.2 Spool
Spool主要用于实时监控配置文件夹中新增的文件,并提取文件中的数据。需要注意的是,不能将文件复制到Spool文件夹中,同时Spool文件夹下不应包含子文件夹。具体操作示例如下:
// 创建两个Flume配置文件
$ cd app/cdh/flume-1.6.0-cdh5.7.1
$ cp conf/flume-conf.properties.template example/spool1.conf
$ cp conf/flume-conf.properties.template example/spool2.conf
配置spool1.conf文件以监控avro_data目录下的文件,并将文件内容发送至本地60000端口。
$ vim example/spool1.conf
Namethe components
local1.sources= r1
local1.sinks= k1
local1.channels= c1
Source
local1.sources.r1.type= spooldir
local1.sources.r1.spoolDir= /home/hadoop/avro_data
Sink
local1.sinks.k1.type= avro
local1.sinks.k1.hostname= localhost
local1.sinks.k1.port= 60000
#Channel
local1.channels.c1.type= memory
Bindthe source and sink to the channel
local1.sources.r1.channels= c1
local1.sinks.k1.channel= c1
// 配置spool2.conf用于从本地60000端口获取数据并写入HDFS
Namethe components
a1.sources= r1
a1.sinks= k1
a1.channels= c1
Source
a1.sources.r1.type= avro
a1.sources.r1.channels= c1
a1.sources.r1.bind= localhost
a1.sources.r1.port= 60000
Sink
a1.sinks.k1.type= hdfs
a1.sinks.k1.hdfs.path= hdfs://localhost:9000/user/wcbdd/flumeData
a1.sinks.k1.rollInterval= 0
a1.sinks.k1.hdfs.writeFormat= Text
a1.sinks.k1.hdfs.fileType= DataStream
Channel
a1.channels.c1.type= memory
a1.channels.c1.capacity= 10000
Bind the source and sink to the channel
a1.sources.r1.channels= c1
a1.sinks.k1.channel= c1
// 分别打开两个终端,运行如下命令启动两个Flume Agent
$ flume-ng agent -c conf -f example/spool2.conf -n a1
$ flume-ng agent -c conf -f example/spool1.conf -n local1
// 查看本地文件系统中需要监控的avro_data目录内容
$ cd avro_data
$ cat avro_data.txt

// 查看写HDFS的Agent,检查是否捕获了数据别写入HDFS

// 通过WEB UI查看HDFS中的文件

4.3 其它
Flume内置了多种类型的Source,其中包括Avro Source、Thrift Source、Spooling Directory Source、Kafka Source。在性能方面表现优异,且应用范围广泛。以下是关于Source的参考资料:









