flume采集案例

阅读量：

1、采集目录到HDFS

数据采集需求：在Hadoop集群中的某个预设采集目录下会定期生成大量新文件，在实时监控机制下检测到新文件生成时立即启动异步数据传输协议将数据传递至HDFS存储系统。

根据需求，首先定义以下3大要素

采集源即source用于获取数据流：监控目录的路径为 $spooldir$
下沉的目标即sink配置在HDFS系统的地址空间：其地址空间配置为hdfs sink配置项
source与sink之间的传输通道称为channel；其中可用的方式包括file channel 和内存channel

配置文件编写：

#定义三大组件的名称

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

配置source组件

agent1.sources.source1.type = spooldir

agent1.sources.source1.spoolDir = /home/hadoop/logs/

agent1.sources.source1.fileHeader = false

#配置拦截器

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = host

agent1.sources.source1.interceptors.i1.hostHeader = hostname

配置sink组件

agent1.sinks.sink1.type = hdfs

agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 102400

agent1.sinks.sink1.hdfs.rollCount = 1000000

agent1.sinks.sink1.hdfs.rollInterval = 60

#agent1.sinks.sink1.hdfs.round = true

#agent1.sinks.sink1.hdfs.roundValue = 10

#agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

Use a channel which buffers events in memory

agent1.channels.channel1.type = memory

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 500000

agent1.channels.channel1.transactionCapacity = 600

Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

Channel参数解释：

capacity：默认该通道中最大的可以存储的event数量

transactionCapacity：每次最大的事件数目是从source接收并发送到sink的数量

keep-alive：event添加到通道中或者移出的允许时间

2、采集文件到HDFS

数据采集需求：业务系统利用log4j生成日志文件时产生的日志数据持续增长，并需实现实时同步至hdfs存储服务。

根据需求，首先定义以下3大要素

数据源（即source）用于实时监控文件内容的变化：通过执行命令'tail -F file'来实现监控。
接收端口（即sink）配置于Hadoop分布式文件系统中的接收端口：hdfs sink。
传输通道方面：既可以使用文件传输通道（如基于磁盘的传输），也可以采用内存传输通道（如基于缓存的快速传输）。

配置文件编写：

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

Describe/configure tail -F source1

agent1.sources.source1.type = exec

agent1.sources.source1.command = tail -F /home/hadoop/logs/access_log

agent1.sources.source1.channels = channel1

#configure host for source

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = host

agent1.sources.source1.interceptors.i1.hostHeader = hostname

Describe sink1

agent1.sinks.sink1.type = hdfs

#a1.sinks.k1.channel = c1

agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 102400

agent1.sinks.sink1.hdfs.rollCount = 1000000

agent1.sinks.sink1.hdfs.rollInterval = 60

agent1.sinks.sink1.hdfs.round = true

agent1.sinks.sink1.hdfs.roundValue = 10

agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

Use a channel which buffers events in memory

agent1.channels.channel1.type = memory

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 500000

agent1.channels.channel1.transactionCapacity = 600

Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

更多source和sink组件：

Flume支持众多的source和sink类型，详细手册可参考官方文档

此页面内容提供详细的指导文档

全部评论 (0)

还没有任何评论哟~

flume采集案例

1、采集目录到HDFS 采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 1.采集源，即source——监控文件目...

Flume>采集案例(2)

文章目录 1、采集目录到HDFS 启动flume 具体代码 2、采集文件到HDFS 定义flume的配置文件启动flume 具体代码开发shell脚本定时追加文件内容 3、两个agent级联第一...

Flume系列：Flume常用采集通道案例

目录 ApacheHadoop生态目录汇总持续更新 1:文件flumekafka 2:kafkaflumehdfs方案一 3:kafkaflumehdfs方案二 ApacheHadoop生态目录汇总持...

Flume安装部署及采集案例

一、Telnet客户端安装为什么需要telnet？ telnet就是查看某个端口是否可访问。我们在搞开发的时候，经常要用的端口就是8080。那么你可以启动服务器，用telnet去查看这个端口是否可用...

Flume实战案例采集目录到HDFS

1.2.1Flume接受telent数据案例：使用网络telent命令向一台机器发送一些网络数据，然后通过flume采集网络端口数据第一步：开发配置文件根据数据采集的需求配置采集方案，描述在配置...

Flume 实战案例采集文件到HDFS

需求分析：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素采集源，即source——监控文件内容更新...

Flume采集目录及文件到HDFS案例

采集目录到HDFS 使用flume采集目录需要启动hdfs集群 thisagent a1.sourcesr1 a1.sinksk1 a1.channelsc1 Describeconfigurethe...

Flume-Kafka-Flume采集

一、第一层Flume（f1）（1）Flume组件：Agent（Source+Channel+Sink）（2）一个事务为event（Header+Body），body为存储数据，header是Flu...

flume 采集方案的编写

1avro+memory+logger用avroclient进行测试启动方案 flumengagentc./conff./flumeconf/avromemlogger.propertiesna1D...

Flume数据采集案例（三）多数据源汇总

准备工作：同上上一篇Flume数据采集案例之单数据源多出口选择器本次需求：使用在机器weekend01上部署的Flumea1准实时监控日志文件/home/hadoop/datas/test.lo...

是否确定退出登录?

flume采集案例

配置source组件

配置sink组件

Use a channel which buffers events in memory

Bind the source and sink to the channel

Describe/configure tail -F source1

Describe sink1

Use a channel which buffers events in memory

Bind the source and sink to the channel

全部评论 (0)

相关文章推荐

flume采集案例

Flume>采集案例(2)

Flume系列：Flume常用采集通道案例

Flume安装部署及采集案例

Flume实战案例 采集目录到HDFS

Flume 实战案例 采集文件到HDFS

Flume采集目录及文件到HDFS案例

Flume-Kafka-Flume采集

flume 采集方案的编写

Flume数据采集案例（三）多数据源汇总

Flume实战案例采集目录到HDFS

Flume 实战案例采集文件到HDFS