Flume 集成 Kafka

背景

先说一下，为什么要使用 Flume + Kafka？

以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计，具有高吞吐的特性，能很好地抗住峰值数据的冲击。

集成流程

Flume 发送数据到 Kafka 上主要是通过 KafkaSink 来实现的，主要步骤如下：

1. 启动 Zookeeper 和 Kafka

这里启动一个单节点的 Kafka 作为测试：

# 启动Zookeeper
zkServer.sh start
# 启动kafka
bin/kafka-server-start.sh config/server.properties

2. 创建主题

创建一个主题 flume-kafka，之后 Flume 收集到的数据都会发到这个主题上：

# 创建主题
bin/kafka-topics.sh --create \\
--zookeeper hadoop001:2181 \\
--replication-factor 1 \\
--partitions 1 --topic flume-kafka
# 查看创建的主题
bin/kafka-topics.sh --zookeeper hadoop001:2181 --list

3. 启动kafka消费者

启动一个消费者，监听我们刚才创建的 flume-kafka 主题：

bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic flume-kafka