爬虫架构|利用Kafka处理数据推送问题（2）

gmdzxx · 发表于 2019-1-31 11:35:40

　　在前一篇文章爬虫架构|利用Kafka处理数据推送问题（1）中对Kafka做了一个介绍，以及环境搭建，最后是选择使用阿里云的Kafka，这一篇文章继续说使用阿里云的Kafka的一些知识。
　　一、发布者最佳实践
　　发布的完整代码（根据自己的业务做相应处理）：
　　package com.yimian.controller.kafka;
　　import java.util.Date;
　　import java.util.Properties;
　　import java.util.concurrent.Future;
　　import org.apache.kafka.clients.CommonClientConfigs;
　　import org.apache.kafka.clients.producer.KafkaProducer;
　　import org.apache.kafka.clients.producer.Producer;
　　import org.apache.kafka.clients.producer.ProducerConfig;
　　import org.apache.kafka.clients.producer.ProducerRecord;
　　import org.apache.kafka.clients.producer.RecordMetadata;
　　import org.apache.kafka.common.config.SaslConfigs;
　　import org.apache.kafka.common.config.SslConfigs;
　　import org.springframework.stereotype.Controller;
　　import org.springframework.web.bind.annotation.RequestMapping;
　　import org.springframework.web.bind.annotation.ResponseBody;
　　import com.alibaba.fastjson.JSON;
　　import com.yimian.model.SpiderData;
　　/**

生产者
@author huangtao
　　*/@Controllerbr/>@ResponseBody
public void init() {
　　// 构造一个Kafka消息
　　String topic = kafkaProperties.getProperty("topic"); // 消息所属的Topic，请在控制台申请之后，填写在这里
　　SpiderData data = new SpiderData();
　　data.setDescUrl("www.baidu.com");
　　data.setTitle("百度");
　　

sendMsgToKafka(topic, data);　　

　　}
　　}

　　Kafka的发送非常简单，代码片段如下：
　　Future metadataFuture = producer.send(new ProducerRecord(
　　topic, \ topic
　　null, \ 分区编号，这里最好为 null，交给 producer 去分配
　　System.currentTimeMillis(), \时间戳
　　String.valueOf(message.hashCode()), \ key，可以在控制台通过这个 Key 查找消息，这个 key 最好唯一；
　　message)); \ value，消息内容
　　message可以是一个JSON类型的对象，如上面例子中的JSON.toJSONString(new SpiderData())
　　1.1、Key 和 Value
　　Kafka 0.10.0.0 的消息字段只有两个：Key 和 Value。为了便于追踪，重要消息最好都设置一个唯一的 Key。通过 Key 追踪某消息，打印发送日志和消费日志，了解该消息的发送和消费情况；更重要的是，您可以在控制台可以根据 Key 查询消息的内容。
　　1.2、失败重试
　　在分布式环境下，由于网络等原因，偶尔的发送失败是常见的。这种失败有可能是消息已经发送成功，但是 Ack 失败，也有可能是确实没发送成功。
　　消息队列 Kafka 是 VIP 网络架构，会主动掐掉空闲连接（一般 30 秒没活动），也就是说，不是一直活跃的客户端会经常收到”connection rest by peer”这样的错误，因此建议都考虑重试。
　　1.3、异步发送
　　需要注意的是这个接口是异步发送的；如果你想得到发送的结果，可以调用metadataFuture.get(timeout, TimeUnit.MILLISECONDS)。
　　1.4、线程安全
　　Producer 是线程安全的，且可以往任何 Topic 发送消息。一般一个应用，对应一个 Producer 就足够了。
　　1.5、Ack
　　消息队列 Kafka 没有考虑这个参数，都认为是“all”，即所有消息同步到 Slave 节点后才会返回成功的确认消息给客户端。
　　1.6、Batch
　　Batch 的基本思路是：把消息缓存在内存中，并进行打包发送。Kafka 通过 Batch 来提高吞吐，但同时也会增加延迟，生产时应该对两者予以权衡。
　　在构建 Producer 时，需要考虑以下两个参数：
　　batch.size : 发往每个 Partition 的消息个数缓存量达到这个数值时，就会触发一次网络请求，把消息真正发往服务器；
　　linger.ms : 每个消息待在缓存中的最大时间，超过这个时间，就会忽略 batch.size 的限制，立即把消息发往服务器。
　　由此可见，Kafka 什么时候把消息真正发往服务器，是通过上面两个参数共同决定的；
　　batch.size 有助于提高吞吐，linger.ms 有助于控制延迟。您可以根据具体业务进行调整。
　　1.7、OOM
　　结合 Kafka Batch 的设计思路，Kafka 会缓存消息并打包发送，如果缓存太多，则有可能造成 OOM。
　　buffer.memory : 所有缓存消息的总体大小超过这个数值后，就会触发把消息发往服务器。此时会忽略 batch.size 和 linger.ms 的限制。
　　buffer.memory 的默认数值是 32M，对于单个 Producer 来说，可以保证足够的性能。需要注意的是，如果你在同一个 JVM 中启动多个 Producer，那么每个 Producer 都有可能占用32M 缓存空间，此时便有可能触发 OOM。
　　在生产时，一般没有必要启动多个 Producer；如果特殊情况需要，则需要考虑buffer.memory的大小，避免触发 OOM。
　　1.8、分区顺序
　　单个分区内，消息是按照发送顺序储存的，是基本有序的。
　　但消息队列 Kafka 并不保证单个分区内绝对有序，所以在某些情况下，会发生少量消息乱序。比如：消息队列 Kafka 为了提高可用性，某个分区挂掉后把消息 Failover 到其它分区。
　　二、订阅者最佳实践
　　消费的完整代码（根据自己的业务做相应处理）：
　　package com.yimian.controller.kafka;
　　import java.util.ArrayList;
　　import java.util.List;
　　import java.util.Properties;
　　import org.apache.kafka.clients.CommonClientConfigs;
　　import org.apache.kafka.clients.consumer.Consumer;
　　import org.apache.kafka.clients.consumer.ConsumerConfig;
　　import org.apache.kafka.clients.consumer.ConsumerRecord;
　　import org.apache.kafka.clients.consumer.ConsumerRecords;
　　import org.apache.kafka.clients.consumer.KafkaConsumer;
　　import org.apache.kafka.clients.producer.ProducerConfig;
　　import org.apache.kafka.common.config.SaslConfigs;
　　import org.apache.kafka.common.config.SslConfigs;
　　import org.springframework.stereotype.Controller;
　　import org.springframework.web.bind.annotation.RequestMapping;
　　import org.springframework.web.bind.annotation.ResponseBody;
　　import com.alibaba.fastjson.JSON;
　　import com.alibaba.fastjson.JSONObject;
　　import com.yimian.model.SpiderData;
　　/**

消费者
@author huangtao
　　*/@Controllerbr/>@ResponseBody
public void init() {
　　// 循环消费消息
　　while (true) {
　　try {
　　ConsumerRecords records = consumer.poll(1000);
　　// 必须在下次poll之前消费完这些数据, 且总耗时不得超过SESSION_TIMEOUT_MS_CONFIG
　　// 建议开一个单独的线程池来消费消息，然后异步返回结果
　　for (ConsumerRecord record : records) {
　　JSONObject jsonMsg = JSON.parseObject(record.value());
　　SpiderData spiderData = JSONObject.toJavaObject(jsonMsg, SpiderData.class);
　　

System.out.println(spiderData.toString());　　}
　　} catch (Exception e) {
　　try {
　　Thread.sleep(1000);
　　} catch (Throwable ignore) {
　　

　　}
　　// 参考常见报错:
　　// https://help.aliyun.com/document_detail/68168.html?spm=a2c4g.11186623.6.567.2OMgCB
　　e.printStackTrace();
　　}
　　
}
　　

　　}
　　}

　　消费时把JSON数据反序列化：
　　for (ConsumerRecord record : records) {
　　JSONObject jsonMsg = JSON.parseObject(record.value());
　　SpiderData spiderData = JSONObject.toJavaObject(jsonMsg, SpiderData.class);
　　}
　　2.1、消费消息基本流程
　　Kafka 订阅者在订阅消息时的基本流程是：
　　Poll 数据
　　执行消费逻辑
　　再次 poll 数据
　　2.2、负载消费
　　每个 Consumer Group 可以包含多个消费实例，也即可以启动多个 Kafka Consumer，并把参数 group.id 设置成相同的值。属于同一个 Consumer Group 的消费实例会负载消费订阅的 topic。
　　示例1：Consumer Group A 订阅了 Topic A，并开启三个消费实例 C1、C2、C3，则发送到 Topic A 的每条消息最终只会传给 C1、C2、C3 的某一个。Kafka 默认会均匀地把消息传给各个消息实例，以做到消费负载均衡。
　　Kafka 负载消费的内部原理是，把订阅的 Topic 的分区，平均分配给各个消费实例。因此，消费实例的个数不要大于分区的数量，否则会有实例分配不到任何分区而处于空跑状态。这个负载均衡发生的时间，除了第一次启动上线之外，后续消费实例发生重启、增加、减少等变更时，都会触发一次负载均衡。
　　消息队列 Kafka 分区的数量至少是 16 个，已经足够满足大部分用户的需求，且云上服务会根据容量调整分区数。
　　2.3、多个订阅
　　一个 Consumer Group 可以订阅多个 Topic。一个 Topic 也可以被多个 Consumer Group 订阅，且各个 Consumer Group 独立消费 Topic 下的所有消息。
　　示例1：Consumer Group A 订阅了 Topic A，Consumer Group B 也订阅了 Topic A，则发送到 Topic A 的每条消息，不仅会传一份给 Consumer Group A 的消费实例，也会传一份给 Consumer Group B 的消费实例，且这两个过程相互独立，相互没有任何影响。
　　2.4、消费位点
　　每个 Topic 会有多个分区，每个分区会统计当前消息的总条数，这个称为最大位点 MaxOffset。Kafka Consumer 会按顺序依次消费分区内的每条消息，记录已经消费了的消息条数，称为ConsumerOffset。
　　剩余的未消费的条数（也称为消息堆积量） = MaxOffset - ConsumerOffset
　　2.5、位点提交
　　Kafka 消费者有两个相关参数：
　　enable.auto.commit：默认值为 true。
　　auto.commit.interval.ms：默认值为 1000，也即 1s。
　　这两个参数组合的结果就是，每次 poll 时，再拉取数据前会预先做下面这件事：
　　检查上次提交位点的时间，如果距离当前时间已经超过 auto.commit.interval.ms，则启动位点提交动作；
　　因此，如果 enable.auto.commit 设置为 true，需要在每次 poll 时，确保前一次 poll 出来的数据已经消费完毕，否则可能导致位点跳跃；
　　如果想自己控制位点提交，则把 enable.auto.commit 设为 false，并调用 commit(offsets)函数自行控制位点提交。
　　2.6、消息重复以及消费幂等
　　Kafka 消费的语义是 “At Lease Once”，也就是至少投递一次，保证消息不丢，但是不会保证消息不重复。在出现网络问题、客户端重启时均有可能出现少量重复消息，此时应用消费端，如果对消息重复比较敏感(比如说订单交易类)，则应该做到消息幂等。
　　以数据库类应用为例，常用做法是：
　　发送消息时，传入 key 作为唯一流水号ID；
　　消费消息时，判断 key 是否已经消费过，如果已经消费过了，则忽略，如果没消费过，则消费一次；
　　当然，如果应用本身对少量消息重复不敏感，则不需要做此类幂等检查。
　　2.7、消费失败
　　Kafka 是按分区一条一条消息顺序向前消费推进的，如果消费端拿到某条消息后消费逻辑失败，比如应用服务器出现了脏数据，导致某条消息处理失败，等待人工干预，该怎么办呢？
　　如果失败后一直尝试再次执行消费逻辑，则有可能造成消费线程阻塞在当前消息，无法向前推进，造成消息堆积；
　　由于 Kafka 自身没有处理失败消息的设计，实践中通常会打印失败的消息、或者存储到某个服务（比如创建一个 Topic 专门用来放失败的消息），然后定时 check 失败消息的情况，分析失败原因，根据情况处理。
　　2.8、消费阻塞以及堆积
　　消费端最常见的问题就是消费堆积，最常造成堆积的原因是：
　　消费速度跟不上生产速度，此时应该提高消费速度，详情见本文下一节；
　　消费端产生了阻塞；
　　消费端拿到消息后，执行消费逻辑，通常会执行一些远程调用，如果这个时候同步等待结果，则有可能造成一直等待，消费进程无法向前推进。
　　消费端应该竭力避免堵塞消费线程，如果存在等待调用结果的情况，设置等待的超时时间，超过时间后，作消费失败处理。
　　2.9、提高消费速度
　　提高消费速度有两个办法：
　　增加 Consumer 实例个数；
　　增加消费线程；
　　增加 Consumer 实例，可以在进程内直接增加（需要保证每个实例一个线程，否则没有太大意义），也可以部署多个消费实例进程；需要注意的是，实例个数超过分区数量后就不再能提高速度，将会有消费实例不工作；
　　增加 Consumer 实例本质上也是增加线程的方式来提升速度，因此更加重要的性能提升方式是增加消费线程，最基本的方式如下：
　　定义一个线程池；
　　poll 数据；
　　把数据提交到线程池进行并发处理；
　　等并发结果返回成功再次poll数据执行。
　　2.10消息过滤
　　Kafka 自身没有消息过滤的语义。实践中可以采取以下两个办法：
　　如果过滤的种类不多，可以采取多个 Topic 的方式达到过滤的目的；
　　如果过滤的种类多，则最好在客户端业务层面自行过滤。
　　实践中根据业务具体情况进行选择，可以综合运用上面两种办法。
　　2.11、消息广播
　　Kafka 自身没有消息广播的语义，可以通过创建不同的 Consumer Group来模拟实现。
　　2.12、订阅关系
　　同一个 Consumer Group 内，各个消费实例订阅的 Topic 最好保持一致，避免给排查问题带来干扰。
　　作者：小怪聊职场
　　链接：https://www.jianshu.com/p/ec038c988e27
　　來源：简书
　　简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

RH199 RHCSA Rapid Track

Red Hat RHCE 8 (EX294) Cert Guide

[经验分享] 爬虫架构|利用Kafka处理数据推送问题（2）

浏览过的版块

扫码加入运维网微信交流群