设为首页 收藏本站
查看: 1070|回复: 0

[经验分享] java大数据之“Kafka”

[复制链接]

尚未签到

发表于 2019-1-31 09:36:23 | 显示全部楼层 |阅读模式
  近几年来随着大数据产业的蓬勃发展,Kafka的应用也有了明显的增长。世界超过三分之一的财富500强公司使用kafka。这些公司包括排名前十的旅游公司、前十大银行中的7家、十大保险公司的8家、十大电信公司中的9家,以及更多。Kafka用于实时数据流,收集大数据,或进行实时分析(或两者兼有)。Kafka与内存中的微服务一起使用,以提供持久性,它可以用于向CEP(复杂事件流系统)和和物联网信息平台。
  Kafka经常用于实时流数据架构,提供实时分析。由于Kafka是一种快速、可伸缩、持久和容错的发布-订阅消息传递系统,Kafka用于使用JMS、RabbitMQ和AMQP甚至可能不被认为是由于容量和响应性的情况。Kafka具有更高的吞吐量、可靠性和复制特性,这使得它适用于跟踪服务调用(跟踪每个调用)或跟踪IoT传感器数据,而传统的MOM可能不会被考虑。
  Kafka可以与Flume / Flafka、Spark流、Storm、HBase、Flink、Spark进行实时消化、分析和处理流数据。Kafka是一种数据流,用于为Hadoop BigData提供数据。Kafka broker支持在Hadoop或Spark中进行低延迟后续分析的大量消息流。此外,Kafka流(一个子项目)可以用于实时分析。

kafka的使用案例
  简而言之,Kafka用于流程处理、网站活动跟踪、度量收集和监视、日志聚合、实时分析、CEP、将数据注入到Spark、将数据输入到Hadoop、CQRS、回放消息、错误恢复、以及保证分布式提交日志用于内存计算(微服务)。

谁使用kafka?
  

  许多处理大量数据的大公司都使用Kafka。它的发源地LinkedIn使用它来跟踪活动数据和操作指标。Twitter将其作为风暴的一部分,以提供流处理基础设施。Square使用Kafka作为一种总线,将所有系统事件移动到不同的正方形数据中心(日志、自定义事件、度量,等等),输出到Splunk,并实现esper -like/ CEP警报系统。Spotify、Uber、Tumbler、高盛(Goldman Sachs)、贝宝(PayPal)、Box、思科、CloudFlare和Netflix等其他公司也在使用它。  

kafka为什么这么受欢迎?
  kafka有操作简单。kafka是建立和使用的,很容易理解kafka的工作方式。然而,kafka最受欢迎的主要原因是它的优秀表现。它是稳定的,提供可靠的持久性,具有灵活的发布-订阅/队列,可以很好地扩展n -数量的用户组,具有健壮的复制,为生产者提供可调的一致性保证,并且在shard级别(即Kafka主题分区)提供保留的排序。此外,Kafka与具有数据流的系统很好地工作,使这些系统能够聚合、转换和加载到其他商店。但是,如果kafka行动缓慢,这些特征都不重要。kafka的杰出表现是kafka受欢迎的最重要原因。

kafka为什么这么快?
  Kafka严重依赖操作系统内核来快速移动数据。它依赖于零拷贝的主体。Kafka使您能够将数据记录批量处理。从生产者到文件系统(Kafka主题日志)到消费者,可以看到这些数据批次。批处理允许更有效的数据压缩和减少I / O延迟。Kafka将不可变提交日志写入到磁盘顺序,从而避免了随机磁盘访问和慢磁盘查找。kafka通过分片提供横向比例尺。它将一个主题日志记录到数千个服务器的数百个(可能是数千个)分区中。这种分片让kafka能够承受巨大的负荷。

kafka:流体系结构
  Kafka最常用于实时流媒体数据到其他系统。Kafka是一个中间层,可以将实时数据管道解耦。Kafka核心不适合直接计算,如数据聚合或CEP。Kafka流是Kafka生态系统的一部分,提供了实时分析的功能。Kafka可以用于快速通道系统(实时和操作数据系统),如Storm、Flink、Spark流媒体、服务和CEP系统。Kafka还用于流数据进行批量数据分析。它将数据流到您的大数据平台或RDBMS、Cassandra、Spark甚至S3中,以便将来进行一些数据分析。这些数据存储通常支持数据分析、报告、数据科学处理、遵从性审计和备份。


kafka是什么?
  Kafka是一个分布式流媒体平台,用于发布和订阅记录流。Kafka用于容错存储。Kafka将主题日志分区复制到多个服务器。Kafka的设计是为了让你的应用程序能够处理记录。kafka速度快,通过批量和压缩记录有效地使用IO。Kafka用于解耦数据流。Kafka用于将数据流到数据湖、应用程序和实时流分析系统中。


Kafka支持多语言
  来自客户机和服务器的Kafka通信使用的是版本化和文档化的TCP协议。Kafka承诺保持与旧客户机的向后兼容,并支持多种语言。有c#、Java、C、Python、Ruby和许多其他语言的客户。Kafka生态系统还提供REST代理,允许通过HTTP和JSON进行简单的集成,这使得集成更加容易。Kafka还通过Confluent模式注册kafka来支持Avro模式。Avro和模式注册表允许使用多种编程语言编写和读取复杂的记录,并允许记录的演变。kafka是真正通晓多国语言。

Kafka的作用
  Kafka允许您构建实时流数据管道。kafka能提供内置的微服务(即演员,Akka,Baratine)。io,QBit,反应器,反应式,Vert。x RxJava Spring反应堆)。Kafka允许您构建实时的流媒体应用程序,这些应用程序可以对流做出响应,进行实时数据分析、转换、响应、聚合、连接实时数据流和执行CEP(复杂事件处理)。
  您可以使用Kafka来帮助收集指标/ kpi,从多个来源聚合统计数据,并实现事件源。您可以使用它与微服务(内存)和actor系统来实现内存服务(用于分布式系统的外部提交日志)。
  您可以使用Kafka在节点之间复制数据,为节点重新同步,并恢复状态。虽然Kafka主要用于实时数据分析和流处理,但您也可以使用它来进行日志聚合、消息传递、点击流跟踪、审计跟踪等等。
  在一个数据科学和分析是一项大交易的世界里,捕捉数据以供数据湖泊和实时分析系统也很重要。由于kafka能够承受这些类型的费力用例,kafka是一件大事。

kafka是可扩展的消息存储
  Kafka是一个很好的记录/消息存储系统。Kafka类似高速文件系统,用于提交日志存储和复制。这些特性使Kafka对应用程序的所有方式都有用。编写到Kafka主题的记录被持久化到磁盘上,并复制到其他服务器上以进行容错。由于现代的驱动器是快速和相当大的,这很适合并且是非常有用的。Kafka生产者可以等待确认,因此消息是持久的,因为生产者在消息复制之前不完成。kafka圆盘结构很好。现代磁盘驱动器在大型流批处理中具有很高的吞吐量。此外,Kafka客户端和消费者可以控制读取位置(offset),这允许在有关键bug(即修复bug和重放)时重新播放日志。而且由于每个消费者组都跟踪偏移量,我们在kafka体系结构的文章中讨论过,消费者可以相当灵活(即重放日志)。

Kafka保留记录
  kafka集群保留了所有已发布的记录。如果您不设置限制,它将保存记录,直到它耗尽磁盘空间。您可以设置基于时间的限制(可配置的保留期)、基于大小的限制(基于大小的可配置),或者压缩(使用键保存最新版本的记录)。例如,你可以制定一个为期3天、2周或一个月的保留政策。主题日志中的记录可用于消费,直到被时间、大小或压缩所抛弃。由于kafka总是写到主题日志的末尾,所以它的消耗速度没有受到影响。




运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669894-1-1.html 上篇帖子: flume写kafka topic覆盖问题fix 下篇帖子: kafka设计要点简介
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表