济南Java培训
达内济南山大路中心

17156168575

热门课程

济南java培训丨java大数据之“Kafka”

  • 时间:2018-01-08
  • 发布:济南java培训
  • 来源:互联网

    近几年来随着大数据产业的蓬勃发展,Kafka的应用也有了明显的增长.世界超过三分之一的财富500强公司使用kafka.这些公司包括排名前十的旅游公司、前十大银行中的7家、十大保险公司的8家、十大电信公司中的9家,以及更多.Kafka用于实时数据流,收集大数据,或进行实时分析(或两者兼有).Kafka与内存中的微服务一起使用,以提供持久性,它可以用于向CEP(复杂事件流系统)和和物联网信息平台.

    Kafka经常用于实时流数据架构,提供实时分析.由于Kafka是一种快速、可伸缩、持久和容错的发布-订阅消息传递系统,Kafka用于使用JMS、RabbitMQ和AMQP甚至可能不被认为是由于容量和响应性的情况.Kafka具有更高的吞吐量、可靠性和复制特性,这使得它适用于跟踪服务调用(跟踪每个调用)或跟踪IoT传感器数据,而传统的MOM可能不会被考虑.

    Kafka可以与Flume / Flafka、Spark流、Storm、HBase、Flink、Spark进行实时消化、分析和处理流数据.Kafka是一种数据流,用于为Hadoop BigData提供数据.Kafka broker支持在Hadoop或Spark中进行低延迟后续分析的大量消息流.此外,Kafka流(一个子项目)可以用于实时分析.

    kafka的使用案例

    简而言之,Kafka用于流程处理、网站活动跟踪、度量收集和监视、日志聚合、实时分析、CEP、将数据注入到Spark、将数据输入到Hadoop、CQRS、回放消息、错误恢复、以及保证分布式提交日志用于内存计算(微服务).

    谁使用kafka?

    许多处理大量数据的大公司都使用Kafka.它的发源地LinkedIn使用它来跟踪活动数据和操作指标.Twitter将其作为风暴的一部分,以提供流处理基础设施.Square使用Kafka作为一种总线,将所有系统事件移动到不同的正方形数据中心(日志、自定义事件、度量,等等),输出到Splunk,并实现esper -like/ CEP警报系统.Spotify、Uber、Tumbler、高盛(Goldman Sachs)、贝宝(PayPal)、Box、思科、CloudFlare和Netflix等其他公司也在使用它.

    kafka为什么这么受欢迎?

    kafka有操作简单.kafka是建立和使用的,很容易理解kafka的工作方式.然而,kafka最受欢迎的主要原因是它的优秀表现.它是稳定的,提供可靠的持久性,具有灵活的发布-订阅/队列,可以很好地扩展n -数量的用户组,具有健壮的复制,为生产者提供可调的一致性保证,并且在shard级别(即Kafka主题分区)提供保留的排序.此外,Kafka与具有数据流的系统很好地工作,使这些系统能够聚合、转换和加载到其他商店.但是,如果kafka行动缓慢,这些特征都不重要.kafka的杰出表现是kafka受欢迎的最重要原因.

    kafka为什么这么快?

    Kafka严重依赖操作系统内核来快速移动数据.它依赖于零拷贝的主体.Kafka使您能够将数据记录批量处理.从生产者到文件系统(Kafka主题日志)到消费者,可以看到这些数据批次.批处理允许更有效的数据压缩和减少I / O延迟.Kafka将不可变提交日志写入到磁盘顺序,从而避免了随机磁盘访问和慢磁盘查找.kafka通过分片提供横向比例尺.它将一个主题日志记录到数千个服务器的数百个(可能是数千个)分区中.这种分片让kafka能够承受巨大的负荷.

    kafka:流体系结构

    Kafka最常用于实时流媒体数据到其他系统.Kafka是一个中间层,可以将实时数据管道解耦.Kafka核心不适合直接计算,如数据聚合或CEP.Kafka流是Kafka生态系统的一部分,提供了实时分析的功能.Kafka可以用于快速通道系统(实时和操作数据系统),如Storm、Flink、Spark流媒体、服务和CEP系统.Kafka还用于流数据进行批量数据分析.它将数据流到您的大数据平台或RDBMS、Cassandra、Spark甚至S3中,以便将来进行一些数据分析.这些数据存储通常支持数据分析、报告、数据科学处理、遵从性审计和备份.

    kafka是什么?
济南Java培训
    Kafka是一个分布式流媒体平台,用于发布和订阅记录流.Kafka用于容错存储.Kafka将主题日志分区复制到多个服务器.Kafka的设计是为了让你的应用程序能够处理记录.kafka速度快,通过批量和压缩记录有效地使用IO.Kafka用于解耦数据流.Kafka用于将数据流到数据湖、应用程序和实时流分析系统中.

    Kafka支持多语言

    来自客户机和服务器的Kafka通信使用的是版本化和文档化的TCP协议.Kafka承诺保持与旧客户机的向后兼容,并支持多种语言.有c#、Java、C、Python、Ruby和许多其他语言的客户.Kafka生态系统还提供REST代理,允许通过HTTP和JSON进行简单的集成,这使得集成更加容易.Kafka还通过Confluent模式注册kafka来支持Avro模式.Avro和模式注册表允许使用多种编程语言编写和读取复杂的记录,并允许记录的演变.kafka是真正通晓多国语言.

    Kafka的作用

    Kafka允许您构建实时流数据管道.kafka能提供内置的微服务(即演员,Akka,Baratine).io,QBit,反应器,反应式,Vert.x RxJava Spring反应堆).Kafka允许您构建实时的流媒体应用程序,这些应用程序可以对流做出响应,进行实时数据分析、转换、响应、聚合、连接实时数据流和执行CEP(复杂事件处理).

    您可以使用Kafka来帮助收集指标/ kpi,从多个来源聚合统计数据,并实现事件源.您可以使用它与微服务(内存)和actor系统来实现内存服务(用于分布式系统的外部提交日志).

    您可以使用Kafka在节点之间复制数据,为节点重新同步,并恢复状态.虽然Kafka主要用于实时数据分析和流处理,但您也可以使用它来进行日志聚合、消息传递、点击流跟踪、审计跟踪等等.

    在一个数据科学和分析是一项大交易的世界里,捕捉数据以供数据湖泊和实时分析系统也很重要.由于kafka能够承受这些类型的费力用例,kafka是一件大事.

    kafka是可扩展的消息存储

    Kafka是一个很好的记录/消息存储系统.Kafka类似高速文件系统,用于提交日志存储和复制.这些特性使Kafka对应用程序的所有方式都有用.编写到Kafka主题的记录被持久化到磁盘上,并复制到其他服务器上以进行容错.由于现代的驱动器是快速和相当大的,这很适合并且是非常有用的.Kafka生产者可以等待确认,因此消息是持久的,因为生产者在消息复制之前不完成.kafka圆盘结构很好.现代磁盘驱动器在大型流批处理中具有很高的吞吐量.此外,Kafka客户端和消费者可以控制读取位置(offset),这允许在有关键bug(即修复bug和重放)时重新播放日志.而且由于每个消费者组都跟踪偏移量,我们在kafka体系结构的文章中讨论过,消费者可以相当灵活(即重放日志).

    Kafka保留记录

    kafka集群保留了所有已发布的记录.如果您不设置限制,它将保存记录,直到它耗尽磁盘空间.您可以设置基于时间的限制(可配置的保留期)、基于大小的限制(基于大小的可配置),或者压缩(使用键保存最新版本的记录).例如,你可以制定一个为期3天、2周或一个月的保留政策.主题日志中的记录可用于消费,直到被时间、大小或压缩所抛弃.由于kafka总是写到主题日志的末尾,所以它的消耗速度没有受到影响.

    本篇文章是由济南java培训为您呈现,希望给您带来更多更好的文章,喜欢的朋友们可以添加微信公众号.

更多济南java培训相关咨询,请扫描下方二维码

济南Java培训

上一篇:济南Java培训丨学java真的需要培训才能找到工作吗?
下一篇:济南java培训丨ava程序员提高篇!小白变大佬都经历了什么?

济南Java培训丨SEM竞价推广投放前的准备工作

济南java培训丨一项精干的SEM工作是长什么样的?

济南Java培训丨SEO人员如何把握和处理好细节?

济南java培训丨怎样做好一个网站的SEO工作?

选择城市和中心
贵州省

广西省

海南省

达内教育

有位老师想和您聊一聊