Kafka -入门

Kafka 是什么

近几年大数据炙手可热，相信大多数开发者多多少少了解或使用过 Kafka。博主也是刚入门的萌新，所以整理学习中的经验总结。授予有缘人。

Kafka 是什么？它是一款开源的消息引擎系统，是 Apache 基金会的一个顶级开源项目。由 Scala 和 Java 编写, 可惜我都不会。

对于刚接触 消息引擎系统（Messaging System） 这个词来说是有些迷茫的，维基百科中是这样描述：是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”。

简单的理解 Kafka 是在各个系统之间传输消息，从而实现松耦合的异步式数据传递。这时候可能有部分看官会想到一些如 XML、json、Protocol Buffer 等成熟方案，但 Kafka 使用的是纯二进制的字节序列传输信息。所以这也是 Kafka 的优势之一。

现在了解 Kafka 大致什么，那接下来开始使用起来吧。但在使用之前，需要选择一个合适的 Kafka 方案。是的，Kafka 有好几种。

Kafka 怎么选

类似 Linux 有 RedHat、CentOS、Ubuntu等多种发行版本，Kafka 也因为有多个发行商所有有多种版本。比较出名的是有以下几种：

名称	发行商	选它理由	不选它理由
Apache Kafka	Apache	血脉纯正，社区庞大。	仅提供最最基础的组件，对小白不友好。
Confluent Kafka	Confluent	免费版类似 Apache 版本，企业版提供商业服务和更多功能。	几乎不在大陆发展，缺少社区、资料等，不推荐。
CDH Kafka	Cloudera	完善的平台服务，通过便捷化的界面操作将 Kafka 的安装、运维、管理、监控全部统一在控制台中。对于小白是比较有好的。	对于深度研究的可玩性不如其他，需要集成平台所以有一定的滞后性。

Kafka 常用术语

正所谓：上梁山，说匪话（我瞎编的）。Kafka 中也有一些术语需要使用前了解。

Kafka 是提供一套完备的消息发布与订阅解决方案的分布式的消息引擎系统。所以消息是一个重要的部分，那消息对应的对象称之为：主题（Topic）。这里的主题和 ES 中的索引差不多的意思。

同样的 Kafka 中也有生产者（Producer）和消费者（Consumer），统称为客户端（Clients）。

采用 S/C 结构的 Kafka 服务端是由名为 Broker 的服务进程构成，即一个 Kafka 集群由多个 Broker 组成，Broker 负责接收和处理客户端发送过来的请求，以及对消息进行持久化。

Kafka 是一个高可用的服务，其最重要的就是其备份机制（Replication）。实现方式为把相同的数据拷贝到多台节点上，这些备份称之为 副本（Replica）。这种方式在类似 ES。

Kafka 的副本分为俩种：领导者副本（Leader Replica）和追随者副本（Follower Replica）。其中领导者副本用于和客户端程序进行交互。追随者副本仅仅被动地追随领导者副本而已，不能与外界进行交互（备胎，其实追随者副本可以理解为 MySQL 的从库一样，但是不同的是 MySQL 从是可以读的）。

它们工作模式为生产者向领导者副本写消息；消费者从领导者副本读消息。追随者副本仅向领导者副本发送请求，请求领导者把最新生产的消息发给它。

Kafka 作为一个分布式系统，有着很方便的扩展性。和 ES、MongoDB 等类似，Kafka 中也有分区（Partitioning）的操作。

Kafka 分区机制是将每个主题划分成多个分区（Partition），每个分区是一组有序的消息日志。生产者生产的每条消息只会被发送到一个分区中（尽管有多个分区）。

其中分区和副本有这种这样的约束：分区中定义副本，一个分区可包含多个副本。但只能有一个领导者副本，可以多个(N-1 N是副本数)追随者副本。

上面就是大概的术语了，更多的后面的文章在补充了。接下来看很重要的一点，为什么总是听到有人说 Kafka 很快。