Blog

Ch02-Spark 应用执行模式

July 10, 2018
Apache Spark
spark

Spark 应用执行模式的不同主要体现在 Cluster Manager 使用的是哪个。如果是单独的进程,那么就是 Standalone 模式;如果是 Hadoop Yarn,那就是 Hadoop Yarn 模式。

...

Ch05-Kafka 之 Partition

July 2, 2018
Apache Kafka
kafka

Kafka Partition 相关的机制是比较复杂的,它自身保留了一个 leader 来对外提供消息操作的能力,若干 follower 通过 leader 同步消息保证数据可靠性。

...

Ch01-Spark 介绍

July 1, 2018
Apache Spark
spark

Apache Spark 是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark 部署在大量硬件之上,形成集群。

...

Ch04-Kafka 之 ZeroCopy

June 29, 2018
Apache Kafka
kafka

Kafka 中存在大量的网络数据持久化到磁盘(Producer 到 Broker)和磁盘文件通过网络发送(Broker 到 Consumer)的过程。这一过程的性能直接影响 Kafka 的整体吞吐量,于是 Kafka 便引入了 ZeroCopy 技术来提升性能。

...

Ch01-Kafka 介绍

June 20, 2018
Apache Kafka
kafka

Kafka 是一款开源的、轻量级的、分布式、可分区和具有复制备份的 (Replicated)、基于 ZooKeeper 协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,Kafka 能够很好地处理活跃的流数据,使得数据在各个子系统中高性能、低延迟地不停流转。

...