Blog | acronymor's blog

Ch05-Spark 之数据抽象

May 20, 2019

Apache Spark

Spark

Spark 并不直接对数据进行处理，而是将数据抽象成了分布式数据集这种数据结构。目前该数据结构主要经历了三代变迁。

...

Ch04-Spark 之 Shuffle

May 15, 2019

Apache Spark

Spark

Spark Shuffle 经过了若干次优化。

...

Ch03-Spark 之 Job 执行流程

May 12, 2019

Apache Spark

Spark

Spark Job 执行流程。

...

Ch12-Kafka 为什么这么快

May 11, 2019

Apache Kafka

Kafka

Apache Kafka 以牺牲延迟和抖动为代价优化了吞吐量，但并没有牺牲，比如持久性、严格的记录有序性和至少一次的分发语义。当有人说“Kafka 速度很快”，并假设他们至少有一定的能力时，你可以认为他们指的是 Kafka 在短时间内分发大量记录的能力。

...

Ch04-HBase 之 HLog

April 23, 2019

Apache HBase

Hbase

Write-ahead logs (WALs)，HBase 2.0 之前，WAL 接口的实现是 HLog，所以先前大家也会将 WAL 称为 HLog。

...

Ch11-Kafka 之 Quota

April 22, 2019

Apache Kafka

Kafka

kafka Quota

...

Ch03-HBase 之 CatalogTables

April 20, 2019

Apache HBase

Hbase

HBase Catalog Table

...

Ch10-Kafka 之事务

April 18, 2019

Apache Kafka

Kafka

kafka Transaction.

...

Ch02-HBase 之数据模型

April 15, 2019

Apache HBase

Hbase

逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从 HBase 的底层物理存储结构 (K-V) 来看，HBase 更像是一个 multi-dimensional map。

...

Ch01-HBase 介绍

April 13, 2019

Apache HBase

Hbase

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。

...