Ch02-Hive 之 SQL 执行
June 14, 2018
hive sql 执行流程
...hive sql 执行流程
...Apache Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,其基本原理是将 SQL 语句转换为 MapReduce 任务进行数据处理功能。所以从代码层面来看,整个 Hive 就是将 SQL 语句转换成 MapReduce 代码的一款软件。
...
CAP 理论是加州理工大学伯克利分校的 Eric Brewer 教授在 2000 年 7 月的 ACM PODC 会议上首次提出的,它是 Eric Brewer 在 Inktomi 期间研发搜索引擎、分布式 Web 缓存时得出的关于数据一致性(C:Consistency)、服务可用性(A:Availability)、分区容错性(P:Partition-tolerance)的一个著名猜想:
It is impossible for a web service to provide the three following guarantees : Consistency, Availability and Partition-tolerance.
在这个猜想提出的 2 年以后,来自麻省理工学院的 Seth Gilbert 和 Nancy Lynch 从理论上证明了 Eric Brewer 教授的 CAP 猜想是成立的,从此,CAP 理论在学术上正式成为了分布式领域公认的定理,并深刻影响着分布式系统的发展。
...Zab 协议的全称是 Zookeeper Atomic Broadcast(Zookeeper 原子广播),Zab 是特别为 Zookeeper 设计的支持崩溃恢的原子广播协议,在 Zookeeper 中主要依赖 Zab 协议实现数据一致性,基于该协议,Zookeeper 实现了主备模型(Leader 与 Follower)的系统架构保证集群中各个副本之间的数据一致性。
...Apache ZooKeeper 是由 Apache Hadoop 的子项目发展而来,于 2010 年 11 月正式成为了 Apache 的顶级项目。ZooKeeper 是一个正式源代码的分布式协调服务,由知名互联网公司雅虎创建,是 Google Chubby 的开源实现。
...数据库事务 (Database Transaction),是指作为单个逻辑工作单元执行的一系列操作,要么完全执行,要么完全地不执行。要么完全地不执行。一般来说,事务是必须满足 4 个条件 (ACID):原子性 (Atomicity)
、一致性 (Consistency)
、隔离性 (Isolation)
、持久性 (Durability)
。
InnoDB 索引选择B+树作为其内存数据结构,选择聚簇索引作为数据存储方式。
...Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架;Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上
...HDFS 读写过程需要 NameNode,DataNode,Client 等组件共同参与才能完成,所以 HDFS 的读写流程还是比较复杂的。
...