《深入理解Spark核心思想与源码分析》介绍
准备篇(第1~2章),介绍了Spark的环境搭建、设计理念与基本架构,帮助读者了解一些背景知识。
核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容,读者可以通过源码剖析更加深入理解Spark的核心设计与实现,以便在实际使用中能够快速解决线上问题并对性能进行调优。
扩展篇(第8~11章),主要讲解基于Spark核心的各种扩展及应用,包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容,读者可以扩展实际项目中对Spark的应用场景,让Spark焕发活力。
《深入理解Spark核心思想与源码分析》目录
第1章 环境准备2
1.1 运行环境准备2
1.1.1 安装JDK3
1.1.2 安装Scala3
1.1.3 安装Spark4
1.2 Spark初体验4
1.2.1 运行spark-shell4
1.2.2 执行word count5
1.2.3 剖析spark-shell7
1.3 阅读环境准备11
1.4 Spark源码编译与调试13
1.5 小结17
第2章 Spark设计理念与基本架构18
2.1 初识Spark18
2.1.1 Hadoop MRv1的局限18
2.1.2 Spark使用场景20
2.1.3 Spark的特点20
2.2 Spark基础知识20
2.3 Spark基本设计思想22
2.3.1 Spark模块设计22
2.3.2 Spark模型设计24
2.4 Spark基本架构25
2.5 小结26