《Spark快速数据处理》 PDF电子书下载 带书签目录 完整版

spark | 2019-11-04 08:42:13

 

《Spark快速数据处理》介绍

spark快速数据处理2014年4月由机械工业出版社出版发行,是一本spark方面的实用手册。Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。

 

 

《Spark快速数据处理》目录

 

译者序
作者简介
前言
第1章 安装Spark以及构建Spark集群 / 1
1.1 单机运行Spark / 41.2 在EC2上运行Spark / 51.3 在ElasticMapReduce上部署Spark / 111.4 用Chef(opscode)部署Spark / 121.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通过SSH部署集群 / 16
1.8 链接和参考 / 21
1.9 小结 / 21
第2章 Spark shell的使用 / 23
2.1 加载一个简单的text文件 / 24
2.2 用Spark shell运行逻辑回归 / 26
2.3 交互式地从S3加载数据 / 28
2.4 小结 / 30
第3章 构建并运行Spark应用 / 31
3.1 用sbt构建Spark作业 / 32
3.2 用Maven构建Spark作业 / 36
3.3 用其他工具构建Spark作业 / 39
3.4 小结 / 39
第4章 创建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 链接和参考 / 45
4.6 小结 / 46
第5章 加载与保存数据 / 47
5.1 RDD / 48
5.2 加载数据到RDD中 / 49
5.3 保存数据 / 54
5.4 连接和参考 / 55
5.5 小结 / 55
第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 链接和参考 / 83
6.4 小结 / 84
第7章 Shark-Hive和Spark的综合运用 / 85
7.1 为什么用Hive/Shark / 86
7.2 安装Shark / 86
7.3 运行Shark / 88
7.4 加载数据 / 88
7.5 在Spark程序中运行HiveQL查询 / 89
7.6 链接和参考 / 92
7.7 小结 / 93
第8章 测试 / 95
8.1 用Java和Scala测试 / 96
8.2 用Python测试 / 103
8.3 链接和参考 / 104
8.4 小结 / 105
第9章 技巧和窍门 / 107
9.1 日志位置 / 108
9.2 并发限制 / 108
9.3 内存使用与垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成环境 / 111
9.6 Spark与其他语言 / 112
9.7 安全提示 / 113
9.8 邮件列表 / 113
9.9 链接和参考 / 113
9.10 小结 / 114

 

下载地址:
《Spark快速数据处理》 PDF电子书下载 带书签目录 完整版

扫描关注 -> 回复 616 -> 获取下载链接

注意:本电子书来源于网络,仅供参考预览了解本书,喜欢的请购买正版书籍。如有侵权,请联系我们,快速删除。
登录后即可回复 登录 | 注册
    
关注编程学问公众号