大小:30.99M
更新时间:23-09-14
系统:Pc
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。
《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述
第1章 初识Spark
1.1 大数据和Spark
1.1.1 大数据的由来
1.1.2 大数据的分析
1.1.3 Hadoop
1.1.4 Spark简介
1.2 与Spark的第一次亲密接触
1.2.1 环境准备
1.2.2 下载安装Spark
1.2.3 Spark下的WordCount
第二部分 Spark核心概念
第2章 Spark整体框架
2.1 编程模型
2.1.1 RDD
2.1.2 Operation
2.2 运行框架
2.2.1 作业提交
2.2.2 集群的节点构成
2.2.3 容错处理
2.2.4 为什么是Scala
2.3 源码阅读环境准备
2.3.1 源码下载及编译
2.3.2 源码目录结构
2.3.3 源码阅读工具
2.3.4 本章小结
第3章 SparkContext初始化
3.1 spark-shell
3.2 SparkContext的初始化综述
3.3 Spark Repl综述
3.3.1 Scala Repl执行过程
3.3.2 Spark Repl
第4章 Spark作业提交
4.1 作业提交
4.2 作业执行
4.2.1 依赖性分析及Stage划分
4.2.2 Actor Model和Akka
4.2.3 任务的创建和分发
4.2.4 任务执行
4.2.5 Checkpoint和Cache
4.2.6 WebUI和Metrics
4.3 存储机制
4.3.1 Shuffle结果的写入和读取
4.3.2 Memory Store
4.3.3 存储子模块启动过程分析
4.3.4 数据写入过程分析
4.3.5 数据读取过程分析
4.3.6 TachyonStore
第5章 部署方式分析
5.1 部署模型
5.2 单机模式local
5.3 伪集群部署local-cluster
5.4 原生集群Standalone Cluster
5.4.1 启动Master
5.4.2 启动Worker
5.4.3 运行spark-shell
5.4.4 容错性分析
5.5 Spark On YARN
5.5.1 YARN的编程模型
5.5.2 YARN中的作业提交
5.5.3 Spark On YARN实现详解
5.5.4 SparkPi on YARN
第三部分 Spark Lib
第6章 Spark Streaming
6.1 Spark Streaming整体架构
6.1.1 DStream
6.1.2 编程接口
6.1.3 Streaming WordCount
6.2 Spark Streaming执行过程
6.2.1 StreamingContext初始化过程
6.2.2 数据接收
6.2.3 数据处理
6.2.4 BlockRDD
6.3 窗口操作
6.4 容错性分析
6.5 Spark Streaming vs. Storm
6.5.1 Storm简介
6.5.2 Storm和Spark Streaming对比
6.6 应用举例
6.6.1 搭建Kafka Cluster
6.6.2 KafkaWordCount
第7章 SQL
7.1 SQL语句的通用执行过程分析
7.2 SQL On Spark的实现分析
7.2.1 SqlParser
7.2.2 Analyzer
7.2.3 Optimizer
7.2.4 SparkPlan
7.3 Parquet 文件和JSON数据集
7.4 Hive简介
7.4.1 Hive 架构
7.4.2 HiveQL On MapReduce执行过程分析
7.5 HiveQL On Spark详解
7.5.1 Hive On Spark环境搭建
7.5.2 编译支持Hadoop 2.x的Spark
7.5.3 运行Hive On Spark测试用例
第8章 GraphX
8.1 GraphX简介
8.1.1 主要特点
8.1.2 版本演化
8.1.3 应用场景
8.2 分布式图计算处理技术介绍
8.2.1 属性图
8.2.2 图数据的存储与分割
8.3 Pregel计算模型
8.3.1 BSP
8.3.2 像顶点一样思考
8.4 GraphX图计算框架实现分析
8.4.1 基本概念
8.4.2 图的加载与构建
8.4.3 图数据存储与分割
8.4.4 操作接口
8.4.5 Pregel在GraphX中的源码实现
8.5 PageRank
8.5.1 什么是PageRank
8.5.2 PageRank核心思想
第9章 MLLib
9.1 线性回归
9.1.1 数据和估计
9.1.2 线性回归参数求解方法
9.1.3 正则化
9.2 线性回归的代码实现
9.2.1 简单示例
9.2.2 入口函数train
9.2.3 最优化算法optimizer
9.2.4 权重更新update
9.2.5 结果预测predict
9.3 分类算法
9.3.1 逻辑回归
9.3.2 支持向量机
9.4 拟牛顿法
9.4.1 数学原理
9.4.2 代码实现
9.5 MLLib与其他应用模块间的整合
第四部分 附录
附录A Spark源码调试
附录B 源码阅读技巧
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
应用信息
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
不上班的23种活法pdf版6.47M 不上班的23种活法是一款介绍各种各样的自由职业的图书,作者唐华山,由北京出版社发行。全书为广大网友提供23种活法供参考,选取了自由职业中最具普遍意义的23个方向,并对其进行了具体分析和阐述,包括职业综述、必备素养、现身说法、经验分享、测试、相关链接
查看
响应式web设计html5和css3实战第2版10.6Mpdf扫描版 响应式web设计是一种统一的解决方案,可以让web作品适配手机,平板和桌面电脑。但如何才能更好的学习和入门呢?响应式web设计html5和css3实战第2版将为用户提供最全面的讲解,是一本html和css3的实战手册,由英国程序员本·弗莱恩编著。
查看
深入理解linux驱动程序设计22.19M吴国伟pdf扫描版深入理解linux驱动程序设计是一本linux系统驱动设计指导书籍,由吴国伟,姚琳,毕成龙编著。全书以基于Linux内核3.8.13源代码而编写,全面深入地论述了Linux设备驱动开发的全方位技术,揭秘Linux内核、驱动开发、驱动开发实例,主要内容包括
查看
oracle database 9i10g11g编程艺术第2版151.99MThomas Kyte pdf扫描版 oracle database 9i10g11g编程艺术第2版是一本公认的Oracle数据库指南,凝聚了世界的Oracle专家Thomas Kyte数十年的宝贵经验和真知灼见。书中深入分析了Oracle数据库体系结构,包括文件、内存结构以及构成Or
查看
C#2012数据库编程入门经典(第5版)87.4Mpdf扫描版 C#2012数据库编程入门经典(第5版)是一本C#数据库编程入门书籍,由[美]阿加瓦尔Vidya,Vrat Agarwal著,沈刚,谭明红共同翻译。全书就是一本帮助具有C#语言基础的程序员快速掌握数据库编程知识的指南,包括了使用SQL Server
查看
7天学会Dreamweaver CS4网页制作16.45M三虎工作室pdf扫描版 7天学会Dreamweaver CS4网页制作是一本Dreamweaver速成学习手册,由三虎工作室编著。本书内容详实、结构清晰、案例丰富、图文并茂,通过“步骤引导,图解操作”的讲解方式做到理论与实践相结合,从而使读者能在短时间内充分掌握Dream
查看
SPA设计与架构:理解单页面Web应用39.99MEmmit A.Scott pdf扫描版 SPA设计与架构:理解单页面Web应用是一本SPA开发教学书籍,由美国的埃米顿.斯科特[ Emmit A.Scott]编著,本书讲述SPA应用程序构建所需的设计与开发技术。书中首先介绍SPA模型,并阐述SPA标准构建方式。随着内容的展开,
查看
sql语法范例大全(SQL Server 、Oracle通解)132.16M黄少华陈翠娥pdf扫描版 sql语法范例大全(SQL Server 、Oracle通解)是一本SQL语法范例书籍,由黄少华和陈翠娥两人共同编著。本书结构清晰,按结构化的设计方法进行布局编排;内容全面,几乎囊括所有的知识点;方法多样,同时采用工具和命令实现;实例丰富,融合技术
查看
图像处理分析与机器视觉第四版pdf256.11M扫描版 图像处理分析与机器视觉第四版是一本图像处理分析书籍,由桑卡Milan Sonka,Vaclav Hlavac和Roger Boyle三人编著,兴军亮,艾海舟共同翻译。 本书涵盖的领域十分广泛,其中包括人工智能、信号处理、人工神经网络、模
查看
新一代SDN VMware NSX 网络原理与实践pdf61.07M范恂毅pdf扫描版 新一代SDN VMware NSX 网络原理与实践是一本全面剖析VMware NSX网络原理与实践的详细指南,由范恂毅和张晓和两人共同编著。本书内容丰富翔实,全面介绍了VMware NSX的相关知识,还从自身的经验和体会出发,阐述了NSX与其他技术
查看
Python面向对象编程指南51.31MSteven F. Lott(洛特)pdf扫描版 Python面向对象编程指南是一本掌握Python面向对象编程的精髓的Python编程指南,由美国程序员Steven F. Lott(洛特)编著。本书通过实际的例子对Python中面向对象编程的理念进行介绍。针对所有可用于和Python内置功能进行
查看