大小:30.99M
更新时间:23-09-14
系统:Pc
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。

《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述 第1章 初识Spark 1.1 大数据和Spark 1.1.1 大数据的由来 1.1.2 大数据的分析 1.1.3 Hadoop 1.1.4 Spark简介 1.2 与Spark的第一次亲密接触 1.2.1 环境准备 1.2.2 下载安装Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整体框架 2.1 编程模型 2.1.1 RDD 2.1.2 Operation 2.2 运行框架 2.2.1 作业提交 2.2.2 集群的节点构成 2.2.3 容错处理 2.2.4 为什么是Scala 2.3 源码阅读环境准备 2.3.1 源码下载及编译 2.3.2 源码目录结构 2.3.3 源码阅读工具 2.3.4 本章小结 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化综述 3.3 Spark Repl综述 3.3.1 Scala Repl执行过程 3.3.2 Spark Repl 第4章 Spark作业提交 4.1 作业提交 4.2 作业执行 4.2.1 依赖性分析及Stage划分 4.2.2 Actor Model和Akka 4.2.3 任务的创建和分发 4.2.4 任务执行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存储机制 4.3.1 Shuffle结果的写入和读取 4.3.2 Memory Store 4.3.3 存储子模块启动过程分析 4.3.4 数据写入过程分析 4.3.5 数据读取过程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 单机模式local 5.3 伪集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 启动Master 5.4.2 启动Worker 5.4.3 运行spark-shell 5.4.4 容错性分析 5.5 Spark On YARN 5.5.1 YARN的编程模型 5.5.2 YARN中的作业提交 5.5.3 Spark On YARN实现详解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整体架构 6.1.1 DStream 6.1.2 编程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming执行过程 6.2.1 StreamingContext初始化过程 6.2.2 数据接收 6.2.3 数据处理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容错性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm简介 6.5.2 Storm和Spark Streaming对比 6.6 应用举例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL语句的通用执行过程分析 7.2 SQL On Spark的实现分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON数据集 7.4 Hive简介 7.4.1 Hive 架构 7.4.2 HiveQL On MapReduce执行过程分析 7.5 HiveQL On Spark详解 7.5.1 Hive On Spark环境搭建 7.5.2 编译支持Hadoop 2.x的Spark 7.5.3 运行Hive On Spark测试用例 第8章 GraphX 8.1 GraphX简介 8.1.1 主要特点 8.1.2 版本演化 8.1.3 应用场景 8.2 分布式图计算处理技术介绍 8.2.1 属性图 8.2.2 图数据的存储与分割 8.3 Pregel计算模型 8.3.1 BSP 8.3.2 像顶点一样思考 8.4 GraphX图计算框架实现分析 8.4.1 基本概念 8.4.2 图的加载与构建 8.4.3 图数据存储与分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源码实现 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 线性回归 9.1.1 数据和估计 9.1.2 线性回归参数求解方法 9.1.3 正则化 9.2 线性回归的代码实现 9.2.1 简单示例 9.2.2 入口函数train 9.2.3 最优化算法optimizer 9.2.4 权重更新update 9.2.5 结果预测predict 9.3 分类算法 9.3.1 逻辑回归 9.3.2 支持向量机 9.4 拟牛顿法 9.4.1 数学原理 9.4.2 代码实现 9.5 MLLib与其他应用模块间的整合 第四部分 附录 附录A Spark源码调试 附录B 源码阅读技巧
应用信息
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
佳能550d使用说明书10.57Mpdf高清版 本次小编分享的是佳能550d使用说明书,压缩包内还附带了佳能550d摄影技巧,方便那些拥有该相机却不知如何正常使用的朋友进行学习。 佳能550d则是佳能公司位于2010年2月8日发布了新的单反数码相机,新产品重点包括1080p高清(带全
查看
佳能c300使用说明书15.29M 佳能C300使用说明书是专门为佳能C300相机设计的一份详尽的指南,这份说明书详细地介绍了佳能C300的各种设置按钮和操作步骤,包括但不限于如何调整光圈、快门速度、ISO感光度等基本设置,以及如何进行白平衡、曝光补偿等高级设置,并且还提供了一系列的
查看
objective-c程序设计 第4版35.98M斯蒂芬pdf扫描版 objective-c程序设计 第4版是一本Objective-C程序设计指南,由斯蒂芬Stephen G. Kochan编著。本书是一本的Objective-C2.0参考书,详细介绍该语言的具体内容。全书用丰富而详实的实例讲解了如何使用Objec
查看
oracle性能诊断艺术35.65Mpdf扫描版 oracle性能诊断艺术是一本Oracle数据库优化的里程碑式著作,由瑞士资深数据库专家Christian Antognini编著。书中的最佳实践和诸多建议全部来源于作者在实战一线的丰富积累,不仅简单实用,而且发人深省,堪称一座“宝库”,适合各层次
查看
Linux C编程实战64.42M童永清pdf扫描版 linux c编程实战是一本介绍linux系统下如何使用c语言编程开发的图书,由童永清编著。本书结构合理、概念清晰,采用"基础知识→难点解析→重点提示→编程实践"的写作手法,使读者理解更深入、应用更容易、掌握更快速。文中第一篇主要介绍了linux和
查看
ios应用逆向工程 第2版16.48M沙梓社pdf扫描版 ios应用逆向工程第2版是全球首本讲解iOS8应用逆向工程的实战手册,作者沙梓社,吴航编著。本书内容丰富翔实,作者毫无保留地分享了数年来在IOS逆向工程领域的经验。全书内容系统深入,逻辑紧密,实战性强,从iOS系统架构等理论出发,以多个实例贯穿全书
查看
游戏人工智能编程案例精粹53.61M 游戏人工智能编程案例精粹是一本讲述如何使游戏角色具有人工智能的著作。对比传统游戏人工智能介绍,该书具有实例丰富、语言幽默的特点,能够帮助用户学会创建适合于各种游戏类型主要行为的、具有有趣的和挑战性的人工智能的必要技术,从而对游戏人工智能的关键领域具
查看
visual c++程序设计与应用教程第2版32.68M马石安高清扫描版 visual c++程序设计与应用教程第2版是一本高等学校计算机教育实用规划教材,由马石安编著。本书内容丰富翔实,主要围绕两条主线进行编写,一条主要以通俗易懂的语言介绍用Visual C++开发Windows应用程序所必需的应用理论,另一条主线设计
查看
图像处理分析与机器视觉第四版pdf256.11M扫描版 图像处理分析与机器视觉第四版是一本图像处理分析书籍,由桑卡Milan Sonka,Vaclav Hlavac和Roger Boyle三人编著,兴军亮,艾海舟共同翻译。 本书涵盖的领域十分广泛,其中包括人工智能、信号处理、人工神经网络、模
查看
深入linux内核架构18.96M莫尔勒pdf扫描版 深入linux内核架构是一本专业的linux内核学习指导书,由德国资深Linux专家莫尔勒编著。本书结合了linux内核版本2.6.24源代码中关键的部分,深入讨论Lirnux内核的概念、结构和实现。具体包括进程管理和调度、虚拟内存、进程间通信、设
查看
SEO实战指导:知识策略案例(第2版)42.6M扫描版 SEO实战指导:知识策略案例(第2版)是一本搜索引擎优化学习教材,由藏锋者和郝永清两人共同编著。全书脉络简单,化繁为简,将纷繁复杂的搜索引擎优化技术(seo)进行提炼和梳理,从理论技术介绍到实际案例操作,进行细致详尽的讲解和分析,让读者很快就可以了
查看