大小:30.99M
更新时间:23-09-14
系统:Pc
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。
《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述 第1章 初识Spark 1.1 大数据和Spark 1.1.1 大数据的由来 1.1.2 大数据的分析 1.1.3 Hadoop 1.1.4 Spark简介 1.2 与Spark的第一次亲密接触 1.2.1 环境准备 1.2.2 下载安装Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整体框架 2.1 编程模型 2.1.1 RDD 2.1.2 Operation 2.2 运行框架 2.2.1 作业提交 2.2.2 集群的节点构成 2.2.3 容错处理 2.2.4 为什么是Scala 2.3 源码阅读环境准备 2.3.1 源码下载及编译 2.3.2 源码目录结构 2.3.3 源码阅读工具 2.3.4 本章小结 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化综述 3.3 Spark Repl综述 3.3.1 Scala Repl执行过程 3.3.2 Spark Repl 第4章 Spark作业提交 4.1 作业提交 4.2 作业执行 4.2.1 依赖性分析及Stage划分 4.2.2 Actor Model和Akka 4.2.3 任务的创建和分发 4.2.4 任务执行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存储机制 4.3.1 Shuffle结果的写入和读取 4.3.2 Memory Store 4.3.3 存储子模块启动过程分析 4.3.4 数据写入过程分析 4.3.5 数据读取过程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 单机模式local 5.3 伪集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 启动Master 5.4.2 启动Worker 5.4.3 运行spark-shell 5.4.4 容错性分析 5.5 Spark On YARN 5.5.1 YARN的编程模型 5.5.2 YARN中的作业提交 5.5.3 Spark On YARN实现详解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整体架构 6.1.1 DStream 6.1.2 编程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming执行过程 6.2.1 StreamingContext初始化过程 6.2.2 数据接收 6.2.3 数据处理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容错性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm简介 6.5.2 Storm和Spark Streaming对比 6.6 应用举例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL语句的通用执行过程分析 7.2 SQL On Spark的实现分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON数据集 7.4 Hive简介 7.4.1 Hive 架构 7.4.2 HiveQL On MapReduce执行过程分析 7.5 HiveQL On Spark详解 7.5.1 Hive On Spark环境搭建 7.5.2 编译支持Hadoop 2.x的Spark 7.5.3 运行Hive On Spark测试用例 第8章 GraphX 8.1 GraphX简介 8.1.1 主要特点 8.1.2 版本演化 8.1.3 应用场景 8.2 分布式图计算处理技术介绍 8.2.1 属性图 8.2.2 图数据的存储与分割 8.3 Pregel计算模型 8.3.1 BSP 8.3.2 像顶点一样思考 8.4 GraphX图计算框架实现分析 8.4.1 基本概念 8.4.2 图的加载与构建 8.4.3 图数据存储与分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源码实现 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 线性回归 9.1.1 数据和估计 9.1.2 线性回归参数求解方法 9.1.3 正则化 9.2 线性回归的代码实现 9.2.1 简单示例 9.2.2 入口函数train 9.2.3 最优化算法optimizer 9.2.4 权重更新update 9.2.5 结果预测predict 9.3 分类算法 9.3.1 逻辑回归 9.3.2 支持向量机 9.4 拟牛顿法 9.4.1 数学原理 9.4.2 代码实现 9.5 MLLib与其他应用模块间的整合 第四部分 附录 附录A Spark源码调试 附录B 源码阅读技巧
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
12g901-3图集23.03Mpdf全套版 小编今天给大家分享的是12g901图集全套下载,包括12g901-1图集、12g901-2图集和12g901-3图集,pdf高清格式,由中华人民共和国住房和城乡建设部发行,适用于筏形基础、独立基础、条形基础、桩基承合的施工钢筋排布及构造,可供建筑施
查看精通spring 4.x企业应用开发实战178.94M陈雄华pdf扫描版精通spring 4.x企业应用开发实战是一本Spring技术开发实战手册,由Spring专家陈雄华编著。本书内容丰富,深入浅出,作者对Spring的源码进行了彻底分析,深刻揭示了Spring框架的技术内幕,让读者知其然,更知其所以然。Spring中的许
查看APP蓝图:Axure RP7.0移动互联网产品原型设计40.95M吕皓月pdf扫描版 建模又常被称为画线框图、mockup、原型图、demo,其主要用途是在正式进行设计和开发之前,通过一个逼真的效果图来模拟最终的视觉效果和交互效果。但如何才能更好的学习呢?小编这里为广大网友带来了APP蓝图:Axure RP7.0移动互联网产品原型设
查看面向arcgis的python脚本编程40.59M 面向arcgis的python脚本编程是一本指导ArcGIS for Desktop专业用户进行Python开发的指南,本书将教会您如何通过编写Python代码处理空间数据并在ArcGIS中自动化实现地理处理任务。读者在学习完本书后,可以根据需要创
查看ansible自动化运维技术与最佳实践28.97M陈金窗pdf扫描版 ansible自动化运维技术与最佳实践由一线运维人员陈金窗,沈灿和刘政委三人联手打造。本书通过大量实例,详细讲解Ansible自动化运维方式与技巧。从基础的架构解析、安装配置,到典型应用场景与案例分析,作者分享了自己在工作中的实战经验,是掌握大规模
查看大规模分布式存储系统原理解析与架构实战86.63M杨传辉pdf扫描版 大规模分布式存储系统原理解析与架构实战是一本大规模存储系统的核心技术和原理分析书籍,由阿里巴巴高级技术专家杨传辉编著。本书内容丰富详细,系统的构建大规模存储系统的核心技术和原理,详细分析Google、Microsoft和阿里巴巴的大规模分布式存储系
查看opencl编程指南487KPDF高清版opencl是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码。本次小编将给大家带来opencl编程指南,它是由OpenCL核心设计人员亲自执笔,不
查看第三方JavaScript编程73.93Mpdf扫描版第三方JavaScript编程是全球首本全面探讨第三方应用开发的图书 ,由Disqus知名Web开发工程师Ben Vinegar(维尼哲)和Anton Kovalyov(科瓦罗夫)两人共同编著,郭凯翻译。本书内容丰富翔实,详细的介绍了第三方应用程序开发的
查看编写高质量代码改善python程序的91个建议54.23M张颖赖勇浩pdf扫描版 编写高质量代码改善python程序的91个建议是一本Python程序代码编辑指南,由张颖和赖勇浩两人共同编著。本书将为你编写健壮、优雅、高质量的Python代码提供切实帮助!内容全部由Python编码的实践组成,从基本原则、惯用法、语法、库、设计模
查看计算机主板故障维修全程指导69.44M韩雪涛pdf全彩版计算机主板故障维修全程指导是一本计算机主板维修实战指导教材,由韩雪涛编著。本书首先将主板的结构特点、故障特性和故障分析做出一一的介绍,再结合实际检修经验,给出检修思路;然后再将主板划分成单元结构,并依据实际案例,通过对实际主板的拆解、检测等一系列操作演示
查看游戏编程数学和物理基础pdf54.86M游戏编程数学和物理基础pdf是“游戏开发技术系列丛书”之一,由斯达乐编著,徐明亮等翻译。本书讨论了三角几何知识,向量和矩阵运算,变换,碰撞和能量,以及1D/2D/3D空间内的运动等内容,循循善诱地指导读者如何利用数学与物理知识达到提升自身游戏开发水平的目
查看