大小:38.49M
更新时间:23-09-09
系统:Pc
前 言 基 础 篇 第1章 Spark简介 2 1.1 什么是Spark 2 1.1.1 概述 3 1.1.2 Spark大数据处理框架 3 1.1.3 Spark的特点 4 1.1.4 Spark应用场景 5 1.2 Spark的重要扩展 6 1.2.1 Spark SQL和DataFrame 6 1.2.2 Spark Streaming 7 1.2.3 Spark MLlib和ML 8 1.2.4 GraphX 8 1.2.5 SparkR 9 1.3 本章小结 10 第2章 Spark部署和运行 11 2.1 部署准备 11 2.1.1 下载Spark 11 2.1.2 编译Spark版本 12 2.1.3 集群部署概述 14 2.2 Spark部署 15 2.2.1 Local模式部署 16 2.2.2 Standalone模式部署 16 2.2.3 YARN模式部署 18 2.3 运行Spark应用程序 19 2.3.1 Local模式运行Spark应用程序 19 2.3.2 Standalone模式运行Spark应用程序 20 2.3.3 YARN模式运行Spark 22 2.3.4 应用程序提交和参数传递 23 2.4 本章小结 26 第3章 Spark程序开发 27 3.1 使用Spark Shell编写程序 27 3.1.1 启动Spark Shell 28 3.1.2 加载text文件 28 3.1.3 简单RDD操作 28 3.1.4 简单RDD操作应用 29 3.1.5 RDD缓存 30 3.2 构建Spark的开发环境 30 3.2.1 准备环境 30 3.2.2 构建Spark的Eclipse开发环境 31 3.2.3 构建Spark的IntelliJ IDEA开发环境 32 3.3 独立应用程序编程 40 3.3.1 创建SparkContext对象 40 3.3.2 编写简单应用程序 40 3.3.3 编译并提交应用程序 40 3.4 本章小结 43 第4章 编程模型 44 4.1 RDD介绍 44 4.1.1 RDD特征 45 4.1.2 RDD依赖 45 4.2 创建RDD 47 4.2.1 集合(数组)创建RDD 47 4.2.2 存储创建RDD 48 4.3 RDD操作 49 4.3.1 转换操作 50 4.3.2 执行操作 52 4.3.3 控制操作 54 4.4 共享变量 56 4.4.1 广播变量 57 4.4.2 累加器 57 4.5 本章小结 58 第5章 作业执行解析 59 5.1 基本概念 59 5.1.1 Spark组件 59 5.1.2 RDD视图 60 5.1.3 DAG图 61 5.2 作业执行流程 62 5.2.1 基于Standalone模式的Spark架构 62 5.2.2 基于YARN模式的Spark架构 64 5.2.3 作业事件流和调度分析 65 5.3 运行时环境 67 5.3.1 构建应用程序运行时环境 68 5.3.2 应用程序转换成DAG 68 5.3.3 调度执行DAG图 70 5.4 应用程序运行实例 71 5.5 本章小结 72 第6章 Spark SQL与DataFrame 73 6.1 概述 73 6.1.1 Spark SQL 发展 74 6.1.2 Spark SQL 架构 74 6.1.3 Spark SQL 特点 76 6.1.4 Spark SQL 性能 76 6.2 DataFrame 77 6.2.1 DataFrame和RDD的区别 78 6.2.2 创建DataFrame 78 6.2.3 DataFrame 操作 80 6.2.4 RDD转化为DataFrame 82 6.3 数据源 84 6.3.1 加载保存操作 84 6.3.2 Parquet 文件 85 6.3.3 JSON 数据集 88 6.3.4 Hive 表 89 6.3.5 通过JDBC 连接数据库 91 6.3.6 多数据源整合查询的小例子 92 6.4 分布式的SQL Engine 93 6.4.1 运行Thrift JDBC/ODBC 服务 93 6.4.2 运行 Spark SQL CLI 94 6.5 性能调优 94 6.5.1 缓存数据 94 6.5.2 调优参数 94 6.5.3 增加并行度 95 6.6 数据类型 95 6.7 本章小结 96 第7章 深入了解Spark Streaming 97 7.1 基础知识 97 7.1.1 Spark Streaming工作原理 98 7.1.2 DStream编程模型 99 7.2 DStream操作 100 7.2.1 Input DStream 100 7.2.2 DStream转换操作 102 7.2.3 DStream状态操作 104 7.2.4 DStream输出操作 106 7.2.5 缓存及持久化 107 7.2.6 检查点 108 7.3 性能调优 109 7.3.1 优化运行时间 109 7.3.2 设置合适的批次大小 111 7.3.3 优化内存使用 111 7.4 容错处理 112 7.4.1 文件输入源 112 7.4.2 基于Receiver的输入源 112 7.4.3 输出操作 113 7.5 一个例子 113 7.6 本章小结 115 第8章 Spark MLlib与机器学习 116 8.1 机器学习概述 116 8.1.1 机器学习分类 117 8.1.2 机器学习算法 117 8.2 Spark MLlib介绍 118 8.3 Spark MLlib库 119 8.3.1 MLlib数据类型 120 8.3.2 MLlib的算法库与实例 123 8.4 ML库 142 8.4.1 主要概念 143 8.4.2 算法库与实例 145 8.5 本章小结 147 第9章 GraphX图计算框架与应用 148 9.1 概述 148 9.2 Spark GraphX架构 149 9.3 GraphX编程 150 9.3.1 GraphX的图操作 152 9.3.2 常用图算法 161 9.4 应用场景 164 9.4.1 图谱体检平台 164 9.4.2 多图合并工具 165 9.4.3 能量传播模型 165 9.5 本章小结 166 第10章 SparkR(R on Spark) 167 10.1 概述 167 10.1.1 SparkR介绍 168 10.1.2 SparkR的工作原理 168 10.1.3 R语言介绍 169 10.1.4 R语言与其他语言的通信 170 10.2 安装SparkR 170 10.2.1 安装R语言与rJava 171 10.2.2 SparkR的安装 171 10.3 SparkR的运行与应用示例 172 10.3.1 运行SparkR 172 10.3.2 SparkR示例程序 173 10.3.3 R的DataFrame操作方法 175 10.3.4 SparkR的DataFrame 183 10.4 本章小结 186 实 战 篇 第11章 大数据分析系统 188 11.1 背景 188 11.2 数据格式 189 11.3 应用架构 189 11.4 业务实现 190 11.4.1 流量、性能的实时分析 190 11.4.2 流量、性能的统计分析 192 11.4.3 业务关联分析 193 11.4.4 离线报表分析 195 11.5 本章小结 199 第12章 系统资源分析平台 200 12.1 业务背景 200 12.1.1 业务介绍 201 12.1.2 实现目标 201 12.2 应用架构 201 12.2.1 总体架构 202 12.2.2 模块架构 202 12.3 代码实现 203 12.3.1 Kafka集群 203 12.3.2 数据采集 207 12.3.3 离线数据处理 207 12.3.4 数据表现 207 12.4 结果验证 213 12.5 本章小结 214 第13章 在Spark上训练LR模型 215 13.1 逻辑回归简介 215 13.2 数据格式 216 13.3 MLlib中LR模型源码介绍 217 13.3.1 逻辑回归分类器 217 13.3.2 优化方法 219 13.3.3 算法效果评估 221 13.4 实现案例 223 13.4.1 训练模型 223 13.4.2 计算AUC 223 13.5 本章小结 224 第14章 获取二级邻居关系图 225 14.1 理解PageRank 225 14.1.1 初步理解PageRank 225 14.1.2 深入理解PageRank 227 14.2 PageRank算法基于Spark的实现 228 14.3 基于PageRank的二级邻居获取 232 14.3.1 系统设计 232 14.3.2 系统实现 232 14.3.3 代码提交命令 235 14.4 本章小结 236 高 级 篇 第15章 调度管理 238 15.1 调度概述 238 15.1.1 应用程序间的调度 239 15.1.2 应用程序中的调度 241 15.2 调度器 242 15.2.1 调度池 243 15.2.2 Job调度流程 243 15.2.3 调度模块 245 15.2.4 Job的生与死 249 15.3 本章小结 253 第16章 存储管理 254 16.1 硬件环境 254 16.1.1 存储系统 254 16.1.2 本地磁盘 255 16.1.3 内存 255 16.1.4 网络和CPU 255 16.2 Storage模块 256 16.2.1 通信层 256 16.2.2 存储层 258 16.3 Shuff?le数据持久化 261 16.4 本章小结 263 第17章 监控管理 264 17.1 Web界面 264 17.2 Spark UI历史监控 266 17.2.1 使用spark-server的原因 266 17.2.2 配置spark-server 266 17.3 监控工具 269 17.3.1 Metrics工具 269 17.3.2 其他工具 271 17.4 本章小结 272 第18章 性能调优 273 18.1 文件的优化 273 18.1.1 输入采用大文件 273 18.1.2 lzo压缩处理 274 18.1.3 Cache压缩 275 18.2 序列化数据 277 18.3 缓存 278 18.4 共享变量 278 18.4.1 广播变量 279 18.4.2 累加器 279 18.5 流水线优化 280 18.6 本章小结 280 扩 展 篇 第19章 Spark-jobserver实践 282 19.1 Spark-jobserver是什么 282 19.2 编译、部署及体验 283 19.2.1 编译及部署 283 19.2.2 体验 286 19.3 Spark-jobserver程序实战 288 19.3.1 创建步骤 288 19.3.2 一些常见的问题 289 19.4 使用场景:用户属性分布计算 289 19.4.1 项目需求 290 19.4.2 计算架构 290 19.4.3 使用NamedRDD 291 19.5 本章小结 291 第20章 Spark Tachyon实战 292 20.1 Tachyon文件系统 292 20.1.1 文件系统概述 293 20.1.2 HDFS和Tachyon 294 20.1.3 Tachyon设计原理 294 20.1.4 Tachyon特性 295 20.2 Tachyon入门 295 20.2.1 Tachyon 部署 295 20.2.2 Tachyon API 297 20.2.3 在Spark上使用Tachyon 298 20.3 容错机制 299 20.4 本章小结 300
同类热门
类似软件
DesignSpark Electrical(电气CAD工具)1.13G172人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M270人在用 Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细
查看apache spark 源码剖析30.99M160人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看spark高级数据分析5.79M288人在用 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看DesignSparkPCB印刷电路板工具137.49M232人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看designspark mechanical官方版1.13G2481人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看热门标签
网友评论0人参与,0条评论
最新排行
鬼灭之刃漫画全集免费阅读版2.2Gpdf版 相信很多喜欢看漫画的漫迷肯定知道最近有一款特别火爆的漫画很受大家喜爱,那就是鬼灭之刃漫画,不过需要付费充值才能观看。因此小编为大家带来了鬼灭之刃漫画全集免费阅读版,它是属于pdf版格式的,用户下载即可浏览阅读相关漫画剧情,这本漫画在b站上可谓是有着
查看大话数据结构溢彩加强版pdf40.92M清晰扫描完整版 《大话数据结构》是一本非常适合自学的数据结构书籍,由程杰作者精心编写,与一般的教材不同,这本书主要根据教育部关于计算机专业数据结构课程大纲的要求进行了略微的增减,以更好地适应读者的需求。 在书中,作者以一个计算机教师教学为场景,生动地讲
查看不上班的23种活法pdf版6.47M 不上班的23种活法是一款介绍各种各样的自由职业的图书,作者唐华山,由北京出版社发行。全书为广大网友提供23种活法供参考,选取了自由职业中最具普遍意义的23个方向,并对其进行了具体分析和阐述,包括职业综述、必备素养、现身说法、经验分享、测试、相关链接
查看让云落地云计算服务模式pdf82.95M高清扫描版 让云落地 云计算服务模式(SaaS、PaaS和IaaS)设计决策是一本云计算服务模式设计书籍,由迈克尔·J·凯维斯编著,陈志伟、辛敏共同翻译,作者在本书中就如何有效利用云计算为你的企业服务方面,提供了不少切实中肯的建议,这与别的书有什么不同?不同在
查看电气工程师手册电子版26.89Mpdf高清版如何更好的学习电气工程呢?小编这里带来了电气工程师手册pdf下载,高清版,是一款专业的电气工程师电子图书,全面系统地介绍了电气工程各专业基本、常用以及全新的技术内容,既有理论性,又有实践性,适合从事电气工作的技术人员使用,也可供其他有关专业人员和高等院校
查看android开发进阶 从小工到专家104.73M何红辉 pdf扫描版android开发进阶 从小工到专家是一本Android开发进阶书籍,由Android工程师何红辉编著。本书结合作者多年开发经验的总结,把作者以前开发走过的坑和陷阱讲解出来,看了以后可以少走很多弯路,提升自己的开发能力很快,抓住开发的痛点和需求讲解内容,
查看笨办法学python第三版873Kpdf扫描版 笨办法学python第三版是目前最优秀的一本Python学习系统,由美国程序员Zed A.Shaw编著,本书结构非常简单,就是52个习题,用户通过完成52个精心设计的习题来学会Python。阅读这些习题,把习题的代码精确地写出来,修正你的错误,观察
查看tomcat权威指南第二版3.36M布里泰恩pdf高清电子书tomcat权威指南第二版是由美国软件架构师布里泰恩和达尔文先生合作编写的,是一本Tomcat实用使用教程,作者详细的介绍了Apache.Tomcat这一广受欢迎的开源servlet、JSP容器和高性能的web.server,提供了关于servlet容器
查看一个app的诞生:从零开始设计你的手机应用75.48MCarol 炒炒 pdf扫描版一个app的诞生:从零开始设计你的手机应用是一本APP开发流程详解书籍,由Carol 炒炒和刘焯琛共同编著。本书主要呈现的就是一个APP从无到有的过程,从市场调研、竞品分析开始,到设计规范、交互设计、视觉设计、流程管理、开发实现、服务设计、跨界融合,最后
查看OpenGL ES 3.x 游戏开发(下卷)15.01M吴亚峰pdf扫描版OpenGL ES 3.x 游戏开发(下卷)是一本基于OpenGL ES 3.x软件而编写的游戏开发设计指导书籍,由吴亚峰编著。全书组织上本着“起点低、终点高”的原则,内容涵盖了从学习OpenGL ES 3.x必知必会的基础知识到OpenGL ES 3.
查看汇编语言的编程艺术第2版pdf187.05M高清电子书汇编语言的编程艺术第2版是目前讲解汇编语言最经典的图书,作者海德(Randall Hyde),马跃,包战翻译,它详细的介绍了编辑、编译和运行HLA程序,声明和使用常量、标量变量、指针、数组、结构、联合和命名空间,转换算术表达式,转换高级控制结构等内容。同
查看