大小:50.83M
更新时间:23-09-03
系统:Pc

译者序 作者简介 前言 第1章为什么会有大数据1 1.1什么是大数据1 1.2大数据技术背后的核心思想2 1.2.1把数据分发到多个节点2 1.2.2把计算逻辑移动到数据附近3 1.2.3计算节点进行本地数据处理3 1.2.4优选顺序读,次之随机读4 1.2.5一个例子4 1.3大数据的编程模型5 1.3.1大规模并行处理数据库系统5 1.3.2内存数据库系统6 1.3.3MapReduce系统6 1.3.4整体同步并行系统8 1.4大数据和事务性系统8 1.5我们能处理多大的数据量9 1.5.1一个计算密集型的例子10 1.5.2Amdhal定律10 1.6大数据商业用例11 1.7本章小结12 第2章Hadoop中的概念13 2.1Hadoop简介13 2.2MapReduce编程模型简介15 2.3Hadoop系统的组成19 2.3.1Hadoop 分布式文件系统20 2.3.2辅助名称节点25 2.3.3任务跟踪器26 2.3.4作业跟踪器26 2.4Hadoop 2.027 2.4.1容器29 2.4.2节点管理器29 2.4.3资源管理器30 2.4.4应用程序管理器30 2.4.5分步详解YARN请求31 2.5HDFS 的高可用性33 2.6本章小结33 第3章初识Hadoop框架34 3.1安装类型34 3.1.1单机模式35 3.1.2伪分布式集群模式35 3.1.3多节点集群安装模式35 3.1.4基于Amazon EMR预安装模式35 3.2使用Cloudera虚拟机搭建开发环境36 3.3一个MapReduce程序的组成37 3.4第一个Hadoop程序38 3.4.1以本地模式运行程序的必要条件39 3.4.2使用旧API编写的单词计数程序39 3.4.3构建程序42 3.4.4在集群模式下运行单词计数程序42 3.4.5使用新API编写的单词计数程序43 3.4.6构建程序44 3.4.7在集群模式下运行单词计数程序45 3.5Hadoop作业中的第三方函数库45 3.6本章小结50 第4章Hadoop系统管理51 4.1Hadoop的配置文件51 4.2配置Hadoop守护进程52 4.3Hadoop配置文件的优先级53 4.4深入探究Hadoop配置文件54 4.4.1core-site.xml54 4.4.2hdfs-*.xml55 4.4.3mapred-site.xml56 4.4.4yarn-site.xml58 4.4.5YARN中的内存分配60 4.5调度器61 4.5.1计算能力调度器62 4.5.2公平调度器65 4.5.3公平调度器配置65 4.5.4 yarn-site.xml 配置66 4.5.5策略文件的格式和配置67 4.5.6按照drf策略来确定优势资源的分配68 4.6从属文件69 4.7机架感知69 4.8 集群管理工具71 4.8.1检查HDFS71 4.8.2 HDFS管理命令行73 4.8.3 均衡HDFS上的数据分布75 4.8.4从HDFS中复制海量数据76 4.9本章小结76 第5章MapReduce开发基础78 5.1 Hadoop和数据处理78 5.2 航空公司数据集介绍79 5.2.1 准备开发环境80 5.2.2 准备Hadoop系统81 5.3 MapReduce编程模式81 5.3.1 只有Map阶段的作业(SELECT和WHERE查询)82 5.3.2 问题定义—SELECT子句82 5.3.3 问题定义—WHERE子句90 5.3.4 Map和Reduce作业(聚合查询)93 5.3.5 问题定义—GROUP BY和SUM子句93 5.3.6 应用Combiner提高Aggregation性能99 5.3.7 问题定义—优化后的Aggregators99 5.3.8 Partitioner的作用104 5.3.9 问题定义—按月分离航空数据105 5.4 综合分析108 5.5 本章小结110 第6章MapReduce开发进阶111 6.1 MapReduce编程模式111 6.2 Hadoop I/O 介绍111 6.3 问题定义—排序114 6.3.1 主要挑战:全排序115 6.3.2 在Cluster中运行Sorting作业125 6.3.3 仅根据Writable键排序125 6.3.4 根据排序回顾Hadoop的关键特性128 6.4 问题定义—分析连续的记录128 6.4.1 支持二次排序的重要组件129 6.4.2 在没有Grouping Comparator的情况下实现Secondary Sort136 6.4.3 在Cluster中运行SecondarySort作业137 6.4.4 利用Secondary Sort回顾Hadoop的关键特性137 6.5 问题定义—使用MapReducer进行连接138 6.5.1 处理多输入:Multiple-Inputs 类138 6.5.2 具备多个输入的Mapper类139 6.5.3 自定义 Partitioner: Carrier-CodeBasedPartioner141 6.5.4 在Reducer中实现连接141 6.5.5 在集群中运行MapReduce连接作业143 6.5.6 探讨与MapReduce相关的Hadoop主要特性144 6.6 问题定义—使用Map-Only 作业进行连接144 6.6.1 基于DistributeCache的解决方案145 6.6.2 在集群中运行Map-Only的连接作业147 6.6.3 总结探讨Map-Only连接时的Hadoop关键特性149 6.7 在MR作业中保存结果到多输出文件149 6.8 使用计数器收集统计数据151 6.9 本章小结153 第7章 Hadoop输入/输出155 7.1 压缩方式155 7.1.1 压缩内容的选择156 7.1.2 各种压缩方式157 7.1.3 配置压缩方式158 7.2 Hadoop的I/O处理过程内部159 7.2.1 Inputformat159 7.2.2 OutputFormat161 7.2.3 自定义OutputFormat:将文本转换成XML161 7.2.4 自定义 InputFormat:使用自定义的XML文件165 7.3 Hadoop文件173 7.3.1 SequenceFile173 7.3.2 MapFiles178 7.3.3 Avro Files180 7.4 本章小结185 第8章 测试Hadoop程序186 8.1 回顾一下单词统计的程序186 8.2 MRUnit概述188 8.2.1 安装MRUnit188 8.2.2 MRUnit 核心类188 8.2.3 编写一个MRUnit测试用例189 8.2.4 测试计数器191 8.2.5 MRUnit的特性194 8.2.6 MRUnit的局限性194 8.3 用LocalJobRunner测试195 8.3.1 setUp( )方法196 8.3.2 LocalJobRunner的局限性197 8.4 用MiniMRCluster测试198 8.4.1 配置开发环境198 8.4.2 MiniMRCluster例子199 8.4.3 MiniMRCluster的局限性201 8.5 对访问网络资源的MR作业进行测试202 8.6 本章小结202 第9章Hadoop的监控203 9.1 在Hadoop MapReduce Jobs中写日志消息203 9.2 在Hadoop MapReduce Jobs中查看日志消息206 9.3 在Hadoop 2.x中使用日志管理208 9.3.1 Hadoop 2.x中的日志存储208 9.3.2 日志管理提升210 9.3.3 使用基于Web的界面查看日志210 9.3.4 命令行界面211 9.3.5 日志的保存211 9.4 Hadoop集群性能监控211 9.5 使用YARN REST API212 9.6 使用供应商工具管理Hadoop集群213 9.7 本章小结214 第10章使用Hadoop构建数据仓库215 10.1 Apache Hive215 10.1.1 安装Hive216 10.1.2 Hive的架构217 10.1.3 元数据存储217 10.1.4 HiveQL编译基础217 10.1.5 Hive使用的概念218 10.1.6 HiveQL编译细节222 10.1.7 数据定义语言226 10.1.8 数据操作语言226 10.1.9 扩展接口227 10.1.10 Hive脚本229 10.1.11 性能表现229 10.1.12 整合MapReduce230 10.1.13 创建分区230 10.1.14 用户定义函数232 10.2 Impala234 10.2.1 Impala架构234 10.2.2 Impala特性235 10.2.3 Impala的局限235 10.3 Shark235 10.4 本章小结237 第11章使用Pig进行数据处理238 11.1 Pig简介238 11.2 运行Pig240 11.2.1 在Grunt Shell中执行241 11.2.2 执行Pig脚本241 11.2.3 嵌入式Java程序242 11.3 Pig Latin243 11.3.1 Pig脚本中的注释243 11.3.2 Pig语句的执行243 11.3.3 Pig命令244 11.4 UDF249 11.4.1 Mapper中的Eval函数调用249 11.4.2 Reducer中的Eval函数调用250 11.4.3 编写并使用自定义Filter-Func256 11.5 Pig与Hive对比258 11.6 Crunch API259 11.6.1 Crunch与Pig的区别259 11.6.2 Crunch管道的例子260 11.7 本章小结265 第12章HCatalog和企业级Hadoop266 12.1 HCataolg和企业级数据仓库用户266 12.2 HCatalog技术背景简介 267 12.2.1 HCatalog命令行接口269 12.2.2 WebHCat269 12.2.3 HCatalog的MapReduce接口270 12.2.4 HCatalog的Pig接口273 12.2.5 HCatalog通知接口274 12.3 HCatalog的安全和认证机制274 12.4 完整的解决方案275 12.5 本章小结275 第13章使用Hadoop分析日志277 13.1 日志文件分析应用277 13.1.1 网络分析277 13.1.2 安全规范与法务278 13.1.3 监控和报警279 13.1.4 物联网279 13.2 分析步骤280 13.2.1 载入280 13.2.2 提取280 13.2.3 可视化281 13.3 Apache Flume281 13.4 Netflix Suro283 13.5 云解决方案285 13.6 本章小结285 第14章使用HBase构建实时系统286 14.1 HBase是什么286 14.2 典型的HBase用例场景287 14.3 HBase数据模型288 14.3.1 HBase逻辑视图和客户端视图288 14.3.2 HBase与RDBMS的区别289 14.3.3 HBase表290 14.3.4 HBase单元格290 14.3.5 HBase列簇290 14.4 HBase命令和API291 14.4.1 获取命令列表:帮助命令291 14.4.2 创建表:create命令292 14.4.3 向表中加入行:put命令293 14.4.4 从表中检索行:get命令293 14.4.5 读取多行:scan命令293 14.4.6 统计表中的行数:count命令293 14.4.7 删除行:delete命令294 14.4.8 清空表:truncate命令294 14.4.9 删除表:drop命令294 14.4.10 更换表:alter命令294 14.5 HBase架构295 14.5.1 HBase组件295 14.5.2 HBase中的压缩与分区302 14.5.3 压缩303 14.6 HBase配置概览304 14.7 HBase应用程序设计305 14.7.1 长表vs宽表vs窄表305 14.7.2 行键设计306 14.8 使用Java API操作HBase307 14.8.1 一切都是字节307 14.8.2 创建HBase表307 14.8.3 使用HBaseAdmin类管理HBase308 14.8.4 使用Java API访问数据308 14.9 HBase与MapReduce集成312 14.9.1 使用MapReduce任务读取HBase表312 14.9.2 HBase和MapReduce集群315 14.10 本章小结316 第15章Hadoop与数据科学317 15.1 Hadoop中的数据科学方法318 15.2 Apache Hama318 15.2.1 整体同步并行计算模型318 15.2.2 Hama Hello World!319 15.2.3 蒙特卡洛方法321 15.2.4 K-Means聚类324 15.3 Apache Spark327 15.3.1 弹性分布式数据集(RDD)327 15.3.2 Spark与蒙特卡洛算法328 15.3.3 Spark与KMeans聚类330 15.4 RHadoop332 15.5 本章小结333 第16章Hadoop与云计算334 16.1 经济性334 16.1.1 自有集群335 16.1.2 基于云平台的集群335 16.1.3 弹性336 16.1.4 按需付费336 16.1.5 竞价336 16.1.6 混合集群336 16.2 后勤保障337 16.2.1 导入/导出337 16.2.2 数据保存337 16.3 安全性337 16.4 云端应用模型338 16.5 云服务商339 16.5.1 亚马逊网络服务(AWS)339 16.5.2 谷歌云平台341 16.5.3 微软Azure342 16.5.4 选择云服务商342 16.6 案例学习: AWS342 16.6.1 EMR343 16.6.2 EC2345 16.7 本章小结348 第17章构建YARN应用程序349 17.1 YARN:通用分布式系统349 17.2 YARN:快速浏览351 17.3 创建YARN应用程序353 17.4 DownloadService.java类354 17.5 Client.java类356 17.5.1 从客户端启动应用管理器的步骤356 17.5.2 创建YarnClient357 17.5.3 配置应用程序357 17.5.4 启动应用管理器360 17.5.5 监控应用360 17.6 ApplicationMaster.java362 17.6.1 启动工作任务的步骤363 17.6.2 初始化应用管理器协议和容器管理协议364 17.6.3 在资源管理器中注册应用管理器364 17.6.4 配置容器参数364 17.6.5 向资源管理器请求容器364 17.6.6 在任务节点上启动容器364 17.6.7 等待容器结束工作任务365 17.6.8 在资源管理器中注销应用管理器365 17.7 运行应用管理器367 17.7.1 在非托管模式中启动应用管理器367 17.7.2 在托管模式中启动应用管理器367 17.8 本章小结367 附录A安装Hadoop369 附录B使用Maven和Eclipse378 附录CApache Ambari383
应用信息
同类热门
类似软件
hadoop核心技术pdf44.83M202人在用Hadoop核心技术是由百度Hadoop技术专家翟周伟撰写的一本Hadoop技术学习书籍,全书结合了百度大数据实践,直击企业痛点,主要对Hadoop的基本原理和优化配置由浅入深进行了详细分析,最后通过实战案例进一步讲解分析。本书对HDFS、MapRedu
查看
Hadoop海量数据处理:技术详解与项目实战47.54M245人在用Hadoop海量数据处理:技术详解与项目实战是一本Hadoop数据处理技术指导手册,由范东来编著。本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深入探讨了Hadoop的运维和调优
查看
hadoop实战第2版179.03M295人在用hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书,作者陆嘉恒,已经扫描为pdf高清版电子图书,附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评,第2版基于hadoop及其相关技术最新版本撰写,从多角度做了全面的
查看
hadoop大数据分析与挖掘实战38.23M302人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看热门标签
网友评论0人参与,0条评论
最新排行
12j201平屋面建筑构造图集6.71Mpdf电子版 12j201图集是中华人民共和国住房和城乡建设部发行一本国家建筑标准设计图集,全称叫做12j201平屋面建筑构造图集。自2012日起实施,原《室外工程)) (02J003) 《平屋面建筑构造(一))) (含 2003 年局部修改版) [99J201
查看
php5与mysql5从入门到精通61.38M卫喆pdf扫描版 php5与mysql5从入门到精通是一本PHP5与MySQL的入门书籍,本书由卫喆和陈争航两人共同编著。全书内容精简而翔实,对使用PHP5与MySQL5进行Web应用开发所必须掌握的基础和核心技术进行了详细介绍,包括服务器环境的构建,PHP基本语法
查看
读者文摘2016年合集包20.4MPDF高清版 读者2016年合集是将2016年全年的期刊进行打包而成的一个合集包,包括读者第1期到第24期,全部为pdf高清格式。读者在刊物内容及形式方面与时俱进,追求高品位、高质量,力求精品,并以其形式和内容的丰富性及多样性,赢得了各个年龄段和不同阶层读者的喜
查看
精通Java Web整合开发(第二版)225.47M刘斌 pdf扫描版 精通Java Web整合开发(第二版)是一本Java Web技术整合开发书籍,由刘斌编著。本书为轻量级Java EE应用开发人员提供一整套实用的主流开发技术,融入了作者多年的Java EE应用开发经验。任何知识点均配以实例进行讲解,每个实例提供同步
查看
opencv图像处理编程实例29.2M朱伟pdf扫描版opencv图像处理编程实例是一本OpenCV图像处理编程手册,由朱伟等人编著。本书将理论与实际案例相结合,始终秉承“学以致用”的理念,提供多个颇具实用性和前沿性的实例,用详细的代码验证实现,通过大量的例子让读者边学边练,注重给予读者一定的启发和引导。作
查看
APP蓝图:Axure RP7.0移动互联网产品原型设计40.95M吕皓月pdf扫描版 建模又常被称为画线框图、mockup、原型图、demo,其主要用途是在正式进行设计和开发之前,通过一个逼真的效果图来模拟最终的视觉效果和交互效果。但如何才能更好的学习呢?小编这里为广大网友带来了APP蓝图:Axure RP7.0移动互联网产品原型设
查看
seo网络赢利的秘密pdf32.33M高清电子版 互联网seo是新兴的职业,如何更好入门呢,这是小编带来了seo网络赢利的秘密pdf下载,这是号称“seo第一人”王通先生的力作,全称为seo网络赢利的秘密 我是怎样通过网络挣到100万的,清华大学出版社出版,详细的介绍了网络seo方法,帮助用户和企
查看
液晶显示器维修标准教程125.56M田佰涛pdf扫描版 液晶显示器维修标准教程是一本液晶显示器的维修教学指导书籍,由田佰涛和邵喜强两人共同编著。全书内容丰富、覆盖面广泛,从12英寸液晶显示器到目前最先进的22英寸液晶显示器和电路板到液晶屏的维修均有讲解,并且书中还配有大量典型的故障实例,通过详细的分析,
查看
性能测试从零开始 pdf76.5M柳胜pdf扫描版 性能测试从零开始 loadrunner入门是一本LoadRunner入门学习书籍,由国内首批以软件测试方法与技术为研究课题毕业的硕士研究生柳胜编著。本书理论系统完整,逻辑清楚,丝丝入扣,从性能测试的目的到实现途径,从性能测试流程到实践应用,作者给出
查看
代码整洁之道高清pdf扫描版31.25M马丁 代码整洁之道是一本软件工程大师经典力作,由马丁编著,互联网产品与运营专家韩磊献译,通过阅读本书,用户可以学到好代码和糟糕的代码之间的区别;如何编写好代码,如何将糟糕的代码转化为好代码;如何创建好名称、好函数、好对象和好类;如何格式化代码以实现其可读
查看
HP WEB JetAdmin 10.2参考手册7.39Mpdf版HP WEB JetAdmin 10.2参考手册pdf版电子书,它提供简单而详尽的方式,主动地管理网络周边设备,并为打印效率做最佳化。你可以将周边装置设定群组,甚至可以加上地图,让人了解每台机器的位置。如果您还不了解HP WEB JetAdmin或在使用
查看
python数据挖掘入门与实践8.03M罗伯特·莱顿(RobertLayton)扫描版 python数据挖掘入门与实践是一本Python入门数据挖掘技术指南,由澳大利亚计算机科学博士罗伯特·莱顿(RobertLayton)编著。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实
查看