大小:47.54M
更新时间:23-09-07
系统:Pc
全书结构针对学习曲线进行了优化,由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。
基础篇:Hadoop基础 第1章 绪论 1.1 Hadoop和云计算 1.1.1 Hadoop的电梯演讲 1.1.2 Hadoop生态圈 1.1.3 云计算的定义 1.1.4 云计算的类型 1.1.5 Hadoop和云计算 1.2 Hadoop和大数据 1.2.1 大数据的定义 1.2.2 大数据的结构类型 1.2.3 大数据行业应用实例 1.2.4 Hadoop和大数据 1.2.5 其他大数据处理平台 1.3 数据挖掘和商业智能 1.3.1 数据挖掘的定义 1.3.2 数据仓库 1.3.3 操作数据库系统和数据仓库系统的区别 1.3.4 为什么需要分离的数据仓库 1.3.5 商业智能 1.3.6 大数据时代的商业智能 第2章 环境准备 2.1 Hadoop的发行版本选择 2.1.1 Apache Hadoop 2.1.2 CDH 2.1.3 Hadoop的版本 2.1.4 如何选择Hadoop的版本 2.2 Hadoop架构 2.2.1 Hadoop HDFS架构 2.2.2 Hadoop MapReduce架构 2.2.3 Hadoop架构 2.3 安装Hadoop 2.3.1 安装运行环境 2.3.2 修改主机名和用户名 2.3.3 配置静态IP地址 2.3.4 配置SSH无密码连接 2.3.5 安装JDK 2.3.6 配置Hadoop 2.3.7 格式化HDFS 2.3.8 启动Hadoop并验证安装 2.4 安装Hive 2.4.1 安装元数据库 2.4.2 修改Hive配置文件 2.4.3 验证安装 2.5 安装Sqoop 2.6 Eclipse Hadoop插件的安装和使用 2.6.1 安装并配置Eclipse Hadoop插件 2.6.2 Eclipse插件的使用 第3章 Hadoop的基石:HDFS 3.1 认识HDFS 3.1.1 HDFS的设计理念 3.1.2 HDFS的架构 3.1.3 HDFS容错 3.2 HDFS读取文件和写入文件 3.2.1 块的分布 3.2.2 数据读取 3.2.3 写入数据 3.2.4 数据完整性 3.3 如何访问HDFS 3.3.1 命令行接口 3.3.2 Java API 3.3.3 其他常用的接口 3.3.4 Web UI 第4章 分而治之的智慧:MapReduce 4.1 认识MapReduce 4.1.1 MapReduce的编程思想 4.1.2 MapReduce运行环境 4.1.3 MapReduce作业和任务 4.1.4 MapReduce的计算资源划分 4.1.5 MapReduce的局限性 4.2 Hello WordCount 4.2.1 WordCount的设计思路 4.2.2 编写WordCount 4.2.3 运行程序 4.2.4 还能更快吗 4.3 MapReduce的过程 4.3.1 从输入到输出 4.3.2 input 4.3.3 map及中间结果的输出 4.3.4 shuffle 4.3.5 reduce及最后结果的输出 4.3.6 sort 4.3.7 作业的进度组成 4.4 MapReduce的工作机制 4.4.1 作业提交 4.4.2 作业初始化 4.4.3 任务分配 4.4.4 任务执行 4.4.5 任务完成 4.4.6 推测执行 4.4.7 MapReduce容错 4.5 MapReduce编程 4.5.1 Writable类 4.5.2 编写Writable类 4.5.3 编写Mapper类 4.5.4 编写Reducer类 4.5.5 控制shuffle 4.5.6 控制sort 4.5.7 编写main函数 4.6 MapReduce编程实例:连接 4.6.1 设计思路 4.6.2 编写Mapper类 4.6.3 编写Reducer类 4.6.4 编写main函数 4.7 MapReduce编程实例:二次排序 4.7.1 设计思路 4.7.2 编写Mapper类 4.7.3 编写Partitioner类 4.7.4 编写SortComparator类 4.7.5 编写Reducer类 4.7.6 编写main函数 4.8 MapReduce编程实例:全排序 4.8.1 设计思路 4.8.2 编写代码 第5章 SQL on Hadoop:Hive 5.1 认识Hive 5.1.1 从MapReduce到SQL 5.1.2 Hive架构 5.1.3 Hive与关系型数据库的区别 5.1.4 Hive命令的使用 5.2 数据类型和存储格式 5.2.1 基本数据类型 5.2.2 复杂数据类型 5.2.3 存储格式 5.2.4 数据格式 5.3 HQL:数据定义 5.3.1 Hive中的数据库 5.3.2 Hive中的表 5.3.3 创建表 5.3.4 管理表 5.3.5 外部表 5.3.6 分区表 5.3.7 删除表 5.3.8 修改表 5.4 HQL:数据操作 5.4.1 装载数据 5.4.2 通过查询语句向表中插入数据 5.4.3 利用动态分区向表中插入数据 5.4.4 通过CTAS加载数据 5.4.5 导出数据 5.5 HQL:数据查询 5.5.1 SELECT…FROM语句 5.5.2 WHERE语句 5.5.3 GROUP BY和HAVING语句 5.5.4JOIN语句 5.5.5 ORDER BY和SORT BY语句 5.5.6 DISTRIBUTE BY和SORTBY语句 5.5.7 CLUSTER BY 5.5.8 分桶和抽样 5.5.9 UNION ALL 5.6 Hive函数 5.6.1 标准函数 5.6.2 聚合函数 5.6.3 表生成函数 5.7 Hive用户自定义函数 5.7.1 UDF 5.7.2 UDAF 5.7.3 UDTF 5.7.4 运行 第6章 SQL to Hadoop : Sqoop 6.1 一个Sqoop示例 6.2 导入过程 6.3 导出过程 6.4 Sqoop的使用 6.4.1 codegen 6.4.2 create-hive-table 6.4.3 eval 6.4.4 export 6.4.5 help 6.4.6 import 6.4.7 import-all-tables 6.4.8 job 6.4.9 list-databases 6.4.10 list-tables 6.4.11 merge 6.4.12 metastore 6.4.13 version 第7章 Hadoop性能调优和运维 7.1 Hadoop客户端 7.2 Hadoop性能调优 7.2.1 选择合适的硬件 7.2.2 操作系统调优 7.2.3 JVM调优 7.2.4 Hadoop参数调优7.3 Hive性能调优 7.3.1 JOIN优化 7.3.2 Reducer的数量 7.3.3 列裁剪 7.3.4 分区裁剪 7.3.5 GROUP BY优化 7.3.6 合并小文件 7.3.7 MULTI-GROUP BY和MULTI-INSERT
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
应用信息
同类热门
类似软件
hadoop核心技术pdf44.83M202人在用Hadoop核心技术是由百度Hadoop技术专家翟周伟撰写的一本Hadoop技术学习书籍,全书结合了百度大数据实践,直击企业痛点,主要对Hadoop的基本原理和优化配置由浅入深进行了详细分析,最后通过实战案例进一步讲解分析。本书对HDFS、MapRedu
查看
hadoop实战第2版179.03M295人在用hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书,作者陆嘉恒,已经扫描为pdf高清版电子图书,附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评,第2版基于hadoop及其相关技术最新版本撰写,从多角度做了全面的
查看
hadoop大数据分析与挖掘实战38.23M302人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看
深入理解hadoop 原书第2版50.83M335人在用深入理解hadoop 原书第2版是一本Hadoop系统使用掌握指导书籍,由世界级大数据专家萨米尔.瓦德卡和马杜.西德林埃共同编著。全书深入剖析了Hadoop系统实现原理及其工程实践应用,里面包含了大量真实案例和数据,从Hadoops各组件的运行机理,深入
查看热门标签
网友评论0人参与,0条评论
最新排行
深入浅出mysql第二版 pdf180.33M扫描版 深入浅出mysql数据库开发优化与管理维护(第2版),简称为深入浅出mysql第二版,是一本MySQL数据库使用指导指南,由唐汉明,翟振兴,关宝军三人共同编著。本书内容丰富翔实,从开发、管理和管理维护3个角度逐步深入,全面介绍MySQL数据库技术,
查看
全唐诗检索工具官方版8.94Mv1.0 全唐诗检索工具官方版是由网友采用Python开发的一款唐诗查询工具,绿色小巧,安全无毒。该软件导入了《全唐诗》书籍中的全部诗词内容,非常丰富,同时支持用户输入诗人名、诗名、部分诗句等内容来进行快速查找唐诗,这样就能为研究者猛提供了莫大的方便。不过需
查看
成功之路Oracle 11g学习笔记115.25M赵振平pdf扫描版 成功之路Oracle 11g学习笔记是一本Oracle 11g技术学习指南,由赵振平编著。本书内容丰富翔实,主要为刚刚开始学习接触Oracle的新手们准备,在前面的章节主要为读者介绍了Oracle安装、干净卸载Oracle、数据库启动关闭、Orac
查看
精通spring 4.x企业应用开发实战178.94M陈雄华pdf扫描版 精通spring 4.x企业应用开发实战是一本Spring技术开发实战手册,由Spring专家陈雄华编著。本书内容丰富,深入浅出,作者对Spring的源码进行了彻底分析,深刻揭示了Spring框架的技术内幕,让读者知其然,更知其所以然。Spring
查看
电气工程师手册电子版26.89Mpdf高清版 如何更好的学习电气工程呢?小编这里带来了电气工程师手册pdf下载,高清版,是一款专业的电气工程师电子图书,全面系统地介绍了电气工程各专业基本、常用以及全新的技术内容,既有理论性,又有实践性,适合从事电气工作的技术人员使用,也可供其他有关专业人员和高
查看
Android创意实例详解250.38M韩迪pdf扫描版 Android创意实例详解是一本安卓通讯应用开发书籍,由韩迪编著。本书的每个章节都遵循技术研发知识体系的严密性,在容易产生错误、不易理解的环节配以详细的开发截图,将重要的知识点和开发技巧以“知识点”、“注意”、“小技巧”等活泼形式呈现给读者,保证不
查看
看盘细节潘伟君pdf版19.88M看盘细节pdf版主要的切入点是分析即时看盘细节,适合有一定经验和阅历的投资朋友观看。当然如果您刚刚进入市场,愿意静下心来在这市场上成就自己成功梦想,那么这本书绝对会是你的好帮手。看盘细节潘伟君pdf版提供了一些推理式的思路,用于解释盘中即时交易的细节。而
查看
head first ajax 中文版78.43Mpdf扫描版head first ajax 中文版是一本web Ajax框架详解,由美国程序员Rebecca M.Riordan编著。本书采用了重复手法写作,会用不同方式,采用不同类型的媒体,运用多种思维手段来介绍同一个东西,目的是让有关内容更容易储存在你的大脑中,
查看
linux高级程序设计36.39M陈健 pdf扫描版linux高级程序设计是一本适合Linux初学者的指南,由美国Linux内核工程师美斯特和布卢两人共同编著,陈健等人翻译。本书涉及面非常广,从基本工具和技术的使用到lamp技术的介绍,从系统底层内核的剖析到网络、数据库编程,从gnome桌面环境到图形、音
查看
SEO实战指导知识策略案例42.68M扫描版 seo又叫做搜索引擎优化,由搜索引擎和优化两个部分组成,其中搜索引擎是平台,而优化是动作。如何更好的学习seo呢?这里小编带来了SEO实战指导知识策略案例,这是一本搜索引擎优化(SEO)百科全书,由藏锋者、郝永清编著。本书采用案例引导加实际操作详细
查看