Hadoop海量数据处理:技术详解与项目实战下载范东来pdf扫描版

详情
相关
评论

Hadoop海量数据处理：技术详解与项目实战是一本Hadoop数据处理技术指导手册，由范东来编著。本书主要介绍Hadoop技术的相关知识，不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop，还深入探讨了Hadoop的运维和调优，并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现，全书结构针对学习曲线进行了优化，从浅至深，从理论基础到项目实战，适合Hadoop的初学者和进阶者下载阅读。

内容介绍

《Hadoop海量数据处理：技术详解与项目实战》介绍了Hadoop技术的相关知识，并将理论知识与实际项目相结合。全书共分为三个部分：基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop，并深入探讨了Hadoop的运维和调优；应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现；结束篇对全书进行总结，并对未来的技术发展做了展望。

全书结构针对学习曲线进行了优化，由浅至深，从理论基础到项目实战，适合Hadoop的初学者阅读，也适合作为高等院校相关课程的教学参考书。

章节目录

基础篇：Hadoop基础
第1章 绪论
1.1 Hadoop和云计算
1.1.1 Hadoop的电梯演讲
1.1.2 Hadoop生态圈
1.1.3 云计算的定义
1.1.4 云计算的类型
1.1.5 Hadoop和云计算
1.2 Hadoop和大数据
1.2.1 大数据的定义
1.2.2 大数据的结构类型
1.2.3 大数据行业应用实例
1.2.4 Hadoop和大数据
1.2.5 其他大数据处理平台
1.3 数据挖掘和商业智能
1.3.1 数据挖掘的定义
1.3.2 数据仓库
1.3.3 操作数据库系统和数据仓库系统的区别
1.3.4 为什么需要分离的数据仓库
1.3.5 商业智能
1.3.6 大数据时代的商业智能
第2章 环境准备
2.1 Hadoop的发行版本选择
2.1.1 Apache Hadoop
2.1.2 CDH
2.1.3 Hadoop的版本
2.1.4 如何选择Hadoop的版本
2.2 Hadoop架构
2.2.1 Hadoop HDFS架构
2.2.2 Hadoop MapReduce架构
2.2.3 Hadoop架构
2.3 安装Hadoop
2.3.1 安装运行环境
2.3.2 修改主机名和用户名
2.3.3 配置静态IP地址
2.3.4 配置SSH无密码连接
2.3.5 安装JDK
2.3.6 配置Hadoop
2.3.7 格式化HDFS
2.3.8 启动Hadoop并验证安装
2.4 安装Hive
2.4.1 安装元数据库
2.4.2 修改Hive配置文件
2.4.3 验证安装
2.5 安装Sqoop
2.6 Eclipse Hadoop插件的安装和使用
2.6.1 安装并配置Eclipse Hadoop插件
2.6.2 Eclipse插件的使用
第3章 Hadoop的基石：HDFS
3.1 认识HDFS
3.1.1 HDFS的设计理念
3.1.2 HDFS的架构
3.1.3 HDFS容错
3.2 HDFS读取文件和写入文件
3.2.1 块的分布
3.2.2 数据读取
3.2.3 写入数据
3.2.4 数据完整性
3.3 如何访问HDFS
3.3.1 命令行接口
3.3.2 Java API
3.3.3 其他常用的接口
3.3.4 Web UI
第4章 分而治之的智慧：MapReduce
4.1 认识MapReduce
4.1.1 MapReduce的编程思想
4.1.2 MapReduce运行环境
4.1.3 MapReduce作业和任务
4.1.4 MapReduce的计算资源划分
4.1.5 MapReduce的局限性
4.2 Hello WordCount
4.2.1 WordCount的设计思路
4.2.2 编写WordCount
4.2.3 运行程序
4.2.4 还能更快吗
4.3 MapReduce的过程
4.3.1 从输入到输出
4.3.2 input
4.3.3 map及中间结果的输出
4.3.4 shuffle
4.3.5 reduce及最后结果的输出
4.3.6 sort
4.3.7 作业的进度组成
4.4 MapReduce的工作机制
4.4.1 作业提交
4.4.2 作业初始化
4.4.3 任务分配
4.4.4 任务执行
4.4.5 任务完成
4.4.6 推测执行
4.4.7 MapReduce容错
4.5 MapReduce编程
4.5.1 Writable类
4.5.2 编写Writable类
4.5.3 编写Mapper类
4.5.4 编写Reducer类
4.5.5 控制shuffle
4.5.6 控制sort
4.5.7 编写main函数
4.6 MapReduce编程实例：连接
4.6.1 设计思路
4.6.2 编写Mapper类
4.6.3 编写Reducer类
4.6.4 编写main函数
4.7 MapReduce编程实例：二次排序
4.7.1 设计思路
4.7.2 编写Mapper类
4.7.3 编写Partitioner类
4.7.4 编写SortComparator类
4.7.5 编写Reducer类
4.7.6 编写main函数
4.8 MapReduce编程实例：全排序
4.8.1 设计思路
4.8.2 编写代码
第5章 SQL on Hadoop：Hive
5.1 认识Hive
5.1.1 从MapReduce到SQL
5.1.2 Hive架构
5.1.3 Hive与关系型数据库的区别
5.1.4 Hive命令的使用
5.2 数据类型和存储格式
5.2.1 基本数据类型
5.2.2 复杂数据类型
5.2.3 存储格式
5.2.4 数据格式
5.3 HQL：数据定义
5.3.1 Hive中的数据库
5.3.2 Hive中的表
5.3.3 创建表
5.3.4 管理表
5.3.5 外部表
5.3.6 分区表
5.3.7 删除表
5.3.8 修改表
5.4 HQL：数据操作
5.4.1 装载数据
5.4.2 通过查询语句向表中插入数据
5.4.3 利用动态分区向表中插入数据
5.4.4 通过CTAS加载数据
5.4.5 导出数据
5.5 HQL：数据查询
5.5.1 SELECT…FROM语句
5.5.2 WHERE语句
5.5.3 GROUP BY和HAVING语句
5.5.4JOIN语句
5.5.5 ORDER BY和SORT BY语句
5.5.6 DISTRIBUTE BY和SORTBY语句
5.5.7 CLUSTER BY
5.5.8 分桶和抽样
5.5.9 UNION ALL
5.6 Hive函数
5.6.1 标准函数
5.6.2 聚合函数
5.6.3 表生成函数
5.7 Hive用户自定义函数
5.7.1 UDF
5.7.2 UDAF
5.7.3 UDTF
5.7.4 运行
第6章 SQL to Hadoop : Sqoop
6.1 一个Sqoop示例
6.2 导入过程
6.3 导出过程
6.4 Sqoop的使用
6.4.1 codegen
6.4.2 create-hive-table
6.4.3 eval
6.4.4 export
6.4.5 help
6.4.6 import
6.4.7 import-all-tables
6.4.8 job
6.4.9 list-databases
6.4.10 list-tables
6.4.11 merge
6.4.12 metastore
6.4.13 version
第7章 Hadoop性能调优和运维
7.1 Hadoop客户端
7.2 Hadoop性能调优
7.2.1 选择合适的硬件
7.2.2 操作系统调优
7.2.3 JVM调优
7.2.4 Hadoop参数调优  7.3 Hive性能调优
7.3.1 JOIN优化
7.3.2 Reducer的数量
7.3.3 列裁剪
7.3.4 分区裁剪
7.3.5 GROUP BY优化
7.3.6 合并小文件
7.3.7 MULTI-GROUP BY和MULTI-INSERT

使用说明

1、下载并解压，得出pdf文件

2、如果打不开本文件，请务必下载pdf阅读器

3、安装后，在打开解压得出的pdf文件

4、双击进行阅读

应用信息

语言简体中文

类似软件

hadoop大数据分析与挖掘实战38.23M316人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍，由张良均，樊哲，赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开，理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看
hadoop核心技术pdf44.83M213人在用Hadoop核心技术是由百度Hadoop技术专家翟周伟撰写的一本Hadoop技术学习书籍，全书结合了百度大数据实践，直击企业痛点，主要对Hadoop的基本原理和优化配置由浅入深进行了详细分析，最后通过实战案例进一步讲解分析。本书对HDFS、MapRedu
查看
hadoop实战第2版179.03M302人在用hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书，作者陆嘉恒，已经扫描为pdf高清版电子图书，附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评，第2版基于hadoop及其相关技术最新版本撰写，从多角度做了全面的
查看
深入理解hadoop 原书第2版50.83M342人在用深入理解hadoop 原书第2版是一本Hadoop系统使用掌握指导书籍，由世界级大数据专家萨米尔.瓦德卡和马杜.西德林埃共同编著。全书深入剖析了Hadoop系统实现原理及其工程实践应用，里面包含了大量真实案例和数据，从Hadoops各组件的运行机理，深入
查看

小学宝电脑版150.76Mv2.4.8小学语数英全科同步学习
查看
专业英文拼音五笔打字训练软件65.03Mv2.10.3.0 专业英文拼音五笔打字训练软件是一款适合初学电脑打字的绝佳多功能打字工具，以游戏的方式打字，可快速提高打字准确度和速度。软件支持音效功能，电脑有声音输出，开启后练习效果更佳。不过需要注意的是：本款打字练习软件需要在英文输入法状态下进行英文大小写字母、
查看
新东方在线客户端303.09Mv5.1.4官方版大学生在职一站式考研
查看
考试知己电脑版84.46Mv1.0.1官方版医学护理执业职称考试助考学习利器
查看
小学语文同步课堂电脑版127.14Mv5.7.10.12从小学好母语
查看
翼课学生电脑版96.39Mv5.2.7轻松玩转英语课堂
查看
Schoolhouse Bingo(辅助教学工具)19.06Mv3.0.110.0 Schoolhouse Bingo是Schoolhouse公司出品的一款辅助教学软件，可以轻松创建教育宾果游戏和卡片，用来支持和加强任何领域的课程学习，以宾果游戏为载体，让学生在玩耍中增强数学、语言艺术、科学、社会学习等知识领域的记忆和学习。
查看
超星直播客户端电脑版78.2Mv3.2.0.3官方版专业的教学直播软件
查看
20以内加减法口诀表打印版53Kdoc/xls版 20以内加减法口诀表图是一款面向小学阶段的学生整理的加减法口诀文档，此文档可以直接打印使用，包含了20以内的加法、减法算术内容，教师们在授课的时候可以用到。打印之后可以直接贴在墙上或者自己的课桌上，让用户学习加减法来更加轻松便捷，有需要的用户欢迎下
查看
autocad2007教程视频6.12G专为autocad2007打造的视频教学，含cad2007入门基础装修设计机械制图教程。
查看
高质量c++编程指南pdf260K 高质量c++编程指南pdf是一本讲述c语言编程技巧的电子书，作者：林锐博士。这是它的pdf版本，详细介绍了c++和c语言的文件结构，程序的版式，命名规则，表达式，基本语句，常量等参数，能够帮助网友更好的学习好c语言编程。
查看
每日诗词电脑版4.44Mv1.0官方版每天学习诗歌的软件
查看
asp.net mvc 4框架揭秘18.76M蒋金楠pdf扫描版 ASP.NET MVC功能强大，提供了一种全新的编程方式使我们可以将MVC模式很自然地融入到动态网站的开发之中，但如何才能好的掌握好呢？这里小编带给大家asp.net mvc 4框架揭秘，这是一本深度剖析asp.net mvc 4的图书，由NET名
查看
objective-c程序设计第4版35.98M斯蒂芬pdf扫描版 objective-c程序设计第4版是一本Objective-C程序设计指南，由斯蒂芬Stephen G. Kochan编著。本书是一本的Objective-C2.0参考书，详细介绍该语言的具体内容。全书用丰富而详实的实例讲解了如何使用Objec
查看
WOW！Illustrator CS6完全自学宝典91.9Mpdf全彩版 WOW！Illustrator CS6完全自学宝典是一本Illustrator CS6矢量图软件的使用指导手册，由数码平方团队编著。本书内容丰富，内含187个实例、27个拓展知识、50个实用技巧，理论中结合了实践，只要你跟着书上的流程，边学、边练、
查看