大小:47.54M
更新时间:23-09-07
系统:Pc
全书结构针对学习曲线进行了优化,由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。
基础篇:Hadoop基础 第1章 绪论 1.1 Hadoop和云计算 1.1.1 Hadoop的电梯演讲 1.1.2 Hadoop生态圈 1.1.3 云计算的定义 1.1.4 云计算的类型 1.1.5 Hadoop和云计算 1.2 Hadoop和大数据 1.2.1 大数据的定义 1.2.2 大数据的结构类型 1.2.3 大数据行业应用实例 1.2.4 Hadoop和大数据 1.2.5 其他大数据处理平台 1.3 数据挖掘和商业智能 1.3.1 数据挖掘的定义 1.3.2 数据仓库 1.3.3 操作数据库系统和数据仓库系统的区别 1.3.4 为什么需要分离的数据仓库 1.3.5 商业智能 1.3.6 大数据时代的商业智能 第2章 环境准备 2.1 Hadoop的发行版本选择 2.1.1 Apache Hadoop 2.1.2 CDH 2.1.3 Hadoop的版本 2.1.4 如何选择Hadoop的版本 2.2 Hadoop架构 2.2.1 Hadoop HDFS架构 2.2.2 Hadoop MapReduce架构 2.2.3 Hadoop架构 2.3 安装Hadoop 2.3.1 安装运行环境 2.3.2 修改主机名和用户名 2.3.3 配置静态IP地址 2.3.4 配置SSH无密码连接 2.3.5 安装JDK 2.3.6 配置Hadoop 2.3.7 格式化HDFS 2.3.8 启动Hadoop并验证安装 2.4 安装Hive 2.4.1 安装元数据库 2.4.2 修改Hive配置文件 2.4.3 验证安装 2.5 安装Sqoop 2.6 Eclipse Hadoop插件的安装和使用 2.6.1 安装并配置Eclipse Hadoop插件 2.6.2 Eclipse插件的使用 第3章 Hadoop的基石:HDFS 3.1 认识HDFS 3.1.1 HDFS的设计理念 3.1.2 HDFS的架构 3.1.3 HDFS容错 3.2 HDFS读取文件和写入文件 3.2.1 块的分布 3.2.2 数据读取 3.2.3 写入数据 3.2.4 数据完整性 3.3 如何访问HDFS 3.3.1 命令行接口 3.3.2 Java API 3.3.3 其他常用的接口 3.3.4 Web UI 第4章 分而治之的智慧:MapReduce 4.1 认识MapReduce 4.1.1 MapReduce的编程思想 4.1.2 MapReduce运行环境 4.1.3 MapReduce作业和任务 4.1.4 MapReduce的计算资源划分 4.1.5 MapReduce的局限性 4.2 Hello WordCount 4.2.1 WordCount的设计思路 4.2.2 编写WordCount 4.2.3 运行程序 4.2.4 还能更快吗 4.3 MapReduce的过程 4.3.1 从输入到输出 4.3.2 input 4.3.3 map及中间结果的输出 4.3.4 shuffle 4.3.5 reduce及最后结果的输出 4.3.6 sort 4.3.7 作业的进度组成 4.4 MapReduce的工作机制 4.4.1 作业提交 4.4.2 作业初始化 4.4.3 任务分配 4.4.4 任务执行 4.4.5 任务完成 4.4.6 推测执行 4.4.7 MapReduce容错 4.5 MapReduce编程 4.5.1 Writable类 4.5.2 编写Writable类 4.5.3 编写Mapper类 4.5.4 编写Reducer类 4.5.5 控制shuffle 4.5.6 控制sort 4.5.7 编写main函数 4.6 MapReduce编程实例:连接 4.6.1 设计思路 4.6.2 编写Mapper类 4.6.3 编写Reducer类 4.6.4 编写main函数 4.7 MapReduce编程实例:二次排序 4.7.1 设计思路 4.7.2 编写Mapper类 4.7.3 编写Partitioner类 4.7.4 编写SortComparator类 4.7.5 编写Reducer类 4.7.6 编写main函数 4.8 MapReduce编程实例:全排序 4.8.1 设计思路 4.8.2 编写代码 第5章 SQL on Hadoop:Hive 5.1 认识Hive 5.1.1 从MapReduce到SQL 5.1.2 Hive架构 5.1.3 Hive与关系型数据库的区别 5.1.4 Hive命令的使用 5.2 数据类型和存储格式 5.2.1 基本数据类型 5.2.2 复杂数据类型 5.2.3 存储格式 5.2.4 数据格式 5.3 HQL:数据定义 5.3.1 Hive中的数据库 5.3.2 Hive中的表 5.3.3 创建表 5.3.4 管理表 5.3.5 外部表 5.3.6 分区表 5.3.7 删除表 5.3.8 修改表 5.4 HQL:数据操作 5.4.1 装载数据 5.4.2 通过查询语句向表中插入数据 5.4.3 利用动态分区向表中插入数据 5.4.4 通过CTAS加载数据 5.4.5 导出数据 5.5 HQL:数据查询 5.5.1 SELECT…FROM语句 5.5.2 WHERE语句 5.5.3 GROUP BY和HAVING语句 5.5.4JOIN语句 5.5.5 ORDER BY和SORT BY语句 5.5.6 DISTRIBUTE BY和SORTBY语句 5.5.7 CLUSTER BY 5.5.8 分桶和抽样 5.5.9 UNION ALL 5.6 Hive函数 5.6.1 标准函数 5.6.2 聚合函数 5.6.3 表生成函数 5.7 Hive用户自定义函数 5.7.1 UDF 5.7.2 UDAF 5.7.3 UDTF 5.7.4 运行 第6章 SQL to Hadoop : Sqoop 6.1 一个Sqoop示例 6.2 导入过程 6.3 导出过程 6.4 Sqoop的使用 6.4.1 codegen 6.4.2 create-hive-table 6.4.3 eval 6.4.4 export 6.4.5 help 6.4.6 import 6.4.7 import-all-tables 6.4.8 job 6.4.9 list-databases 6.4.10 list-tables 6.4.11 merge 6.4.12 metastore 6.4.13 version 第7章 Hadoop性能调优和运维 7.1 Hadoop客户端 7.2 Hadoop性能调优 7.2.1 选择合适的硬件 7.2.2 操作系统调优 7.2.3 JVM调优 7.2.4 Hadoop参数调优7.3 Hive性能调优 7.3.1 JOIN优化 7.3.2 Reducer的数量 7.3.3 列裁剪 7.3.4 分区裁剪 7.3.5 GROUP BY优化 7.3.6 合并小文件 7.3.7 MULTI-GROUP BY和MULTI-INSERT
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
应用信息
同类热门
类似软件
hadoop大数据分析与挖掘实战38.23M307人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看
深入理解hadoop 原书第2版50.83M341人在用深入理解hadoop 原书第2版是一本Hadoop系统使用掌握指导书籍,由世界级大数据专家萨米尔.瓦德卡和马杜.西德林埃共同编著。全书深入剖析了Hadoop系统实现原理及其工程实践应用,里面包含了大量真实案例和数据,从Hadoops各组件的运行机理,深入
查看
hadoop核心技术pdf44.83M208人在用Hadoop核心技术是由百度Hadoop技术专家翟周伟撰写的一本Hadoop技术学习书籍,全书结合了百度大数据实践,直击企业痛点,主要对Hadoop的基本原理和优化配置由浅入深进行了详细分析,最后通过实战案例进一步讲解分析。本书对HDFS、MapRedu
查看
hadoop实战第2版179.03M299人在用hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书,作者陆嘉恒,已经扫描为pdf高清版电子图书,附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评,第2版基于hadoop及其相关技术最新版本撰写,从多角度做了全面的
查看热门标签
网友评论0人参与,0条评论
最新排行
精通django(django 1.8 lts全解)6.07Mpdf扫描版精通django(django 1.8 lts全解)是一本Django的入门指导书,由澳大利亚一名商务系统开发者Nigel George编著,本书采用由简到繁,循序渐进的方法,深入说明 Django 的机制,教你使用它构建 Web 应用。其次,适当讨论高
查看
人人都是架构师:分布式系统架构落地与瓶颈突破39.95M高翔龙 pdf扫描版 人人都是架构师:分布式系统架构落地与瓶颈突破是一本货真价实的互联网场景下大型网站架构演变过程中核心技术难题的解决方案,由高翔龙编著。本书全部来源于作者真实经历的生产案例,大型网站应对高并发、大流量的应急宝典,全书毫无保留地阐述了作者多年在互联网企业
查看
linux shell编程从初学到精通81.02M伍之昂pdf扫描版 shell脚本编程成为一个优秀的linux开发者和系统管理员必须掌握的技术之一,但如何才能更好的常握呢?这里小编带来了linux shell编程从初学到精通,由华清远见嵌入式培训中心的伍之昂编著,全书内容丰富,覆盖了shell编程的大部分技术,并结
查看
spring实战 第3版29.82Mpdf高清扫描版 Spring框架已经成为Java开发人员的必备知识,但是如何更好的学习呢?这里小编推荐大家阅读spring实战 第3版,这是一本java Spring开发的经典图书之一,由美国高级工程师Craig Walls编著。全文在继承了前两个畅销版本面向实战
查看
数据清洗入门与实践pdf30.14M扫描版干净的数据 数据清洗入门与实践是一本数据清洗指导学习书籍,由美国的Megan Squie编著,本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。 最后提供了两个真实的项目,让
查看
构建高性能web站点修订版157.35M完整pdf扫描版 构建高性能web站点修订版是一款教你如何改善你的Web站点的性能和扩展规模的教学图书,由郭欣编著,电子工业出版社出版。全书汲及了web系统优化的各个方面,从浏览器、cache到web、数据库和分布式文件系统等,并穿插了大量的实际测试数据和很多流行开
查看
大数据管理:数据集成的技术、方法与最佳实践26.48M高清扫描版 大数据管理:数据集成的技术、方法与最佳实践是一本数据集成领域著作,由美国资深数据集成专家April Reeve编著,余水清,潘黎萍共同翻译。本书高屋建瓴地阐述了在大型组织的环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术
查看
EMC NetWorker8 管理员指南(中文)6.74MPDF版 EMC NetWorker8 管理员指南是专门针对EMC NetWorker8推出的一款可以快速上手EMC NetWorker8的教程手册,该手册内容按 “原样”提供,主要围绕EMC NetWorker概述、备份数据、存储节点和库、磁盘备份和云、备
查看
网络安全评估从漏洞到补丁75.24Mpdf扫描版 网络安全评估从漏洞到补丁是一本网络安全指导书籍,由美国网络安全专家Steve Manzuik编著,张建标编译。全书主要将漏洞管理技术融入到业务管理中,只有将黑客所实施的威胁与对组织造成的风险联系到一起时,这些知识才是有价值的,而本书就是要介绍完成这
查看
hprose php 用户手册200Kpdf高清版Hprose是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。这里小编提供hprose php 用户手册下载,专为hprose for
查看
SQL Server 2008高级程序设计99.46MPDF中文版SQL Server 2008高级程序设计是一本pdf中文版的高清电子书,全书首先介绍了sql2008的新功能,然后在更详实的示例代码的引导下全面深入地展开论述,讨论了如何编写复杂查询,构建各种数据结构以及提高应用程序性能,还讲述了如何管理高级脚本和数据
查看