-
内容大纲
本书共11章,从Hadoop概述开始,介绍Hadoop的安装、配置与管理,并对Hadoop的生态体系架构进行介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive,以及Hadoop与RDBMS数据迁移工具Sqoop,最后对大数据实时处理技术进行介绍,旨在让读者了解当前其他的大数据处理技术。本书还包括丰富的实践操作,实现理论与实践的有机结合。
本书除介绍Hadoop的理论外,还介绍如何使用各组件,但因为只介绍基础的使用方法,没有涉及底层的高级内容,所以本书只起引导作用。本书旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完整手册。
本书适合作为高等院校和职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关专业的培训班使用。 -
作者介绍
-
目录
第1章 Hadoop概述
1.1 Hadoop简介
1.2 Hadoop体系架构
1.2.1 Hadoop基础架构
1.2.2 Hadoop生态系统
1.3 Hadoop与分布式开发
1.4 Hadoop行业应用案例分析
1.4.1 Hadoop在门户网站中的应用
1.4.2 Hadoop在搜索引擎中的应用
1.4.3 Hadoop在电商平台中的应用
习题
第2章 Hadoop的安装、配置与管理
2.1 实验准备
2.2 配置一个单节点环境
2.2.1 运行一个虚拟环境CentOS
2.2.2 配置网络
2.2.3 创建新的用户组和用户
2.2.4 上传文件到CentOS并配置Java和Hadoop环境
2.2.5 修改Hadoop3.2配置文件
2.2.6 修改CentOS主机名
2.2.7 绑定hostname与IP地址
2.2.8 关闭防火墙
2.3 节点之间的免密码登录
2.3.1 什么是SSH
2.3.2 复制虚拟机节点
2.3.3 配置SSH免密码登录
2.4 Hadoop的启动和测试
2.4.1 格式化文件系统
2.4.2 启动HDFS
2.4.3 启动YARN
2.4.4 启动JobHistoryServer
2.4.5 集群验证
2.4.6 需要了解的默认配置
2.5 动态管理节点
2.5.1 动态增加和删除DataNode
2.5.2 动态修改TaskTracker
习题
第3章 HDFS技术
3.1 HDFS的特点
3.2 HDFS架构
3.2.1 数据块
3.2.2 NameNode与DataNode
3.2.3 辅助NameNode
3.2.4 安全模式与负载均衡
3.2.5 垃圾回收
3.3 HDFSShell命令
3.3.1 文件处理命令
3.3.2 交互式命令
3.4 HDFS中JavaAPI的使用
3.4.1 上传文件
3.4.2 新建文件
3.4.3 查看文件详细信息
3.4.4 下载文件
3.5 RPC通信
3.5.1 反射机制
3.5.2 代理模式与动态代理
3.5.3 HadoopRPC机制与源码分析
习题
第4章 YARN技术
4.1 YARN概述
4.1.1 YARN产生背景——MRv1的局限性
4.1.2 YARN的通信协议
4.2 YARN基本框架
4.3 YARN资源调度器
4.4 YARN的工作流程
4.5 YARN的实战案例
习题
第5章 MapReduce技术
5.1 什么是MapReduce
5.2 MapReduce编程模型
5.2.1 MapReduce模型简介
5.2.2 MapReduce模型分类
5.2.3 MapReduce编程实例——WordCount
5.3 MapReduce数据流
5.3.1 分片并格式化原始数据(InputFormat)
5.3.2 Map过程
5.3.3 Shuffle过程
5.3.4 Reduce过程
5.3.5 按指定格式写入文件(OutputFormat)
5.4 MapReduce任务流程
5.5 MapReduce的Streaming和Pipe
5.5.1 HadoopStreaming
5.5.2 HadoopPipe
5.6 MapReduce性能调优
5.7 MapReduce实战
5.7.1 快速入门
5.7.2 简单使用Eclipse插件
习题
第6章 HadoopI/O操作
6.1 HDFS数据完整性
6.1.1 校验和
6.1.2 运行后台进程来检测数据块
6.2 基于文件的数据结构
6.2.1 SequenceFile的存储
6.2.2 MapFile的存储
6.2.3 SequenceFile转换为MapFile
6.3 压缩
6.3.1 认识压缩
6.3.2 Codec
6.3.3 本地库
6.3.4 如何选择压缩格式
6.4 序列化
6.4.1 认识序列化
6.4.2 Writable接口
6.4.3 WritableComparable接口
6.4.4 HadoopWritable基本类型
6.4.5 自定义Writable类型
习题
第7章 海量数据库技术HBase
7.1 初识HBase
7.2 HBase表视图
7.2.1 概念视图
7.2.2 物理视图
7.3 HBase物理存储模型
7.4 安装HBase
7.4.1 HBase单节点安装
7.4.2 HBase伪分布式安装
7.4.3 HBase完全分布式安装
7.5 HBaseShell
7.5.1 HBaseShell的命令
7.5.2 general操作
7.5.3 DDL操作
7.5.4 DML操作
7.6 HBase操作实践
习题
第8章 ZooKeeper技术
8.1 分布式协调技术及其实现者
8.2 ZooKeeper基本架构
8.3 ZooKeeper数据模型
8.3.1 Znode
8.3.2 ZooKeeper中的时间
8.3.3 Znode属性
8.3.4 watch触发器
8.4 ZooKeeper集群安装
8.5 ZooKeeper的主要Shell操作
8.6 典型应用场景
8.6.1 数据发布与订阅
8.6.2 统一命名服务
8.6.3 分布式通知协调
习题
第9章 分布式数据仓库技术Hive
9.1 Hive出现的原因
9.2 Hive服务的组成
9.3 Hive的安装
9.3.1 Hive基本安装
9.3.2 MySQL的安装
9.3.3 Hive的配置
9.4 HiveShell
9.5 HQL的概念和使用
9.5.1 认识HQL
9.5.2 Hive管理数据方式
9.5.3 Hive表的DDL操作
9.5.4 Hive表的DML操作
9.6 使用Hive实现聊天数据分析案例
习题
第10章 Hadoop与RDBMS数据迁移工具Sqoop
10.1 Sqoop简介及基本安装
10.2 Sqoop的配置
10.3 Sqoop的相关功能
10.3.1 Sqoop的工具命令
10.3.2 Sqoop与MySQL
10.3.3 sqoop-import操作
10.3.4 sqoop-import-all-tables操作
10.3.5 sqoop-export操作
10.3.6 sqoop-list-databases和sqoop-list-tables操作
10.4 Hive、Pig和Sqoop三者之间的关系
10.5 基于Sqoop的MySQL和Hive之间的数据迁移实操案例
习题
第11章 大数据实时处理技术
11.1 Flink
11.1.1 Flink架构
11.1.2 Flink部署
11.1.3 Flink的运行架构
11.1.4 Flink流处理API
11.2 Spark
11.2.1 ApacheSpark架构
11.2.2 ApacheSpark的扩展功能
11.3 Flink与Spark异同
习题
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...