-
内容大纲
本书以实战开发为原则,以Hadoop 3.X生态系统内的主要大数据工具整合应用及项目开发为主线,通过Hadoop大数据开发中常见的11个典型模块和3个完整项目案例,详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具的整合使用。本书附带资源包括本书核心内容的教学视频,本书所涉及的源代码、参考资料等。
全书共14章,分为3篇,涵盖的主要内容有Hadoop及其生态组件伪分布式安装和完全分布式安装、分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、分布式数据仓库Hive、数据转换工具Sqoop、内存计算框架Spark、海量Web日志分析系统、电商商品推荐系统、分布式垃圾消息识别系统等。
本书内容丰富、案例典型、实用性强,适合各个层次希望学习大数据开发技术的人员阅读,尤其适合有一定Java 基础而要进行Hadoop应用开发的人员阅读。 -
作者介绍
-
目录
第一篇 Hadoop技术
第1章 大数据与Hadoop概述
1.1 大数据概述
1.1.1 大数据的定义
1.1.2 大数据行业的发展
1.1.3 大数据的典型应用
1.2 Hadoop概述
1.2.1 Hadoop简介
1.2.2 Hadoop生态子项目
1.2.3 Hadoop 3.X的新特性
1.3 小结
1.4 配套视频
第2章 Hadoop伪分布式安装
2.1 Hadoop伪分布式安装前的准备
2.1.1 安装VMware
2.1.2 安装CentOS 7
2.1.3 配置CentOS 7:接受协议
2.1.4 配置CentOS 7:登录系统
2.1.5 配置CentOS 7:设置IP
2.1.6 配置CentOS 7:修改主机名
2.1.7 配置CentOS 7:配置hosts文件
2.1.8 配置CentOS 7:关闭防火墙
2.1.9 配置CentOS 7:禁用selinux
2.1.10 配置CentOS 7:设置SSH免密码登录
2.1.11 配置CentOS 7:重启
2.2 Hadoop伪分布式安装
2.2.1 安装WinSCP
2.2.2 安装PieTTY
2.2.3 安装JDK
2.2.4 安装Hadoop
2.3 Hadoop验证
2.3.1 格式化
2.3.2 启动Hadoop
2.3.3 查看Hadoop相关进程
2.3.4 浏览文件
2.3.5 浏览器访问
2.4 小结
2.5 配套视频
第3章 Hadoop分布式文件系统——HDFS
3.1 HDFS原理
3.1.1 HDFS的假设前提和设计目标
3.1.2 HDFS的组件
3.1.3 HDFS数据复制
3.1.4 HDFS健壮性
3.1.5 HDFS数据组织
3.2 HDFS Shell
3.2.1 Hadoop文件操作命令
3.2.2 Hadoop系统管理命令
3.3 HDFS Java API
3.3.1 搭建Linux下Eclipse开发环境
3.3.2 为Eclipse安装Hadoop插件
3.3.3 HDFS Java API示例
3.4 小结
3.5 配套视频
第4章 分布式计算框架MapReduce
4.1 MapReduce原理
4.1.1 MapReduce概述
4.1.2 MapReduce的主要功能
4.1.3 MapReduce的处理流程
4.2 MapReduce编程基础
4.2.1 内置数据类型介绍
4.2.2 WordCount入门示例
4.2.3 MapReduce分区与自定义数据类型
4.3 MapReduce综合实例——数据去重
4.3.1 实例描述
4.3.2 设计思路
4.3.3 程序代码
4.3.4 运行结果
4.4 MapReduce综合实例——数据排序
4.4.1 实例描述
4.4.2 设计思路
4.4.3 程序代码
4.4.4 运行结果
4.5 MapReduce综合实例——求学生平均成绩
4.5.1 实例描述
4.5.2 设计思路
4.5.3 程序代码
4.5.4 运行结果
4.6 MapReduce综合实例——WordCount高级示例
4.7 小结
4.8 配套视频
第二篇 Hadoop 生态系统的主要大数据工具整合应用
第5章 NoSQL数据库HBase
5.1 HBase原理
5.1.1 HBase概述
5.1.2 HBase核心概念
5.1.3 HBase的关键流程
5.2 HBase伪分布式安装
5.2.1 安装HBase的前提条件
5.2.2 解压并配置环境变量
5.2.3 配置HBase参数
5.2.4 验证HBase
5.3 HBase Shell
5.3.1 HBase Shell常用命令
5.3.2 HBase Shell综合示例
5.3.3 HBase Shell的全部命令
5.4 小结
5.5 配套视频
第6章 HBase高级特性
6.1 HBase Java API
6.1.1 HBase Java API介绍
6.1.2 HBase Java API示例
6.2 HBase与MapReduce的整合
6.2.1 HBase与MapReduce的整合概述
6.2.2 HBase与MapReduce的整合示例
6.3 小结
6.4 配套视频
第7章 分布式数据仓库Hive
7.1 Hive概述
7.1.1 Hive的定义
7.1.2 Hive的设计特征
7.1.3 Hive的体系结构
7.2 Hive伪分布式安装
7.2.1 安装Hive的前提条件
7.2.2 解压并配置环境变量
7.2.3 安装MySQL
7.2.4 配置Hive
7.2.5 验证Hive
7.3 Hive QL的基础功能
7.3.1 操作数据库
7.3.2 创建表
7.3.3 数据准备
7.4 Hive QL的高级功能
7.4.1 select查询
7.4.2 函数
7.4.3 统计函数
7.4.4 distinct去除重复值
7.4.5 limit限制返回记录的条数
7.4.6 为列名取别名
7.4.7 case when then多路分支
7.4.8 like模糊查询
7.4.9 group by分组统计
7.4.10 having过滤分组统计结果
7.4.11 inner join内联接
7.4.12 left outer join和right outer join外联接
7.4.13 full outer join外部联接
7.4.14 order by排序
7.4.15 where查找
7.5 小结
7.6 配套视频
第8章 Hive高级特性
8.1 Beeline
8.1.1 使用Beeline的前提条件
8.1.2 Beeline的基本操作
8.1.3 Beeline的参数选项与管理命令
8.2 Hive JDBC
8.2.1 运行Hive JDBC的前提条件
8.2.2 Hive JDBC基础示例
8.2.3 Hive JDBC综合示例
8.3 Hive函数
8.3.1 内置函数
8.3.2 自定义函数
8.4 Hive表的高级特性
8.4.1 外部表
8.4.2 分区表
8.5 小结
8.6 配套视频
第9章 数据转换工具Sqoop
9.1 Sqoop概述与安装
9.1.1 Sqoop概述
9.1.2 Sqoop安装
9.2 Sqoop导入数据
9.2.1 更改MySQL的root用户密码
9.2.2 准备数据
9.2.3 导入数据到HDFS
9.2.4 查看HDFS数据
9.2.5 导入数据到Hive
9.2.6 查看Hive数据
9.3 Sqoop导出数据
9.3.1 准备MySQL表
9.3.2 导出数据到MySQL
9.3.3 查看MySQL中的导出数据
9.4 深入理解Sqoop的导入与导出
9.5 小结
9.6 配套视频
第10章 内存计算框架Spark
10.1 Spark入门
10.1.1 Spark概述
10.1.2 Spark伪分布式安装
10.1.3 由Java到Scala
10.1.4 Spark的应用
10.1.5 Spark入门示例
10.2 Spark Streaming
10.2.1 Spark Streaming概述
10.2.2 Spark Streaming示例
10.3 Spark SQL
10.3.1 Spark SQL概述
10.3.2 spark-sql命令
10.3.3 使用Scala操作Spark SQL
10.4 小结
10.5 配套视频
第11章 Hadoop及其常用组件集群安装
11.1 Hadoop集群安装
11.1.1 安装并配置CentOS
11.1.2 安装JDK
11.1.3 安装Hadoop
11.1.4 远程复制文件
11.1.5 验证Hadoop
11.2 HBase集群安装
11.2.1 解压并配置环境变量
11.2.2 配置HBase参数
11.2.3 远程复制文件
11.2.4 验证HBase
11.3 Hive集群安装
11.3.1 解压并配置环境变量
11.3.2 安装MySQL
11.3.3 配置Hive
11.3.4 验证Hive
11.4 Spark集群安装
11.4.1 安装Scala
11.4.2 安装Spark
11.4.3 配置Spark
11.4.4 远程复制文件
11.4.5 验证Spark
11.5 小结
11.6 配套视频
第三篇 实战篇
第12章 海量Web日志分析系统
12.1 案例介绍
12.1.1 分析Web日志数据的目的
12.1.2 Web日志分析的典型应用场景
12.1.3 日志的不确定性
12.2 案例分析
12.2.1 日志分析的KPI
12.2.2 案例系统结构
12.2.3 日志分析方法
12.3 案例实现
12.3.1 定义日志相关属性字段
12.3.2 数据合法标识(在分析时是否被过滤)
12.3.3 解析日志
12.3.4 日志合法性过滤
12.3.5 页面访问量统计的实现
12.3.6 页面独立IP访问量统计的实现
12.3.7 用户单位时间PV的统计实现
12.3.8 用户访问设备信息统计的实现
12.4 小结
12.5 配套视频
第13章 电商商品推荐系统
13.1 案例介绍
13.1.1 推荐算法
13.1.2 案例的意义
13.1.3 案例需求
13.2 案例设计
13.2.1 协同过滤
13.2.2 基于用户的协同过滤算法
13.2.3 基于物品的协同过滤算法
13.2.4 算法实现设计
13.2.5 推荐步骤与架构设计
13.3 案例实现
13.3.1 实现HDFS文件操作工具
13.3.2 实现任务步骤1:汇总用户对所有物品的评分信息
13.3.3 实现任务步骤2:获取物品同现矩阵
13.3.4 实现任务步骤3:合并同现矩阵和评分矩阵
13.3.5 实现任务步骤4:计算推荐结果
13.3.6 实现统一的任务调度
13.4 小结
13.5 配套视频
第14章 分布式垃圾消息识别系统
14.1 案例介绍
14.1.1 案例内容
14.1.2 案例应用的主体结构
14.1.3 案例运行结果
14.2 RPC远程方法调用的设计
14.2.1 Java EE的核心优势:RMI
14.2.2 RMI的基本原理
14.2.3 自定义RPC组件分析
14.3 数据分析设计
14.3.1 垃圾消息识别算法——朴素贝叶斯算法
14.3.2 进行分布式贝叶斯分类学习时的全局计数器
14.3.3 数据清洗分析结果存储
14.4 案例实现
14.4.1 自定义的RPC组件服务端相关实现
14.4.2 自定义的RPC组件客户端相关实现
14.4.3 业务服务器实现
14.4.4 业务客户端实现
14.5 小结
14.6 配套视频
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...