-
内容大纲
本书基于Hadoop大数据平台,讲解大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据分析、数据可视化等完整的大数据应用案例,全面详细地讲述Hadoop、MapReduce、HDFS、Hive、Spark和Zookecpcr等技术的相关知识,详细介绍Hadoop大数据集群环境配置与搭建、部署配置Hadoop HA模式等内容。
本书具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤详尽,并配有大量操作图例。
高等职业院校大数据应用技术专业、软件技术专业、云计算技术与应用专业可以将本书作为教材,从事大数据分析、云计算应用等系统开发与分析的技术人员也可以将本书作为参考用书。 -
作者介绍
-
目录
第1章 大数据与Hadoop平台技术
1.1 大数据时代
1.2 大数据关键技术
1.3 大数据涉及的主要软件
1.4 Hadoop平台技术的生态
第2章 Ubuntu系统的安装与使用
2.1 Linux系统简介
2.2 Ubuntu系统安装
2.2.1 下载虚拟机软件VMware并安装
2.2.2 在虚拟机中安装Ubuntu系统
2.2.3 切换中英文输入法
2.2.4 安装VMware Tools
2.2.5 apt更新与更新源更换
2.2.6 安装vim编辑器并使用
2.3 虚拟机联网问题及其他
第3章 Linux基础知识及相关软件的基本使用
3.1 Linux基础知识
3.1.1 Linux目录结构
3.1.2 Shell介绍
3.1.3 超级用户——root用户
3.1.4 sudo命令和su命令
3.1.5 创建与删除普通用户
3.1.6 目录标记规则
3.1.7 目录权限
3.1.8 安装SSH
3.2 Linux常用软件与命令
3.2.1 修改主机名
3.2.2 目录操作
3.2.3 查看文件内容和清屏
3.2.4 文件操作
3.2.5 文件解压
3.2.6 进程与端口查看命令
3.2.7 系统管理命令
3.2.8 数据流重定向和管道的使用
3.2.9 其他使用技巧介绍
3.3 在Ubuntu中安装Eclipse
3.3.1 通过软件中心下载安装Eclipse
3.3.2 在桌面创建Eclipse快捷方式
第4章 Hadoop的伪分布式安装与使用
4.1 深入了解Hadoop
4.1.1 Hadoop发行版本介绍
4.1.2 Hadoop核心架构
4.1.3 Hadoop的主要应用场景
4.2 安装Java环境
4.2.1 离线安装
4.2.2 在线安装
4.3 安装Hadoop
4.3.1 下载Hadoop安装文件并解压
4.3.2 配置Hadoop环境变量
4.3.3 伪分布式模式配置
4.3.4 Hadoop无法正常启动和使用的解决方法
第5章 HDFS
5.1 HDFS基本知识
5.1.1 DFS简介
5.1.2 HDFS
5.1.3 HDFS存储数据
5.2 Shell命令与HDFS交互操作
5.2.1 Hadoop Shell命令方式
5.2.2 目录操作
5.2.3 文件操作
5.2.4 利用Web界面管理HDFS
5.3 Java编程与HDFS实现交互
5.3.1 在Eclipse中创建HDFS交互Java项目
5.3.2 在Java项目中编写Java应用程序代码
5.3.3 编译运行程序与打包
5.3.4 练习中使用的代码文件
第6章 HBase伪分布部署与使用
6.1 HBase介绍
6.2 安装HBase
6.3 伪分布HBase环境搭建
6.4 HBase Shell常用操作命令实践
6.4.1 HBase表结构举例说明和常用的表操作命令
6.4.2 在HBase中创建表和删除表
6.4.3 HBase数据库基本操作
第7章 MapReduce原理与基础编程
7.1 MapReduce介绍与基本原理
7.1.1 MapReduce在现实生活中的运用
7.1.2 通过案例拆解MapReduce的工作过程
7.1.3 MapReduce工作流程概括
7.2 MapReduce编程思路
7.3 MapReduce编程实例1:WordCount
7.4 MapReduce编程实例2:计算学生的平均成绩
第8章 数据仓库Hive伪分布式部署与使用
8.1 Hive的特点
8.2 Hive伪分布式部署
8.2.1 安装配置Hive
8.2.2 安装配置MySQL,连接Hive元数据库
8.3 MySQL数据库操作
8.3.1 常用命令介绍
8.3.2 无法登录MySQL Shell的解决方法
第9章 数据分析与Hive数据库操作
9.1 Hive操作命令介绍
9.2 HQL中的Case命令用法介绍
9.3 电商网站日志数据分析与达成目标
9.4 数据分析实现
9.4.1 将网站日志文件集加载到Hive中
9.4.2 统计分析网站日志数据
9.4.3 统计词频
第10章 Spark的安装与基础编程
10.1 Spark的安装(Python版)
10.1.1 下载Spark安装软件
10.1.2 安装与配置Spark
10.1.3 在PySpark中运行代码
10.1.4 Spark独立应用程序编程示例
10.2 Spark的一些基本概念
10.3 RDD编程操作
10.3.1 RDD操作的两种类型
10.3.2 创建RDD
10.3.3 创建键值对RDD
10.4 从RDD到DataFrame
10.4.1 Spark SQL和DataFrame
10.4.2 创建样例数据文件
10.4.3 读取json和csv文件生成DataFrame
10.4.4 普通文本文件生成DataFrame
10.5 Spark综合编程与Python可视化
10.5.1 Spark综合编程
10.5.2 Python可视化呈现
第11章 Hadoop集群环境搭建
11.1 克隆Linux虚拟机
11.2 桥接模式与NAT模式
11.2.1 桥接模式
11.2.2 NAT模式
11.3 VMware Workstation桥接网络配置
11.3.1 集群网络配置实现的目标
11.3.2 设置网络桥接模式
11.3.3 验证
11.4 大数据集群环境配置与搭建
11.4.1 修改主机名,并将主机名与IP地址建立映射
11.4.2 集群SSH免密登录
11.4.3 时间同步
第12章 Zookeeper与集群Hadoop安装应用
12.1 Zookeeper介绍
12.1.1 Zookeeper的作用
12.1.2 Zookeeper选举机制
12.2 安装Zookeeper
12.2.1 为安装Zookeeper的目录赋权
12.2.2 下载、解压Zookeeper安装包
12.2.3 修改Zookeeper配置文件zoo.cfg
12.2.4 创建zkdata和zkdatalog文件夹
12.2.5 创建文件myid
12.2.6 配置环境变量
12.2.7 远程复制分发
12.2.8 启动Zookeeper集群
12.2.9 Zookeeper启动错误及解决方法
12.3 在集群上安装Hadoop
12.4 在集群上安装HBase
第13章 构建集群数据仓库
13.1 在slave2节点上安装MySQL Server
13.2 在slave1节点上安装Hive服务器
13.3 将master节点作为Hive客户端
13.4 启动Hive
第14章 Hadoop从完全分布式到HA的安装与使用
14.1 Hadoop HA
14.1.1 HDFS HA背景
14.1.2 HDFS HA架构
14.2 安装虚拟机系统
14.2.1 在VMware中创建虚拟机
14.2.2 安装CentOS 7
14.2.3 设置网络静态IP地址
14.2.4 克隆3台虚拟机
14.3 使用XShell 6登录CentOS虚拟机
14.4 修改各节点主机名称并配置SSH免密
14.4.1 修改各节点的虚拟机主机名
14.4.2 主机名与IP地址映射
14.4.3 SSH免密设置
14.5 安装JDK
14.6 安装并配置Zookeeper
14.6.1 安装Zookeeper
14.6.2 启动和停止Zookeeper
14.7 安装并配置为完全分布式Hadoop集群
14.7.1 上传、解压文件并配置环境变量
14.7.2 将Hadoop配置为完全分布式集群
14.8 部署配置Hadoop HA模式
14.8.1 编辑Hadoop HA配置文件
14.8.2 分发文件
14.8.3 第一次启动HA
14.8.4 常规启动HA
14.8.5 Hadoop HA部署完成之后的常规启停顺序
14.8.6 在HA集群上测试wordcount程序
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...