-
内容大纲
本书共分12章,分为基础篇、核心篇和应用篇。基础篇包括大数据概论、大数据集群系统基础、Hadoop分布式系统、HDFS分布式文件系统、MapReduce分布式计算、HBase分布式数据库应用;核心篇包括YARN资源分配、Spark集群计算、Spark机器学习、Hive数据仓库应用、ZooKeeper协调服务;应用篇包括医药大数据案例分析。
本书可以作为高等院校大数据技术相关课程本科生教材,也可以作为大数据技术基础相关课程研究生教材,还可以作为从事大数据相关工作的工程技术人员的参考用书。 -
作者介绍
-
目录
基础篇
第1章 大数据概论
1.1 大数据概述
1.1.1 大数据的定义
1.1.2 大数据的特征
1.2 大数据的分析过程
1.2.1 大数据的采集
1.2.2 大数据的存储方式
1.2.3 大数据分析技术
1.2.4 大数据的展示及应用
1.3 大数据的价值、挑战与风险
1.3.1 商业价值
1.3.2 社会生活价值
1.3.3 大数据的挑战与风险
1.4 大数据的应用
1.5 大数据的处理流程
1.6 大数据成为人工智能产业的燃料
1.7 大数据技术的发展前景
小结
习题
第2章 大数据集群系统基础
2.1 大数据集群系统概述
2.1.1 集群的分类
2.1.2 集群的目的
2.2 Linux操作系统
2.2.1 Linux操作系统简介
2.2.2 Linux操作系统的特性
2.2.3 Linux安装与基础操作
2.2.4 Linux常用命令
2.3 虚拟化技术
2.3.1 虚拟化技术简介
2.3.2 虚拟技术的原理
2.3.3 常见的虚拟化软件
2.3.4 虚拟化技术的优势和劣势
2.4 CentOS大数据集群系统的组成
2.5 大数据集群技术的架构
2.6 操作实践: 大数据集群的部署
2.6.1 集群规划
2.6.2 网络配置
2.6.3 安全配置
2.6.4 时间同步
2.6.5 SSH登录
小结
习题
第3章 Hadoop分布式系统
3.1 Hadoop概述
3.1.1 Hadoop简介
3.1.2 Hadoop的发展历程
3.1.3 Hadoop原理及运行机制
3.2 Hadoop相关技术及生态系统
3.3 操作实践: Hadoop安装与配置
3.3.1 安装JDK
3.3.2 安装Hadoop
3.3.3 配置Hadoop
3.3.4 格式化
3.3.5 运行Hadoop
小结
习题
第4章 HDFS分布式文件系统
4.1 HDFS
4.1.1 设计前提和设计目标
4.1.2 Namenode和Datanode
4.1.3 文件系统的名字空间
4.1.4 数据复制
4.1.5 HDFS读流程
4.1.6 HDFS写流程
4.2 HDFS操作实践
4.2.1 HDFS Shell
4.2.2 HDFS Java API
4.2.3 Eclipse开发环境
4.2.4 综合实例
小结
习题
第5章 MapReduce分布式计算
5.1 MapReduce简介
5.1.1 MapReduce架构
5.1.2 MapReduce的原理
5.1.3 MapReduce的工作机制
5.2 MapReduce操作实践
5.2.1 MapReduce WordCount编程实例
5.2.2 MapReduce倒排索引编程实例
小结
习题
第6章 HBase分布式数据库应用
6.1 HBase简介
6.1.1 HBase架构
6.1.2 HBase的存储
6.2 HBase集群部署
6.2.1 HBase参数配置
6.2.2 HBase运行与测试
6.3 HBase Shell操作命令
6.3.1 general操作
6.3.2 namespace操作
6.3.3 DDL操作
6.3.4 DML操作
6.3.5 授权
6.4 HBase过滤器
6.5 HBase编程
6.5.1 HBase表操作编程
6.5.2 HBase过滤查询编程
小结
习题
核心篇
第7章 YARN资源分配
7.1 统一资源管理和调度平台引例
7.1.1 背景
7.1.2 特点
7.1.3 典型的统一资源调度平台
7.2 YARN简介
7.2.1 YARN架构
7.2.2 YARN的工作流程
7.2.3 YARN的优势
7.3 操作实践: YARN Shell实例
小结
习题
第8章 Spark集群计算
8.1 Spark简介
8.1.1 Spark生态系统
8.1.2 Spark架构
8.2 Spark RDD
8.2.1 RDD的依赖关系
8.2.2 作业调度
8.2.3 内存管理
8.2.4 检查点支持
8.3 Spark集群部署及应用案例
8.3.1 Spark参数配置
8.3.2 Spark集群运行
8.3.3 Spark交互
8.3.4 Spark算子
8.3.5 Spark算法实例1: 词频统计
8.3.6 Spark算法实例2: 相关系数
小结
习题
第9章 Spark机器学习
9.1 机器学习概述
9.1.1 机器学习的发展史
9.1.2 机器学习步骤
9.2 Spark MLlib概述
9.2.1 数据类型
9.2.2 基本统计——基于DataFrame的API
9.2.3 基本统计——基于RDD的API
9.3 Spark实例
9.3.1 聚类问题
9.3.2 随机森林
小结
习题
第10章 Hive数据仓库应用
10.1 Hive简介
10.1.1 Hive组成模块
10.1.2 Hive执行流程
10.1.3 MetaStore存储模式
10.2 Hive安装与配置
10.2.1 Hive参数配置
10.2.2 Hive运行与测试
10.2.3 Hive Beeline
10.3 数据类型和文件格式
10.3.1 数据类型
10.3.2 文件格式
10.4 Hive数据定义与数据操作
10.4.1 基本概念
10.4.2 数据库管理
10.4.3 表的管理
10.4.4 外部表的管理
10.4.5 分区管理
10.4.6 数据操作
10.4.7 桶的操作
10.4.8 索引
10.5 Hive数据查询
10.5.1 简单查询
10.5.2 复杂查询
10.5.3 JOIN连接查询
10.5.4 其他语句
10.6 Hive编程
10.6.1 JDBC函数
10.6.2 完整实例
小结
习题
第11章 ZooKeeper协调服务
11.1 ZooKeeper简介
11.1.1 ZAB协议
11.1.2 ZooKeeper数据模型
11.1.3 会话
11.1.4 事件监听器
11.1.5 访问权限
11.2 ZooKeeper集群部署
11.3 ZooKeeper基本命令
11.4 ZooKeeper应用
11.4.1 Hadoop
11.4.2 Spark
11.4.3 Hive
11.5 ZooKeeper编程
11.5.1 ZooKeeper读/写操作
11.5.2 集群状态监控
小结
习题
应用篇
第12章 医药大数据案例分析
12.1 项目概述
12.2 功能需求
12.3 软件关键技术
12.4 效果展示
12.5 系统构架设计
12.5.1 系统组成
12.5.2 系统协作方式
12.5.3 系统网络拓扑
12.5.4 系统建设方案
12.6 数据存储设计
12.7 数据分析
12.8 数据展示
小结
习题
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...