-
内容大纲
本书首先介绍了大数据基础应用:重点讲解了如何搭建Hadoop分布式集群平台,使用Java语言进行MapReduce分布式编程;HBase及Hive数据库环境的安装和数据的增、删、改、查操作;Spark平台的搭建、RDD操作及Spark SQL查询;Flink平台的搭建,Kafka消息中间件的使用及流批一体计算。其次对数据预处理的常用方法及如何使用Matplotlib实现数据可视化进行了讨论。最后讲解了大数据与机器学习、深度学习。本书将机器学习算法划分为分类及回归两个问题进行了讨论,并结合scikit-learn进行了实例讲解。在深度学习部分,对深度神经网络及卷积神经网络进行了介绍,就如何使用Keras框架实现图像分类进行了实例讲解,此外介绍了循环神经网络LSTM的原理及应用。
本书适用于计算机类及信息技术类相关专业在读本科生及研究生,也可供大数据及人工智能相关领域的技术人员参考。 -
作者介绍
-
目录
前言
第1章 Hadoop分布式集群
1.1 什么是大数据
1.1.1 大数据的基本概念
1.1.2 大数据的产生和应用
1.2 大数据关键技术
1.2.1 文件系统
1.2.2 数据库系统
1.2.3 索引与查询技术
1.2.4 大数据分析技术
1.2.5 大数据处理工具
1.2.6 机器学习与深度学习
1.3 Hadoop生态圈
1.4 Hadoop分布式集群环境搭建
1.4.1 实验环境安装及配置
1.4.2 Hadoop集群平台的搭建
1.4.3 MapReduce测试
第2章 分布式计算框架MapReduce
2.1 MapReduce分布式框架
2.1.1 MapReduce原理
2.1.2 合并函数(Combiner)
2.2 WordCount的处理过程
2.2.1 WordCount示例代码运行
2.2.2 WordCount源码分析
2.2.3 WordCount详细处理过程
2.2.4 MapReduce新旧版区别
2.3 MapReduce编程示例
2.3.1 Eclipse开发环境搭建
2.3.2 数据去重
2.3.3 数据排序
2.3.4 平均成绩
2.3.5 单表关联
2.3.6 多表关联
2.3.7 倒排索引
第3章 NoSQL数据库
3.1 NoSQL数据库概述
3.1.1 NoSQL数据库的特点
3.1.2 NoSQL数据库与关系数据库的比较
3.1.3 NoSQL数据库的分类
3.2 HBase列式数据库
3.2.1 HBase的基本概念
3.2.2 HBase的安装及基本操作
3.2.3 HBase客户端编程
3.3 Hive数据仓库工具
3.3.1 Hive的安装及环境配置
3.3.2 Hive的基本使用
第4章 分布式计算框架Spark
4.1 Spark分布式计算引擎
4.1.1 Spark的基本概念
4.1.2 Spark的核心技术
4.1.3 Spark生态系统
4.1.4 Spark技术分析
4.1.5 Spark的应用场景
4.2 Spark分布式集群环境搭建
4.2.1 环境搭建
4.2.2 环境测试
4.3 RDD分布式编程技术
4.3.1 RDD的基本使用
4.3.2 RDD操作
4.3.3 共享变量
4.4 Spark SQL查询分析技术
4.4.1 DataSet(DataFrame)和RDD
4.4.2 Spark SQL操作
4.4.3 Spark SQL与数据源的交互
4.4.4 Spark SQL与Hive交互
4.4.5 Spark SQL的分区及分桶
第5章 流式计算
5.1 Flink的基本概念
5.1.1 Flink框架
5.1.2 Flink的应用
5.2 Flink的安装和开发环境设置
5.2.1 Flink本地安装
5.2.2 Flink开发环境设置
5.3 数据流接口
5.3.1 DataStream概述
5.3.2 数据流接口的基本应用
5.3.3 Kafka消息中间件
5.4 水位线和窗口
5.4.1 水位线(WaterMark)
5.4.2 窗口(Window)
5.4.3 应用举例
5.5 表接口和表查询
5.5.1 动态表
5.5.2 表接口和表查询的应用
第6章 数据可视化分析与预处理
6.1 数据可视化分析
6.1.1 分位数与箱线图
6.1.2 数据的相关性与散点图
6.1.3 数据的分布与直方图
6.1.4 Matplotlib绘图
6.2 数据预处理
6.2.1 连续型输入特征的处理(归一化)
6.2.2 类别(离散)型输入特征的处理
6.2.3 分类标签的处理
6.2.4 主成因分析(PCA-Principal Component Analysis)
第7章 大数据与机器学习
7.1 使用scikit-learn进行机器学习
7.1.1 scikit-learn简介
7.1.2 使用scikit-learn进行机器学习
7.2 分类问题
7.2.1 逻辑回归
7.2.2 混淆矩阵
7.2.3 多分类
7.2.4 不平衡分类
7.2.5 交叉验证和参数寻优
7.3 回归问题
7.3.1 一元线性回归
7.3.2 多元线性回归
第8章 大数据与深度学习
8.1 深度学习概述
8.1.1 从神经网络到深度学习
8.1.2 深度学习框架Keras
8.2 深度神经网络
8.2.1 深度神经网络示例
8.2.2 模型的保存和读取
8.2.3 模型训练的历史过程
8.3 卷积神经网络
8.3.1 卷积神经网络的层
8.3.2 使用CNN进行图像分类
8.3.3 使用VGG16网络模型
8.4 循环神经网络
8.4.1 RNN
8.4.2 LSTM
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...