-
内容大纲
本书是基于Spark ML和Scala语言编写的机器学习实战书籍,基于目前新版本的Spark框架展开,内容包括机器学习准备、机器学习核心应用、综合项目提升三部分。首先是机器学习准备部分,包括第1~4章,分别介绍了大数据与Spark的基础知识、Spark安装和开发环境配置、Scala编程基础、Spark数据结构基础。然后是机器学习核心应用部分,包括第5~10章,分别介绍了Spark机器学习基础、线性回归及应用、分类算法及应用、数据降维及应用、聚类算法及应用、关联规则挖掘算法及应用。最后的综合项目提升部分包括第11和第12两章,分别通过综合实战项目案例进行巩固提升。
本书配套较丰富的实战案例,并为案例提供了详细的操作步骤。另外,本书配套了程序源代码和PPT等。本书可作为从事大数据分析和人工智能工作的工程师的参考用书,也可作为高等学校计算机科学与技术、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材。 -
作者介绍
迟殿委,南昌大学计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE、大数据技术培训经验,熟练掌握JavaEE与大数据全栈技术框架,擅长JavaEE系统架构设计、大数据分析与挖掘。著有图书《Hadoop大数据分析技术》《Hadoop+Spark大数据分析实战》《Spring Boot企业级开发实战(视频教学版)》《深入浅出Java编程》《Spring Boot+Spring Cloud微服务开发》。 -
目录
第1章 大数据与Spark
1.1 什么是大数据
1.2 大数据的来源和数据分析的关键要素
1.3 Spark概述
1.4 Spark机器学习库
1.5 Spark前景
小结
第2章 Spark 3.5安装和开发环境配置
2.1 Spark的运行模式概述
2.2 单机模式下Spark环境安装与配置
2.2.1 Java 8安装
2.2.2 Scala安装
2.2.3 IntelliJ IDEA开发环境安装
2.2.4 Scala插件的安装
2.2.5 编写Java程序
2.2.6 编写Scala程序
2.2.7 Spark 3.5单机版安装
2.3 wordCount实例
2.3.1 Spark 3.5实现wordCount
2.3.2 MapReduce实现wordCount
小结
第3章 Scala编程基础
3.1 基础语法
3.2 函数
3.3 控制语句
3.4 函数式编程
3.5 模式匹配
3.6 类和对象
3.7 Scala异常处理
3.8 Trait(特征)
3.9 Scala文件I/O
小结
第4章 Spark数据结构基础
4.1 RDD概述
4.1.1 常见的转换算子
4.1.2 常见的行动算子
4.2 DataFrame概述
4.2.1 DataFrame简介
4.2.2 DataFrame的特性
4.2.3 DataFrame与DataSet的差异
4.2.4 DataFrame的缺点
4.3 DataFrame工作机制
4.3.1 DataFrame本质
4.3.2 宽依赖与窄依赖
4.4 DataFrame实战详解
4.4.1 创建DataFrame
4.4.2 提前计算的cache()方法
4.4.3 用于列筛选的select()和selectExpr()方法
4.4.4 DataFrame的收集行collect()方法
4.4.5 DataFrame计算行数count()方法
4.4.6 DataFrame限制输出limit()方法
4.4.7 除去数据集中重复项的distinct()方法
4.4.8 过滤数据的filter()方法
4.4.9 以整体数据为单位操作数据的flatMap()方法
4.4.10 以单个数据为目标进行操作的map()方法
4.4.11 分组数据的groupBy()和agg()方法
4.4.12 删除数据集中某列的drop()方法
4.4.13 随机采样方法和随机划分方法
4.4.14 排序类型操作的sort()和orderBy()方法
4.4.15 DataFrame和DataSet以及RDD之间的相互转换
小结
第5章 Spark机器学习基础
5.1 机器学习概述
5.1.1 机器学习介绍
5.1.2 机器学习架构和分类
5.2 ML基本数据类型
5.2.1 数据类型
5.2.2 机器学习工作流程之管道技术
5.2.3 管道中的主要概念
5.3 ML数学基础
5.3.1 统计指标
5.3.2 统计量基本数据
5.3.3 距离计算
5.3.4 两组数据相关系数计算
5.3.5 分层抽样
5.3.6 假设检验
5.3.7 随机数
小结
第6章 线性回归及应用
6.1 线性回归理论
6.2 回归算法的评价指标
6.3 梯度下降算法
6.3.1 算法理解
6.3.2 SGD算法理论
6.3.3 SGD算法实战
6.4 过拟合
6.4.1 过拟合产生的原因
6.4.2 常见线性回归正则化方法
6.5 线性回归实战
6.5.1 线性回归程序
6.5.2 广义线性回归
小结
第7章 分类算法及应用
7.1 逻辑回归理论与应用
7.1.1 算法理论知识
7.1.2 二分类算法实战
7.1.3 多分类算法实战
7.2 SVM理论及应用
7.2.1 算法理论知识
7.2.2 SVM算法实战
7.3 朴素贝叶斯分类及应用
7.3.1 算法理论
7.3.2 朴素贝叶斯实战应用
7.4 决策树分类及应用
7.4.1 算法理论
7.4.2 ID3算法基础
7.4.3 决策树算法实战
小结
第8章 数据降维及应用
8.1 数据降维概述
8.2 PCA降维算法
8.2.1 PCA算法理论
8.2.2 PCA算法实战
8.3 SVD算法
8.3.1 SVD理论
8.3.2 SVD实战应用
小结
第9章 聚类算法及应用
9.1 聚类理论基础
9.2 K-means算法基础及应用
9.2.1 K-means算法理论
9.2.2 K-means算法实战
9.3 高斯混合聚类
9.3.1 高斯聚类理论
9.3.2 高斯混合聚类应用
9.4 快速迭代聚类
9.4.1 快速迭代聚类理论基础
9.4.2 PIC实战
小结
第10章 关联规则挖掘算法及应用
10.1 关联规则挖掘算法理论
10.1.1 大数据关联规则挖掘常识
10.1.2 经典的Apriori算法
10.1.3 FP-growth算法
10.2 关联规则挖掘算法实战
小结
第11章 文本分类项目实战
11.1 词向量化技术
11.1.1 文本向量化理论
11.1.2 Word2Vec词向量化实例
11.2 多层感知器
11.3 文本分类实战
小结
第12章 电影分析项目实战
12.1 项目介绍
12.1.1 数据集介绍
12.1.2 需求分析
12.2 数据统计分析模块实现
12.2.1 公共代码开发
12.2.2 需求1实现及结果
12.2.3 需求2实现及结果
12.2.4 需求3实现及结果
12.3 机器学习影片推荐模块实现
12.3.1 协同过滤概述
12.3.2 关于物品间相似度计算
12.3.3 关于ALS算法中的最小二乘法
12.3.4 基于ALS算法影片推荐实战
小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
