-
内容大纲
信息时代,大数据的应用无处不在。手机中“淘宝”“抖音”的商品推送、短视频内容推送背后,是大数据用户画像及推荐算法;道路上的“一路绿灯”背后,是智能交通——交通管理部门分析、调整交通情况;新冠肺炎疫情不漏一人的流调背后,是智慧“战疫”——有关部门以“大数据+网格化”的方式识别和挖掘目标人群迁徙轨迹;智慧电厂“一键启停、无人值守”的背后,是以大数据为基础的工业级智能化应用。本书从大数据解析的基本概念讲起,“庖丁解牛”式地为大家讲解大数据解析中常用的基础算法,介绍不同算法的基本原理和适用场合,揭开大数据解析的神秘面纱。“纸上得来终觉浅,绝知此事要躬行。”本书结合研究实例,以问题为导向,深入浅出,引导大家“根据钉子选择锤子”,领略大数据的魅力。
本书是数据分析及相关课程的教学用书,适用于高等院校自动化、数据科学与大数据技术、人工智能等涉及数据挖掘相关的专业的本科生。 -
作者介绍
-
目录
1 绪论
1.1 统计学基础
1.1.1 期望、方差、协方差
1.1.2 一元高斯分布
1.1.3 多元高斯分布
1.1.4 KL散度
1.2 人工智能简介
1.2.1 人工智能的概念
1.2.2 人工智能的发展
1.2.3 人工智能的学派
1.3 机器学习
1.3.1 基本概念
1.3.2 机器学习的范式
1.3.3 机器学习的三要素
1.3.4 过拟合与正则化
1.3.5 偏差与方差
1.4 深度学习
1.4.1 生物神经网络
1.4.2 人工神经网络
1.4.3 主流的深度学习框架
本章小结
习题
参考文献
2 数据预处理与特征工程
2.1 数据预处理
2.1.1 数据清洗
2.1.2 数据变换
2.2 特征工程
2.2.1 特征提取
2.2.2 特征选择
2.3 应用实例
2.3.1 数据集简介与环境准备
2.3.2 数据集导入与字段理解
2.3.3 缺失值处理
2.3.4 异常值处理
2.3.5 数据变换
2.3.6 特征工程
2.3.7 案例小结
本章小结
习题
参考文献
3 数据降维
3.1 数据降维简介
3.2 主成分分析算法
3.2.1 主成分分析算法简介
3.2.2 主成分分析的数学原理
3.2.3 主成分分析的直观理解
3.3 慢特征分析算法
3.3.1 慢特征分析算法简介
3.3.2 慢特征分析的数学原理
3.3.3 慢特征分析的直观理解
3.4 应用实例
3.4.1 主成分分析的数值示例
3.4.2 主成分分析的应用示例
本章小结
习题
参考文献
4 回归分析
4.1 回归分析基本概念
4.1.1 回归的起源
4.1.2 回归模型的建立及应用
4.1.3 回归模型分类
4.1.4 回归模型效果评估
4.2 最小二乘回归
4.2.1 最小二乘法拟合目标
4.2.2 最小二乘回归原理
4.2.3 最小二乘法的几何意义
4.2.4 最小二乘法的缺陷
4.3 岭回归与LASSO回归
4.3.1 岭回归算法
4.3.2 LASSO回归算法
4.3.3 线性回归模型的正则化项
4.4 主元回归
4.4.1 维数灾难
4.4.2 主元回归建模
4.4.3 主成分个数选取
4.4.4 主元回归与岭回归
4.5 偏最小二乘回归
4.5.1 偏最小二乘建模
4.5.2 目标函数与算法推导
4.5.3 潜变量个数确定
4.6 回归案例分析
本章小结
习题
参考文献
5 聚类分析
5.1 基本思想与概念
5.1.1 聚类的概念
5.1.2 聚类算法分类
5.2 相似性度量
5.2.1 相似性度量的基本概念
5.2.2 距离度量
5.2.3 相关系数
5.2.4 选择相似性衡量手段的原则
5.3 K-均值聚类算法简介
5.3.1 算法思想
5.3.2 算法流程
5.3.3 算法关键影响因素
5.3.4 算法应用:图像压缩
5.4 高斯混合模型简介
5.4.1 算法介绍
5.4.2 利用GMM算法进行聚类
5.4.3 算法示例
本章小结
习题
参考文献
6 判别分析
6.1 基本理论
6.1.1 判别的基本概念
6.1.2 判别的效果评估
6.2 距离判别
6.3 贝叶斯判别
6.3.1 贝叶斯的统计思想
6.3.2 贝叶斯最小错误率判别
6.3.3 贝叶斯最小风险判别
6.3.4 先验概率的选取
6.3.5 多总体贝叶斯判别准则
6.3.6 多总体贝叶斯判别函数
6.4 Fisher判别
6.4.1 Fisher判别的基本思想
6.4.2 Fisher判别的优化目标
6.4.3 多分类问题
6.4.4 Fisher判别的分析步骤
6.4.5 案例分析
本章小结
习题
参考文献
7 支持向量机
7.1 线性可分支持向量机
7.1.1 线性可分的概念
7.1.2 间隔最大化
7.1.3 支持向量机求解
7.2 软间隔支持向量机
7.3 非线性支持向量机
7.4 支持向量回归
7.5 支持向量机实例
7.5.1 线性可分支持向量机实例
7.5.2 非线性支持向量机实例
本章小结
习题
参考文献
8 典型相关分析
8.1 基本概念
8.1.1 CCA的历史及用途
8.1.2 CCA的思想
8.1.3 CCA的扩展方法
8.2 典型相关分析算法介绍
8.3 CCA算法拓展
8.3.1 多视角CCA
8.3.2 核CCA
8.3.3 深度CCA
8.3.4 判别CCA
8.3.5 局部保留CCA
8.4 典型相关分析案例分析
8.4.1 案例一:城市竞争力分析
8.4.2 案例二:多标签分类
本章小结
习题
参考文献
9 决策树与随机森林
9.1 决策树基本内容
9.2 决策树算法介绍
9.2.1 信息熵和信息增益
9.2.2 剪枝算法
9.3 随机森林介绍
9.4 应用实例
9.4.1 Python实现决策树
9.4.2 Python实现随机森林
本章小结
习题
参考文献
10 神经网络
10.1 基本概念
10.1.1 基本结构——神经元模型
10.1.2 感知机
10.1.3 多层前馈神经网络
10.1.4 激活函数
10.1.5 误差反向传播算法
10.2 深度神经网络
10.2.1 模型优化方法
10.2.2 参数初始化
10.2.3 数据预处理
10.2.4 防止过拟合
10.2.5 数据增强
10.3 宽度学习(BLS)简介
10.3.1 BLS产生背景
10.3.2 RVFLNN简介
10.3.3 BLS算法介绍
10.3.4 BLS实际应用案例
本章小结
习题
参考文献
11 卷积神经网络
11.1 卷积神经网络基础
11.1.1 卷积
11.1.2 池化(pooling)
11.1.3 卷积神经网络的优点
11.1.4 LeNet
11.2 卷积网络进阶与实例
11.2.1 特殊的卷积核
11.2.2 卷积网络实例
本章小结
习题
参考文献
12 循环神经网络
12.1 循环神经网络基础
12.1.1 RNN的用途
12.1.2 RNN的结构及工作方式
12.1.3 LSTM的结构及计算方式
12.2 循环神经网络进阶
12.2.1 残差循环神经网络
12.2.2 门控循环单元GRU
12.2.3 双向循环神经网络
12.2.4 堆叠循环神经网络
本章小结
习题
参考文献
13 自编码器
13.1 自编码器简介
13.1.1 回顾:监督学习、半监督学习、无监督学习
13.1.2 生成模型与判别模型
13.1.3 自编码器的公式化表述
13.1.4 关于自编码器的讨论
13.1.5 常见的自编码器变体
13.2 稀疏自编码器
13.2.1 稀疏自编码器结构
13.2.2 堆栈自编码器结构
13.2.3 堆栈稀疏自编码器
13.3 去噪自编码器
13.3.1 原理介绍
13.3.2 训练过程
13.3.3 堆栈去噪自编码器
13.3.4 稀疏去噪自编码器
13.3.5 流形学习角度看去噪自编码器
13.3.6 小结
13.4 变分自编码器
13.4.1 变分自编码器的引出
13.4.2 变分自编码器的推导
13.4.3 变分自编码器的网络结构
13.4.4 变分自编码器的实例
13.4.5 变分自编码器的拓展
13.4.6 小结
本章小结
习题
参考文献
14 集成学习
14.1 集成学习简介
14.1.1 基本概念与模型结合策略
14.1.2 小结
14.2 集成学习:Bagging
14.2.1 算法简介
14.2.2 Bagging算法的自助采样
14.2.3 Bagging算法的结合策略
14.2.4 偏差与方差分析
14.3 集成学习:Boosting
14.3.1 算法简介
14.3.2 AdaBoost
14.3.3 GBDT
14.4 应用实例
14.4.1 Bagging实例:Random Forest
14.4.2 Boosting实例:AdaBoost
本章小结
习题
参考文献
15 案例分析
15.1 二手车交易价格预测
15.1.1 案例背景
15.1.2 数据概览与评测标准
15.1.3 整体思路
15.1.4 数据分析与预处理
15.1.5 特征工程与特征筛选
15.1.6 平均值编码
15.1.7 数据建模与融合
15.1.8 小结
15.2 糖尿病的血糖预测
15.2.1 背景介绍
15.2.2 数据获取
15.2.3 数据预处理
15.2.4 算法与实验结果
15.2.5 小结
15.3 工业蒸汽量预测
15.3.1 数据集介绍
15.3.2 数据清洗与特征工程
15.3.3 基本回归模型训练与分析
15.3.4 XGBoost模型训练与结果分析
15.3.5 小结
15.4 双盲降噪自编码器实现降噪
15.4.1 软测量任务需求
15.4.2 问题分析
15.4.3 去噪算法概述
15.4.4 双盲降噪自编码器
15.4.5 DBDAE降噪与软测量
15.4.6 小结
15.5 心率异常检测
15.5.1 心电图数据
15.5.2 基于残差神经网络的心电诊断
15.5.3 基于知识+特征工程的心电诊断
15.5.4 小结
本章小结
习题
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...