-
内容大纲
本书内容涵盖统计描述、相关分析、回归分析、数据降维、关联规则挖掘、分类、聚类、异常检测和集成学习等数据挖掘9大核心领域。通过原理解析、数学推导、流程分析、计算示例和案例演示,精心设计231个图表、47个代码示例及5大类学习模块,遴选了45个实践案例,全方位促进读者对内容的理解和掌握。此外,本书还配套丰富的数字化学习资源和全套教辅资料,形成了理论与实践并重的立体化教学体系。
本书可作为大数据管理与应用、数据科学与大数据技术等相关专业的本科生或研究生教材,也可以作为大数据与人工智能等相关方向从业人员的自学书籍。 -
作者介绍
吕欣,中国人民解放军国防科技大学系统工程学院首席专家,教授,博士生导师,“对抗性复杂系统智能决策”创新研究群体负责人。主要研究方向为大数据、复杂网络、应急管理等,研究成果广泛应用在地震、台风、疫情等国内外重大突发事件的应急响应中,关于应用移动大数据支撑应急救援的工作被《麻省理工科技评论》列为“全球十大突破性技术”,关于高风险人群网络抽样和统计推断的工作被命名为“吕-估计量”。研究成果发表在Nature、PNAS、Nature Microbiology Nature Communications、Physics Reports等高水平期刊上,得到《人民日报》、《解放军报》《科技日报》、《纽约时报》、新华社、BBC等高度正面评价。多次入选全球前2%顶尖科学家榜单,获全球移动大奖(The Global MobileAwards, GLOMOAwards),国家级教学成果奖二等奖,湖南省高等教育教学成果奖特等奖,深圳市科技进步奖一等奖,教育部高等学校科学研究优秀成果奖(科学技术)二等奖,军队科学技术进步奖二等奖,霍英东教育基金会高等院校青年科学奖等。 -
目录
第1章 绪论
1.1 大数据时代
1.2 大数据基本概念
1.2.1 大数据定义与内涵
1.2.2 大数据的主要特征
1.3 大数据与数据挖掘
1.3.1 大数据挖掘相关概念
1.3.2 数据挖掘基本流程
1.3.3 数据挖掘技术体系
1.3.4 大数据时代的挑战
1.4 大数据挖掘的典型应用
1.4.1 金融大数据
1.4.2 医疗大数据
1.4.3 制造业大数据
1.4.4 社交媒体大数据
1.5 大数据挖掘隐私与伦理问题
1.5.1 数据挖掘隐私问题
1.5.2 数据挖掘伦理问题
1.5.3 数据挖掘行为规范
本章小结
第2章 数据描述与统计指标
2.1 数据预处理
2.1.1 数据预处理概要
2.1.2 数据清洗
2.1.3 数据集成
2.1.4 数据獅
2.1.5 数据变换
2.1.6 实践案例:线上零售交易数据预处理
2.2 数据属性
2.2.1 标称属性
2.2.2 系数属性
2.2.3 数值属性
2.2.4 离散属性与连续属性
2.3 数据描述性统计
2.3.1 集中趋势度量
2.3.2 离散程度度量
2.3.3 分布形态度量
2.3.4 描述性统计常用工具
2.3.5 实践案例:化妆品销售数据描述性统计分析
2.4 数据可视化
2.4.1 条形图
2.4.2 饼图
2.4.3 箱线图
2.4.4 直方图
2.4.5 折线图
2.4.6 散点图
2.4.7 气泡图
2.4.8 数据可视化常用工具
2.4.9 实践案例:钻石属性数据可视化分析
本章小结
第3章 相关分析
3.1 认识函数关系与相关关系
3.1.1 函数关系
3.1.2 相关关系
3.2 线性相关分析
3.2.1 相关分析的正态性检验
3.2.2 Pearson 相关系数
3.2.3 Spearman 秩相关系数
3.2.4 Kendall等级相关系数
3.2.5 实践案例:网络直播大数据和亚马逊评论数据相关分析
3.3 非线性相关分析
3.3.1 认识非线性相关性
3.3.2 互信息
3.3.3 最大信息緣
3.3.4 实践案例:桥梁振动的相关分析
3.4 偏相关分析
3.4.1 偏相关分析概述
3.4.2 实践案例:国内主要城市年度统计指标数据偏相关分析
3.5 距离相关分析
3.5.1 距离度量方法
3.5.2 实践案例:用户相似性度量
本章小结
第4章 回归分析
4.1 回归分析概论
4.1.1 高尔顿身高回归研究
4.1.2 回归分析概述
4.1.3 回归模型的评价指标
4.2 线性回归
4.2.1 一元线性回归
4.2.2 实践案例:直播平台观众数预测
4.2.3 多元线性回归
4.2.4 实践案例:基于多元线性回归的汽车燃油效率预测
4.3 多重共线性
4.3.1 认识多重共线性
4.3.2 多重共线性的诊断
4.3.3 多重共线性的解决方案
4.4 岭回归
4.4.1 岭回归概述
4.4.2 岭参数的选择
4.4.3 实践案例:基于岭回归的汽车燃油效率预测
4.5 LASSO 回归
4.5.1 LASSO 回归概述
4.5.2 坐标下降法
4.5.3 实践案例:基于LASSO回归的汽车燃油效率预测
4.6 非线性回归
4.6.1 本质线性模型
4.6.2 本质非线性模型
4.6.3 实践案例:基于工龄的月薪预测
本章小结
第5章 数据降维
5.1 降维的基本概念
5.1.1 降维的定义及原理
5.1.2 降维算法分类
5.2 奇异值分解
5.2.1 奇异值分解基本原理
5.2.2 奇异值分解算法评价
5.2.3 实践案例:基于奇异值分解的图像压缩
5.3 主成分分析
5.3.1 主成分分析基本原理
5.3.2 主成分分析算法评价
5.3.3 实践案例:基于主成分分析的鸢尾花数据集分析
5.4 因子分析
5.4.1 因子分析基本原理
5.4.2 因子分析算法评价
5.4.3 实践案例:基于因子分析的人格特征潜在因子挖掘
5.5 多维尺度变换
5.5.1 多维尺度变换基本原理
5.5.2 多维尺度变换算法评价
5.5.3 实践案例:基于多维尺度变换的人脸数据集降维
5.6 等距特征映射
5.6.1 等距特征映射基本原理
5.6.2 等距特征映射算法评价
5.6.3 实践案例:基于等距特征映射的S状流形模型降维
5.7 线性判别分析
5.7.1 线性判别分析基本原理
5.7.2 线性判别分析算法评价
5.7.3 实践案例:基于线性判别分析的三维数据集降维
5.8 t-SNE
5.8.1 t-SNE基本原理
5.8.2 t-SNE算法评价
5.8.3 实践案例:基于t-SNE的手写数字数据集降维
5.9 UMAP
5.9.1 UMAP算法基本思想
5.9.2 UMAP算法评价
5.9.3 实践案例:基于UMAP的手写数字数据集降维
本章小结
第6章 关联规则挖掘
6.1 关联规则挖掘概要
6.1.1 关联规则的含义
6.1.2 频繁项集
6.1.3 闭频繁项集和极大频繁项集
6.1.4 从频繁项集到关联规则
6.1.5 关联模式的评估
6.2 Apriori 算法
6.2.1 Apriori算法基本原理
6.2.2 Apriori算法应用与评价
6.2.3 Apriori算法的优化
6.2.4 实践案例:基于Apriori算法的超市商品购买记录关联分析
6.3 FP-growth 算法
6.3.1 FP-growth算法基本原理
6.3.2 FP-growth算法应用与评价
6.3.3 实践案例:基于FP-growth算法消费者购物时间偏好关联分析
6.4 Eclat 算法
6.4.1 Eclat算法基本原理
6.4.2 Eclat算法应用与评价
6.4.3 实践案例:基于Eclat算法的糖尿病症状关联分析
6.5 H-mine 算法
6.5.1 H-mine算法基本原理
6.5.2 H-mine算法应用与评价
6.5.3 实践案例:基于H-mine算法的新闻推荐
本章小结
第7章 分类
7.1 分类霞概要
7.1.1 分类定义及原理
7.1.2 常用分类算法
7.1.3 分类算法评价指标
7.2 K-近邻
7.2.1 K-近邻基本原理
7.2.2 K-近邻主要参数
7.2.3 K-近邻算法应用与评价
7.2.4 实践案例:基于K-近邻的广告点击预测
7.3 朴素贝叶斯分类
7.3.1 贝叶斯分类基本原理
7.3.2 朴素贝叶斯分类原理
7.3.3 零频现象的拉普拉斯修正
7.3.4 朴素贝叶斯算法应用与评价
7.3.5 实践案例:基于朴素贝叶斯预测恒星类型
7.4 决策树
7.4.1 决策树基本原理
7.4.2 ID
7.4.3 C4.
7.4.4 CART
7.4.5 决策树算法应用与评价
7.4.6 实践案例:基于决策树的旅游业客户流失预测
7.5 Logistic 回归
7.5.1 从线性回归到Logistic回归
7.5.2 Logistic回归的损失函数
7.5.3 通过梯度下降求解最优参数
7.5.4 OvR和OvO
7.5.5 Logistic回归算法应用与评价
7.5.6 实践案例:基于Logistic回归的肝病预测
7.6 支持向量机
7.6.1 支持向量机概述
7.6.2 线性可分支持向量机
7.6.3 线性支持向量机
7.6.4 非线性支持向量机
7.6.5 支持向量机算法应用与评价
7.6.6 实践案例:不良用户识别
7.7 人工神经网络
7.7.1 感知机
7.7.2 XOR问题
7.7.3 多层感知树莫型
7.7.4 误差反向传播算法
7.7.5 深度神经网络
7.7.6 实践案例:基于面部特征的性别分类
本章小结
第8章 聚类
8.1 聚类算法概要
8.1.1 聚类的基本原理
8.1.2 聚类算法的分类
8.1.3 聚类算法评价指标
8.1.4 簇数量的确定
8.2 层次聚类
8.2.1 层次聚类算法基本原理
8.2.2 层次聚类算法应用与评价
8.2.3 实践案例:基于层次聚类的小麦种子聚类
8.3 K-means聚类
8.3.1 K-means算法基本原理
8.3.2 质心的初始化
8.3.3 K-means算法应用与评价
8.3.4 实践案例:基于K-means消费者画像构建
8.4 高斯混合聚类
8.4.1 高斯混合聚类基本原理
8.4.2 高斯混合聚类流程
8.4.3 高斯混合聚类应用与评价
8.4.4 实践案例:基于高斯混合聚类的食品聚类
8.5 DBSCAN算法
8.5.1 DBSCAN算法基本原理
8.5.2 DBSCAN算法应用与评价
8.5.3 实践案例:基于DBSCAN的用户信用卡数据聚类
8.6 OPTICS 算法
8.6.1 OPTICS算法基本原理
8.6.2 OPTICS算法应用与评价
8.6.3 实践案例:OPTICS与DBSCAN算法对比
8.7 谱聚类算法
8.7.1 谱聚类算法基本原理
8.7.2 谱聚类算法应用与评价
8.7.3 实践案例:基于谱聚类的股票数据聚类
本章小结
第9章 异常检测
9.1 异常检测算法概要
9.1.1 异常与异常检测
9.1.2 异常检测算法的分类
9.1.3 异常检测的常用数据集
9.2 基于统计理论的异常检测
9.2.1 3*准则
9.2.2 箱线图
9.2.3 基于直方图的异常值得分
9.2.4 累积和法
9.2.5 实践案例:基于箱线图的wiki网络流量异常检测
9.3 基于空间分布的异常检测
9.3.1 孤立森林
9.3.2 局部异常因子
9.3.3 实践案例:基于局部异常因子的信用卡欺诈行为检测
9.4 基于降维的异常检测
9.4.1 主成分分析
9.4.2 自编码器
9.4.3 实践案例:基于主成分分析的飞机发动机异常状态识别
9.5 基于预测的异常检测
9.5.1 向量自回归模型
9.5.2 自回归差分移动平均模型
9.5.3 LSTM网络模型
9.5.4 实践案例:基于LSTM的股票收盘价格异常检测
9.6 延伸阅读——WSARE
本章小结
第10章 集成学习
10.1 集成学习概要
10.1.1 集成学习的定义及原理
10.1.2 Bagging(装袋)
10.1.3 Boosting(提升)
10.1.4 Stacking(堆叠)
10.1.5 集成学习的结合策略
10.2 随机森林
10.2.1 随机森林基本原理
10.2.2 随机森林算法应用与评价
10.2.3 实践案例:基于随机森林算法的银行危机预测
10.3 AdaBoost
10.3.1 加法模型
10.3.2 前向分布算法
10.3.3 AdaBoost求解步骤
10.3.4 AdaBoost算法应用与评价
10.3.5 实践案例:基于AdaBoost算法的马疝病预测
10.4 梯度提升树
10.4.1 回归树基本原理
10.4.2 梯度提升树基本原理
10.4.3 梯度提升树算法应用与评价
10.4.4 实践案例:基于梯度提升树算法的充电桩故障状态预测
10.5 XGBoost
10.5.1 XGBoost基本原理
10.5.2 XGBoost目标函数构建
10.5.3 XGBoost目标函数求解
10.5.4 XGBoost算法应用与评价
10.5.5 实践案例:基于XGBoost算法的产品定价预测
10.6 LightGBM
10.6.1 LightGBM 的基本思想
10.6.2 直方图算法
10.6.3 梯度单边采样算法
10.6.4 互斥特征捆绑算法
10.6.5 LightGBM算法应用与评价
10.6.6 实践案例:基于LightGBM算法的中风预测
本章小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
