-
内容大纲
本书系统地介绍了数据挖掘算法、原理及基于Python的实现方法,将算法原理与案例相结合,帮助读者建立数据挖掘领域的理论基础,提升基本的实践技能。本书共15章,主要包括数据挖掘概述、Python环境的搭建、数据预处理、数据集划分与交叉验证评分、回归、分类、集成学习、参数调优、降维、特征选择与特征联合、流水线、聚类、关联规则、PageRank算法、人工神经网络。
本书可作为高校大数据技术、大数据管理与应用等相关专业的教材,也可以作为数据挖掘、数据分析相关爱好者的自学用书。 -
作者介绍
-
目录
第1章 数据挖掘概述
1.1 数据挖掘简介
1.1.1 数据挖掘的定义与目标
1.1.2 数据挖掘的应用
1.1.3 数据挖掘的算法
1.1.4 数据挖掘的相关概念
1.1.5 数据挖掘的流程
1.2 常用的数据挖掘工具
1.2.1 SAS Data Mining
1.2.2 RapidMiner
1.2.3 IBM SPSS Modeler
1.2.4 Oracle Data Mining
1.2.5 Apache Spark
1.2.6 R
1.2.7 Python数据挖掘工具包
1.3 常用数据集
1.3.1 常用数据集网站
1.3.2 Python工具包提供的数据集
小结
课后习题
第2章 Python环境的搭建
2.1 Python的安装与配置
2.1.1 Python的安装
2.1.2 Python第三方包的管理
2.2 Jupyter Notebook的安装与配置
2.2.1 Jupyter Notebook的安装
2.2.2 Jupyter Notebook的配置
2.2.3 Jupyter Notebook的使用
2.3 JupyterLab的安装与配置
2.3.1 JupyterLab的安装
2.3.2 JupyterLab的使用
2.3.3 插件的安装
2.4 JupyterHub的安装与配置
2.4.1 JupyterHub的安装
2.4.2 JupyterHub的配置
2.4.3 JupyterHub的启动与管理
2.5 Anaconda的安装与配置
2.5.1 Anaconda及相关包的安装
2.5.2 Anaconda的配置与使用
小结
课后习题
第3章 数据预处理
3.1 缺失值处理
3.1.1 填补法
3.1.2 删除法
3.2 数据标准化
3.2.1 Z-Score标准化
3.2.2 Min-Max标准化
3.2.3 RobustScaler标准化
3.2.4 sklearn中标准化对象的方法
3.3 特征编码
3.3.1 用map函数编码
3.3.2 标签编码
3.3.3 独热编码
3.3.4 哑元编码
3.3.5 离散化
3.4 离群值检测与处理
3.4.1 3σ法
3.4.2 箱线图法
3.4.3 基于近邻检测离群值法
3.4.4 聚类法
3.4.5 基于模型检测法
3.4.6 离群值处理
3.5 案例:加拿大轻型汽车燃料消耗等级和二氧化碳排放量数据集预处理
小结
课后习题
第4章 数据集划分与交叉验证评分
4.1 数据集划分
4.1.1 train_test_split()方法
4.1.2 K折交叉划分法
4.1.3 分层K折交叉划分法
4.1.4 乱序K次划分法
4.1.5 留一法
4.1.6 留P法
4.1.7 自助法
4.2 交叉验证评分
4.3 案例:房价数据集划分
小结
课后习题
第5章 回归
5.1 回归分析
5.1.1 线性回归
5.1.2 非线性回归
5.2 回归模型评价
5.2.1 决定系数
5.2.2 均方误差
5.2.3 平均绝对误差
5.2.4 其他评价方法
5.3 案例:波士顿房价预测
小结
课后习题
第6章 分类
6.1 分类算法
6.1.1 逻辑回归
6.1.2 K近邻
6.1.3 决策树
6.1.4 朴素贝叶斯
6.1.5 支持向量机
6.2 分类模型评价
6.2.1 常用评价指标
6.2.2 P-R曲线
6.2.3 ROC曲线
6.3 案例:汽车满意度预测
小结
课后习题
第7章 集成学习
7.1 装袋法
7.1.1 将装袋法用于解决分类问题
7.1.2 将装袋法用于解决回归问题
7.1.3 随机森林
7.2 提升法
7.2.1 自适应提升分类算法
7.2.2 梯度提升树
7.2.3 极致梯度提升
7.3 堆叠法
7.4 投票法
7.5 案例:通过随机森林实现鸢尾花分类
小结
课后习题
第8章 参数调优
8.1 人工循环搜索
8.2 网格搜索
8.3 随机搜索
8.4 贝叶斯搜索
8.5 案例:汽车满意度预测模型参数调优
小结
课后习题
第9章 降维
9.1 矩阵分解降维
9.1.1 主成分分析
9.1.2 核PCA
9.1.3 非负矩阵分解
9.1.4 因子分析
9.1.5 独立主成分分析
9.2 判别分析
9.2.1 线性判别分析
9.2.2 二次判别分析
9.3 基于流形学习的数据降维方法
9.3.1 局部线性嵌入
9.3.2 多维尺度变换
9.3.3 t分布随机邻域嵌入
9.4 案例:Fashion-MNIST数据集的降维与可视化
小结
课后习题
第10章 特征选择与特征联合
10.1 特征选择
10.1.1 过滤法
10.1.2 装袋法
10.1.3 嵌入法
10.2 案例:对中学教育学生成绩数据集进行特征选择
10.3 多项式特征
10.4 案例:为同心圆数据集构建多项式特征
10.5 特征联合
10.6 案例:基于波士顿房价数据集实现特征联合
小结
课后习题
第11章 流水线
11.1 流水线结构
11.2 预处理流水线
11.3 带学习器的流水线
11.4 采用网格搜索寻找流水线中模型的最优参数
11.5 采用网格搜索选择流水线中的模型
11.6 复杂流水线
11.7 案例:乳腺癌数据集的分类模型的选择
小结
课后习题
第12章 聚类
12.1 样本距离计算
12.1.1 欧氏距离
12.1.2 曼哈顿距离
12.1.3 切比雪夫距离
12.1.4 闵可夫斯基距离
12.1.5 余弦相似度
12.1.6 相关距离
12.1.7 杰卡德距离
12.1.8 汉明距离
12.2 常用的聚类方法
12.2.1 K均值聚类
12.2.2 层次聚类
12.2.3 带噪声的基于密度的聚类
12.2.4 均值漂移聚类
12.2.5 谱聚类
12.3 聚类模型评价
12.3.1 轮廓系数
12.3.2 兰德指数
12.4 案例:汽车车型聚类
小结
课后习题
第13章 关联规则
13.1 基本概念
13.1.1 项与项集
13.1.2 事务
13.1.3 频繁项集
13.1.4 关联规则
13.2 评价准则
13.2.1 支持度
13.2.2 置信度
13.2.3 强关联规则与弱关联规则
13.2.4 杠杆率
13.2.5 确信度
13.2.6 提升度
13.3 关联规则算法
13.3.1 Apriori算法
13.3.2 FP-Growth算法
13.4 案例:使用Apriori算法实现超市购物车数据集分析
13.5 案例:使用FP-Growth算法实现超市购物车数据集分析
小结
课后习题
第14章 PageRank算法
14.1 PageRank算法简介
14.2 PageRank值的计算
14.3 案例:机场排名
14.4 案例:邮件集人物关系
小结
课后习题
第15章 人工神经网络
15.1 感知机
15.1.1 单层感知机
15.1.2 多层感知机
15.2 常用的人工神经网络
15.2.1 全连接前馈神经网络
15.2.2 卷积神经网络
15.2.3 循环神经网络
15.2.4 其他神经网络
15.3 常用的激活函数
15.3.1 sigmoid函数
15.3.2 tanh函数
15.3.3 ReLU函数
15.3.4 Leaky ReLU函数
15.3.5 ELU函数
15.3.6 Maxout函数
15.3.7 Softmax 函数
15.4 常用的损失函数
15.4.1 均方误差
15.4.2 平均绝对误差
15.4.3 二元交叉熵
15.4.4 多分类交叉熵
15.4.5 稀疏多分类交叉熵
15.5 神经网络模型实现
15.5.1 构建神经网络模型
15.5.2 编译神经网络模型
15.5.3 训练神经网络模型
15.5.4 评价模型
15.5.5 用模型进行预测
15.6 案例:保险费用预测
15.7 案例:手写数字识别
小结
课后习题
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
