-
内容大纲
本书以Python 3.8.1为工具,借助Pycharm开发平台和Anaconda3完成数据分析与挖掘实践。全书分为两个部分:第一部分为理论篇,包括第1~5章,介绍数据挖掘、Python、网络爬虫、数据探索与数据预处理、数据挖掘算法等基础知识,每个知识点均有案例支持,为后续数据挖掘奠定实践基础;第二部分为实践篇,包括第6~10章,介绍决策树预测NBA获胜球队、航空公司客户价值分析、商业零售行业中的购物篮分析、数据挖掘在中文文本分类中的应用和重庆市主城区二手房可视化分析,以网络爬虫为切入点引入数据集,以常用数据挖掘算法应用为主线进行数据挖掘实践。
本书内容翔实,案例丰富,既可作为应用型本科及高职高专大数据、计算机等相关专业的教材,亦可供Python数据挖掘爱好者自学使用。 -
作者介绍
-
目录
第一部分 理论篇
第1章 数据挖掘概述
1.1 数据挖掘的概念
1.2 数据挖掘的基本任务
1.3 数据挖掘建模过程
1.3.1 定义挖掘目标
1.3.2 数据采集与抽样
1.3.3 数据探索
1.3.4 数据预处理
1.3.5 数据挖掘建模
1.3.6 模型评价
1.4 常用数据挖掘工具
1.5 数据挖掘现状及应用前景
本章小结
第2章 Python概述
2.1 初识Python
2.1.1 Python的版本
2.1.2 Python的应用领域
2.2 搭建Python开发环境
2.2.1 下载与安装Python
2.2.2 下载与安装PyCharm
2.2.3 下载与安装Anaconda
2.3 基于Python编写简单案例
2.4 Python中与数据挖掘相关的第三方库
2.4.1 Numpy
2.4.2 Scipy
2.4.3 Matplotlib
2.4.4 Pandas
2.4.5 StatsModels
2.4.6 Scikit.Learn
本章小结
第3章 Python快速入门
3.1 数据结构及方法
3.1.1 列表
3.1.2 元组
3.1.3 字典
3.2 控制流
3.2.1 if分支
3.2.2 for循环
3.2.3 while循环
3.3 字符串处理方法
3.3.1 字符串的常用方法
3.3.2 正则表达式
3.4 自定义函数
3.4.1 自定义函数语法
3.4.2 自定义函数的几种参数
3.5 网络爬虫的原理
3.5.1 理论概述
3.5.2 爬虫的工作流程
3.6 爬虫所用库及框架介绍
3.6.1 Requests库介绍及用法
3.6.2 BeautifulSoup库介绍及用法
3.6.3 Re库介绍
3.7 网络爬虫的设计与实现
3.7.1 网络爬虫的总体设计
3.7.2 网络爬虫具体实现过程
3.7.3 爬虫结果
本章小结
第4章 数据探索与数据预处理
4.1 数据探索核心内容
4.1.1 数据质量分析
4.1.2 数据特征分析
4.1.3 Python主要探索函数
4.2 数据预处理核心内容
4.2.1 数据清洗
4.2.2 数据变换
4.2.3 数据规约
4.2.4 Python主要的数据预处理函数
本章小结
第5章 常用数据挖掘算法
5.1 分类与预测算法
5.1.1 分类与预测算法概述
5.1.2 分类与预测算法实现过程
5.1.3 决策树算法
5.1.4 贝叶斯分类
5.1.5 人工神经网络
5.1.6 分类与预测算法评价
5.2 聚类分析算法
5.2.1 聚类分析算法概述
5.2.2 K.Means算法
5.2.3 聚类分析算法评价
5.3 关联规则算法
5.3.1 关联规则算法概述
5.3.2 Apriori算法
本章小结
第二部分 实践篇
第6章 决策树预测NBA获胜球队
6.1 加载数据集
6.1.1 使用网络爬虫采集数据
6.1.2 用Pandas加载数据集
6.1.3 NBA球赛数据清洗
6.1.4 提取新特征
6.2 决策树应用
6.2.1 决策树中的参数
6.2.2 使用决策树
6.3 NBA比赛结果预测
6.4 随机森林
6.4.1 决策树的集成效果
6.4.2 随机森林算法的参数
6.4.3 使用随机森林算法
6.4.4 创建新特征
本章小结
第7章 航空公司客户价值分析
7.1 背景与挖掘目标
7.2 案例建模流程
7.3 航空公司数据加载
7.3.1 数据抽取
7.3.2 数据探索分析
7.4 航空公司数据预处理
7.5 航空公司模型构建
本章小结
第8章 商业零售行业中的购物篮分析
8.1 背景与挖掘目标
8.2 加载商业零售数据集
8.3 商业零售数据预处理
8.4 初步探索数据
8.4.1 查看各数据项的取值
8.4.2 性别和婚姻状况
8.4.3 年龄
8.4.4 职业
8.4.5 居住时间
8.4.6 城市
8.5 二次探索数据
8.5.1 畅销产品
8.5.2 年龄与产品类型的关系
8.5.3 居住时间与产品类型的关系
8.5.4 性别、婚姻状况与产品类型的关系
8.5.5 城市与产品类型的关系
8.6 构建随机森林模型
8.6.1 特征工程
8.6.2 模型训练
8.6.3 模型优化
本章小结
第9章 数据挖掘在中文文本分类中的应用
9.1 背景与挖掘目标
9.2 加载文本分类数据集
9.2.1 待加载数据集
9.2.2 加载文本数据
9.2.3 文本分类数据清洗
9.2.4 提取新特征与文本向量化表示
9.3 文本分类模型构建
9.4 Python编程实现
本章小结
第10章 重庆市主城区二手房可视化分析
10.1 背景与挖掘目标
10.2 数据采集与数据清洗
10.2.1 数据采集
10.2.2 数据清洗
10.3 数据可视化分析
10.3.1 主城区二手房数据加载
10.3.2 数据整体质量分析
10.3.3 重庆主城区二手房基本信息可视化分析
10.3.4 重庆主城区二手房房屋属性可视化分析
10.4 主城区二手房模型构建
10.4.1 K值的选定
10.4.2 初始的K个质心选定
10.4.3 离群点处理
10.4.4 数据的标准化
10.4.5 聚类结果分析
本章小结
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...