-
内容大纲
使用Python进行数据分析与可视化十分便利且高效,因此Python被认为是最优秀的数据分析工具之一。本书以22个案例,由浅入深地介绍不同数据分析与可视化的应用和实现。仅通过这些案例并不能展示数据分析与可视化的全部精髓,而更多的应用也值得读者在学到一定的基础技能后进一步探索。
本书面向高等院校计算机科学、软件工程、大数据、人工智能等相关专业的师生,以及Python语言初学者和数据分析从业人士。 -
作者介绍
-
目录
第1章 Python数据分析与可视化概述
1.1 从MATLAB到Python
1.2 NumPy
1.3 Pandas
1.4 Matplotlib
1.5 SciPy与SymPy
第2章 新生数据分析与可视化
2.1 使用Pandas对数据预处理
2.2 使用Matplotlib库画图
2.3 使用Pandas进行绘图
第3章 Python表格处理分析
3.1 背景介绍
3.2 前期准备与基本操作
3.2.1 基本术语概念说明
3.2.2 安装openpyxl并创建一个工作簿
3.2.3 从Excel工作簿中读取数据
3.2.4 迭代访问数据
3.2.5 插入数据
3.3 进阶内容
3.3.1 为Excel表单添加公式
3.3.2 为表单添加条件格式
3.3.3 为Excel表单添加图表
3.4 数据分析实例
3.4.1 背景与前期准备
3.4.2 使用openpyxl读取数据并转为DataFrame
3.4.3 绘制数值列直方图
3.4.4 绘制相关性矩阵
3.4.5 绘制散布矩阵
3.4.6 将可视化结果插入Excel表格
第4章 美国加利福尼亚州房价预测的数据分析
4.1 数据的读入和初步分析
4.1.1 数据读入
4.1.2 分割测试集与训练集
4.1.3 数据的初步分析
4.2 数据的预处理
4.2.1 拆分数据
4.2.2 空白值的填充
4.2.3 数据标准化
4.2.4 数据的流程化处理
4.3 模型的构建
4.3.1 查看不同模型的表现
4.3.2 选择效果最好的模型进行预测
第5章 影评数据分析与电影推荐
5.1 明确目标与准备数据
5.2 工具选择
5.3 初步分析
5.3.1 用户角度分析
5.3.2 电影角度分析
5.4 电影推荐
第6章 医疗花费预测
6.1 数据读取
6.2 数据预处理
6.2.1 字符串类型的转换
6.2.2 数据的分布和映射
6.3 数据分析
6.3.1 协方差矩阵和热力图
6.3.2 DBSCAN聚类算法
6.3.3 支持向量机分类算法
6.4 线性回归
6.5 结果预测
6.6 结果分析
第7章 用户消费行为分析
7.1 RFM模型简介
7.2 数据读入
7.3 数据清洗和预处理
7.3.1 数据清洗
7.3.2 数据预处理
7.4 RFM统计量计算
7.5 RFM归类
7.6 结果保存
7.7 可视化结果
第8章 用户流失预警
8.1 读入数据
8.2 数据预处理和自变量标准化
8.3 五折交叉验证
8.4 代入三种模型
8.5 调整prob阈值,输出精度评估
第9章 在Kaggle上预测房价
9.1 读取数据集
9.2 预处理数据集
9.3 训练模型
9.4 k折交叉验证
9.5 模型选择和调整
9.6 在Kaggle上提交预测结果
第10章 世界杯
10.1 数据说明
10.2 世界杯观众
10.3 世界杯冠军
10.4 世界杯参赛队伍与比赛
10.5 世界杯进球
第11章 股价预测
11.1 使用Tsfresh进行升维和特征工程
11.2 程序设计思路
11.3 程序设计步骤
11.3.1 读人并分析数据
11.3.2 移窗
11.3.3 升维
11.3.4 方差过滤
11.3.5 使用AdaBoostRegressor模型进行回归预测
11.3.6 预测结果分析
第12章 基于上下文感知的多模态交通推荐
12.1 案例目标
12.2 数据说明
12.2.1 查询记录
12.2.2 显示记录
12.2.3 点击记录
12.2.4 用户记录
12.3 解决方案
12.3.1 导入工具包和数据
12.3.2 特征导入和数据处理
12.3.3 模型训练与结果保存
第13章 美国波士顿房价预测
13.1 背景介绍
13.2 数据清洗
13.3 数据分析
13.4 分析结果
第14章 机器人最优路径走迷宫
14.1 关键技术
14.1.1 马尔可夫决策过程
14.1.2 Bellman方程
14.2 程序设计步骤
14.2.1 初始化迷宫地图
14.2.2 计算不同位置的最优路径
第15章 基于K-means算法的鸢尾花数据聚类和可视化
15.1 数据及工具简介
15.1.1 Iris数据集(鸢尾花数据集)
15.1.2 Tkinter
15.2 案例分析
15.2.1 模块引入
15.2.2 布局图形界面
15.2.3 读取数据文件
15.2.4 聚类
15.2.5 聚类结果可视化
15.2.6 误差分析及其可视化
15.2.7 使用流程
第16章 利用手机的购物评论分析手机特征
16.1 数据准备
16.2 数据分析
16.2.1 模型介绍
16.2.2 算法应用
16.2.3 名词提取
16.2.4 情感分析
第17章 菜谱分析
17.1 数据集介绍
17.2 数据观察
17.2.1 数据读入
17.2.2 分布统计
17.3 数据预处理
17.3.1 英文单词标准化
17.3.2 数据向量化
17.4 模型构建
第18章 基于回归问题和XGBoost模型的房价预测
18.1 XGBoost模型介绍
18.2 技术方案
18.2.1 数据分析
18.2.2 XGBoost模型参数
18.2.3 调参过程
18.3 完整代码及结果展示
第19章 基于VGG19和TrensorBoard的图像分类和数据可视化
19.1 背景概念介绍
19.1.1 VGGl 9模型
19.1.2 TensorBoard
19.1.3 CIFAR-10数据集
19.2 网络搭建与TensorBoard可视化实战
19.2.1 网络搭建
19.2.2 准备数据并构建网络实例
19.2.3 TrensorBoard训练过程可视化
第20章 基于Elasticsearch实现附近小区信息搜索
20.1 Elasticsearch的简介与安装
20.1.1 Elasticsearch的简介
20.1.2 Elasticsearch的安装
20.2 数据准备
20.2.1 网页分析与信息提取
20.2.2 获取经纬度
20.2.3 数据格式转换
20.3 Python实现Elasticsearch基础操作
20.3.1 创建索引和插入数据
20.3.2 查询数据和数据类型
20.3.3 删除相关操作
20.3.4 检索功能
20.4 房价地理位置坐标搜索实现
第21章 汽车贷款违约的数据分析
21.1 数据样本分析
21.1.1 数据样本概i术
21.1.2 变量类型分析
21.1.3 Python代码实践
21.2 数据的预处理
21.2.1 目标变量探索
21.2.2 X变量初步探索
21.2.3 连续变量的缺失值处理
21.2.4 分类变量的缺失值处理
21.3 数据分析的模型建立与评估
21.3.1 数据的预处理与训练集划分
21.3.2 采用回归模型进行数据分析
21.3.3 采用决策树进行数据分析
21.3.4 采用随机森林优化决策树模型
第22章 基于spark的搜索引擎日志用户行为分析
22.1 功能需求
22.1.1 搜索引擎用户行为分析的意义
22.1.2 搜索引擎日志概述
22.2 系统架构
22.2.1 用户搜索流程
22.2.2 系统架构设计
22.3 功能实现
22.3.1 Spark本地运行环境搭建
22.3.2 搜索引擎日志数据获取
22.3.3 分析指标
22.3.4 Spark任务提交
第23章 科比职业生涯进球分析
23.1 预处理
23.2 分析科比的命中率
23.3 分析科比的投篮习惯
附录A PyTorch环境搭建
A.1 Linux平台下PyTorch环境搭建
A.2 Windows平台下PyTorch环境搭建
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
