-
内容大纲
本书主要从实战角度讲述了如何处理、分析和可视化数据,如何用数据建立各种统计学或机器学习模型。本书首先介绍如何使用Python代码获取、转换和分析数据;接着讲述如何使用Python中的数据结构和第三方库;然后展示如何以各种格式加载数据,如何对数据进行分组与汇总,如何创建图表和可视化数据;最后讨论如何解决实际的问题。
本书适合希望使用Python处理和分析数据的开发人员阅读,也可供计算机相关专业的师生参考。 -
作者介绍
尤利·瓦西列夫(Yuli Vasiliev)是一名程序员、作家,精通数据结构和数据库后端开发。他是Natural Language Processing with Python and spaCy一书的作者。 -
目录
第1章 数据的基础知识
1.1 数据类别
1.1.1 非结构化数据
1.1.2 结构化数据
1.1.3 半结构化数据
1.1.4 时间序列数据
1.2 数据来源
1.2.1 API
1.2.2 网页
1.2.3 数据框
1.2.4 文件
1.3 数据处理流程
1.3.1 数据获取
1.3.2 数据清洗
1.3.3 数据变换
1.3.4 数据分析
1.3.5 数据存储
1.4 Python特有的方式
1.5 总结
第2章 Python数据结构
2.1 列表
2.1.1 创建列表
2.1.2 使用常见列表对象方法
2.1.3 使用切片符号
2.1.4 用列表实现队列
2.1.5 用列表实现栈
2.1.6 用列表和栈进行自然语言处理
2.1.7 使用列表推导式改进算法
2.2 元组
2.2.1 元组列表
2.2.2 不变性
2.3 字典
2.3.1 字典列表
2.3.2 使用setdefault()在字典中添加元素
2.3.3 将JSON文件加载到字典中
2.4 集合
2.4.1 从序列中删除重复项
2.4.2 实现常见集合运算
2.5 总结
第3章 Python第三方库
3.1 NumPy库
3.1.1 安装NumPy库
3.1.2 创建NumPy数组
3.1.3 逐点运算
3.1.4 使用NumPy统计函数
3.2 pandas库
3.2.1 安装pandas库
3.2.2 序列
3.2.3 数据框
3.3 scikit-learn库
3.3.1 安装scikit-learn库
3.3.2 获得样本数据
3.3.3 把样本数据载入数据框
3.3.4 把数据分成训练数据集和测试数据集
3.3.5 把文本转化为数值特征向量
3.3.6 训练和评估模型
3.3.7 在新数据中做预测
3.4 总结
第4章 从文件和API访问数据
4.1 使用Python函数open()导入数据
4.1.1 文本文件
4.1.2 表格数据文件
4.1.3 二进制文件
4.2 将数据导出到文件
4.3 访问远程文件和API
4.3.1 HTTP请求的工作原理
4.3.2 urllib3库
4.3.3 Requests库
4.4 将数据移入或移出数据框
4.4.1 导入嵌套的JSON结构
4.4.2 将数据框转换为JSON文档
4.4.3 使用pandas-datareader库将在线数据加载到数据框中
4.5 总结
第5章 使用数据库
5.1 关系数据库
5.1.1 了解SQL语句
5.1.2 MySQL入门
5.1.3 定义数据库结构
5.1.4 将数据插入数据库中
5.1.5 查询数据库数据
5.1.6 使用数据库分析工具
5.2 NoSQL数据库
5.2.1 Redis数据库
5.2.2 MongoDB数据库
5.3 总结
第6章 聚合数据
6.1 要聚合的数据
6.2 合并数据框
6.3 分组和聚合数据
6.3.1 按多索引查看特定值
6.3.2 通过切片获得一系列值
6.3.3 多索引多层次切片
6.3.4 添加总计
6.3.5 添加小计
6.4 选择组中的所有行
6.5 总结
第7章 合并数据
7.1 合并Python数据结构
7.1.1 使用“+”合并列表和元组
7.1.2 使用“**”合并字典
7.1.3 合并两个结构的对应行
7.1.4 列表的多种合并方式
7.2 合并NumPy数组
7.3 合并pandas数据结构
7.3.1 连接数据框
7.3.2 合并两个数据框
7.4 总结
第8章 数据可视化
8.1 常见可视化形式
8.1.1 折线图
8.1.2 柱状图
8.1.3 饼状图
8.1.4 直方图
8.2 使用Matplotlib库绘制图
8.2.1 安装Matplotlib库
8.2.2 使用matplotlib.pyplot
8.2.3 使用Figure和Axes对象
8.3 总结
第9章 分析空间数据
9.1 获取空间数据
9.1.1 将人可读的地址转换为地理坐标
9.1.2 获取移动对象的地理坐标
9.2 基于geopy库和Shapely库的空间数据分析
9.2.1 查找最近的对象
9.2.2 在特定区域中查找对象
9.2.3 结合两种方法
9.3 结合空间数据和非空间数据
9.3.1 提取非空间属性
9.3.2 合并空间数据集和非空间数据集
9.4 总结
第10章 分析时间序列数据
10.1 规则时间序列与不规则时间序列
10.2 常见的时间序列分析技术
10.2.1 计算百分比变化
10.2.2 滚动窗口计算
10.2.3 计算滚动平均值的百分比变化
10.3 多元时间序列
10.3.1 处理多元时间序列
10.3.2 分析变量之间的依赖性
10.4 总结
第11章 从数据中挖掘信息
11.1 关联法则
11.1.1 支持度
11.1.2 置信度
11.1.3 提升度
11.2 Apriori算法
11.2.1 创建交易数据集
11.2.2 识别频繁项集
11.2.3 生成关联规则
11.3 可视化关联规则
11.4 从关联规则获得可操作信息
11.4.1 生成推荐信息
11.4.2 基于关联规则的折扣规划
11.5 总结
第12章 数据分析的机器学习
12.1 为什么选择机器学习
12.2 机器学习的类型
12.2.1 有监督学习
12.2.2 无监督学习
12.3 机器学习的工作原理
12.3.1 训练数据
12.3.2 统计模型
12.3.3 预测数据
12.4 情感分析示例:产品评论分类
12.4.1 获取产品评论
12.4.2 清理数据
12.4.3 拆分和转换数据
12.4.4 训练模型
12.4.5 评估模型
12.5 预测股票走势
12.5.1 获取数据
12.5.2 从连续数据中提取特征
12.5.3 生成输出变量
12.5.4 训练和评估模型
12.6 总结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...