-
内容大纲
数据科学项目有很多灵活的部分,需要练习和技巧才能让所有代码、算法、数据集、格式和可视化协调工作。本书将引导你完成5个真实项目,包括根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式。
《Python数据科学项目实战》并不止于表面理论和简单示例。在完成每个项目时,你将学习如何解决常见问题,例如数据丢失、混乱的数据以及与构建模型不匹配的算法。你将了解详细的设置说明和常见故障的全面解决方案。最后,通过完成这些项目,你将对自己的技能充满信心。
主要内容:
网页抓取;
使用聚类算法组织数据集;
可视化复杂的多变量数据集;
训练决策树机器学习算法。
阅读门槛
本书适用于了解Python基础知识的读者,不要求预先掌握数据科学或机器学习技能。 -
作者介绍
伦纳德·阿佩尔辛(Leonard Apeltsin)是Anomaly的数据科学主管,他的团队应用高级分析技术来识别医疗欺诈、浪费和滥用情况。 -
目录
案例研究1 在纸牌游戏中寻找制胜策略
第1章 使用Python计算概率
1.1 样本空间分析:一种用于测量结果不确定性的无方程方法
1.2 计算非平凡概率
1.2.1 问题1:分析一个有4个孩子的家庭
1.2.2 问题2:分析掷骰子游戏
1.2.3 问题3:使用加权样本空间计算掷骰概率
1.3 计算区间范围内的概率
1.4 本章小结
第2章 使用Matplotlib绘制概率图
2.1 基本的Matplotlib图
2.2 绘制抛硬币概率
2.3 本章小结
第3章 在NumPy中运行随机模拟
3.1 使用NumPy模拟随机抛硬币和掷骰子实验
3.2 使用直方图和NumPy数组计算置信区间
3.2.1 通过直方图合并显示邻近值
3.2.2 利用直方图进行概率推导
3.2.3 缩小较高置信区间的范围
3.2.4 NumPy中计算直方图
3.3 使用置信区间分析一副有偏纸牌
3.4 使用排列来洗牌
3.5 本章小结
第4章 案例研究1的解决方案
4.1 对红牌进行预测
4.2 使用10张牌的样本空间来优化策略
4.3 本章小结
案例研究2 评估在线广告点击的显著性
第5章 使用SciPy进行基本概率和统计分析
5.1 使用SciPy探索数据和概率之间的关系
5.2 将均值作为中心性的度量
5.3 悔方差作为离散性的度量
5.4 本章小结
第6章 使用中心极限定理和SciPy进行预测
6.1 使用SciPy处理正态分布
6.2 通过随机采样确定总体的均值和方差
6.3 使用均值和方差进行预测
6.3.1 计算正态曲线下方的面积
6.3.2 对计算的概率进行解释
6.4 本章小结
第7章 统计假设检验
7.1 评估样本均值和总体均值之间的差异
7.2 数据捕捞:过采样将导致错误的结论
7.3 有放回的自举法:当总体方差未知时检验假设
……
案例研究3 利用新闻标题跟踪疾病暴发
案例研究4 使用在线招聘信息优化简历
案例研究5 利用社交网络数据发现新朋友
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...