-
内容大纲
本书解释了数据科学中至关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第2版在第1版的基础上加入了更多以Python和R编写的示例,更清楚地阐释了如何将统计方法用于数据科学。
本书适合对R和Python有一定了解的数据科学从业者阅卖。 -
作者介绍
-
目录
第1章 探索性数据分析
1.1 结构化数据的要素
1.2 矩形数据
1.2.1 数据框和索引
1.2.2 非矩形数据结构
1.2.3 扩展阅读
1.3 位置估计
1.3.1 均值
1.3.2 位数和健壮的估计
1.3.3 示例:人口和谋杀率的位置估计
1.3.4 扩展阅读
1.4 变异性估计
1.4.1 标准差以及相关估计
1.4.2 基于百分位数的估计
1.4.3 示例:美国各州人口数量的变异性估计
1.4.4 扩展阅读
1.5 探索数据分布
1.5.1 百分位数与箱线图
1.5.2 频数表和直方图
1.5.3 密度图和密度估计
1.5.4 扩展阅读
1.6 探索二元数据和分类型数据
1.6.1 众数
1.6.2 期望值
1.6.3 概率
1.6.4 扩展阅读
1.7 相关性
1.7.1 散点图
1.7.2 扩展阅读
1.8 探索两个及以上的变量
1.8.1 六边形分箱图和等高线图(绘制数值型数据之间的关系)
1.8.2 两个分类变量
1.8.3 分类型数据和数值型数据
1.8.4 多个变量的可视化
1.8.5 扩展阅读
1.9 小结
第2章 数据与抽样分布
2.1 随机抽样和样本偏差
2.1.1 偏差
2.1.2 随机选择
2.1.3 数量和质量:什么时候数量更重要
2.1.4 样本均值与总体均值
2.1.5 扩展阅读
2.2 选择偏差
2.2.1 均值回归
2.2.2 扩展阅读
2.3 统计量的抽样分布
2.3.1 中心极限定理
2.3.2 标准误差
2.3.3 扩展阅读
2.4 Bootstrap方法
2.4.1 重抽样与Bootstrap方法
2.4.2 扩展阅读
2.5 置信区间
2.6 正态分布
2.7 长尾分布
2.8 学生的t分布
2.9 二项分布
2.10 卡方分布
2.11 F分布
2.12 泊松及其相关分布
2.12.1 泊松分布
2.12.2 指数分布
2.12.3 估计故障率
2.12.4 韦布尔分布
2.12.5 扩展阅读
2.13 小结
第3章 统计实验与显著性检验
3.1 AB测试
3.1.1 为什么要有对照组
3.1.2 为什么只有AB,没有CD
3.1.3 扩展阅读
3.2 假设检验
3.2.1 零假设
3.2.2 备择假设
3.2.3 单向假设检验与双向假设检验
3.2.4 扩展阅读
3.3 重抽样
3.3.1 置换检验
3.3.2 示例:Web黏性
3.3.3 穷尽置
……
第4章 回归与预测
第5章 分类
第6章 统计机器学习
第7章 无监督学习
拓展阅读
作者介绍
封面介绍
同类热销排行榜
- 向着光亮那方/谁的青春不迷茫系列16.8
- 你所谓的稳定不过是在浪费生命15.2
- 全球通史(从史前史到21世纪第7版修订版下)/培文书系21.6
- 答案之书(精)15.2
- 八万四千问18
- 万历十五年/黄仁宇作品系列10.4
- 耶路撒冷三千年(精)31.2
- 中国大历史/黄仁宇作品系列11.2
- 梦的解析15.92
- 鱼羊野史(第6卷11-12月晓松说历史上的今天)18
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...