-
内容大纲
作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据——无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。
本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Python编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。 -
作者介绍
-
目录
前言
第一部分 数据科学生命周期
第1章 何为数据科学生命周期?
1.1 生命周期的各个阶段
1.2 生命周期实例
1.3 小结
第2章 数据与数据范围
2.1 大数据和新机遇
示例:Google流感趋势
2.2 目标总体、接触框、样本
2.2.1 示例:是什么让在线社区成员变得活跃?
2.2.2 示例:谁会赢得选举?
2.2.3 示例:环境危害如何影响个人健康?
2.3 工具与方案
2.4 测量自然现象
示例:空气中的CO2浓度是多少?
2.5 准确性
2.5.1 偏差类型
2.5.2 变异类型
2.6 小结
第3章 模拟与数据设计
3.1 瓮模型
3.1.1 抽样设计
3.1.2 统计量的抽样分布
3.1.3 模拟抽样分布
3.1.4 超几何分布模拟
3.2 示例:模拟选举投票的偏差和方差
3.2.1 宾夕法尼亚州的瓮模型
3.2.2 带有偏差的瓮模型
3.2.3 开展更大规模的民调
3.3 示例:模拟疫苗的随机化试验
3.3.1 数据范围
3.3.2 随机分配的瓮模型
3.4 示例:测量空气质量
3.5 小结
第4章 使用汇总统计量建模
4.1 常数模型
4.2 损失最小化
4.2.1 平均绝对误差
4.2.2 均方误差
4.2.3 选择损失函数
4.3 小结
第5章 案例研究:为什么我的公交车总是晚点?
5.1 问题与范围
5.2 数据整理
5.3 分析公交车时间
5.4 候车时间建模
5.5 小结
第二部分 表格型数据
第6章 使用pandas处理DataFrame
6.1 子集
6.1.1 数据范围和问题
6.1.2 DataFrame和索引
6.1.3 切片
6.1.4 过滤行
6.1.5 示例:Luna这个名字是什么时候流行起来的?
6.2 聚合
6.2.1 基本分组聚合
6.2.2 多列分组
6.2.3 自定义聚合函数
6.2.4 透视
6.3 连接
6.3.1 内连接
6.3.2 左连接、右连接和外连接
6.3.3 示例:婴儿名字类别的流行度变化
6.4 数据变换
6.4.1 .apply()方法
6.4.2 示例:“L”开头名字的流行度
6.4.3 .apply()的代价
6.5 DataFrame与其他数据表示方式有何不同?
6.5.1 DataFrame与电子表格
6.5.2 DataFrame与矩阵
6.5.3 DataFrame与关系表
6.6 小结
……
第三部分 理解数据
第四部分 其他数据源
第五部分 线性建模
第六部分 分类
延伸阅读
数据源
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
