-
内容大纲
本书对迅速兴起的数据科学跨学科领域提供必要的介绍,内容引人入胜,叙述条理清晰,特别强调分析数据时什么是真正重要的内容,使读者直观地理解如何使用这些核心概念。具体内容主要包括数据科学是什么、数据整理、得分和排名、统计分析、数据可视化、数学模型、线性代数、线性回归、logistic回归、距离和网络方法、机器学习、大数据等。
本书特别适合作为数据科学和大数据相关专业本科生和低年级研究生的教材,也非常适合作为该领域和相关领域从业者的自学参考书。 -
作者介绍
史蒂文·S.斯基纳(Steven S.Skiena),博士,石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Marelal。 -
目录
译者序
前言
第1章 什么是数据科学
1.1 计算机科学、数据科学和真正的科学
1.2 从数据中提出有趣的问题
1.2.1 棒球百科全书
1.2.2 互联网电影数据库
1.2.3 Google Ngrams
1.2.4 纽约出租车记录
1.3 数据的属性
1.3.1 结构化与非结构化数据
1.3.2 定量数据与类别数据
1.3.3 大数据与小数据
1.4 分类与回归
1.5 关于数据科学的电视节目
The QuantShop
1.6 关于实战故事
1.7 实战故事:回答正确的问题
1.8 章节注释
1.9 练习
第2章 数学基础
2.1 概率
2.1.1 概率与统计
2.1.2 复合事件与独立事件
2.1.3 条件概率
2.1.4 概率分布
2.2 描述性统计
2.2.1 中心性度量
2.2.2 变异性度量
2.2.3 解释方差
2.2.4 描述分布
2.3 相关性分析
2.3.1 相关系数:皮尔逊和斯皮尔曼秩
2.3.2 相关的强弱与显著性
2.3.3 相关性并不意味着因果关系
2.3.4 用自相关检测周期性
2.4 对数
2.4.1 对数与乘法概率
2.4.2 对数和比率
2.4.3 对数与正规化偏态分布
2.5 实战故事:契合设计师基因
2.6 章节注释
2.7 练习
第3章 数据整理
3.1 数据科学语言
3.1.1 notebook环境的重要性
3.1.2 标准数据格式
3.2 数据收集
3.2.1 搜索
3.2.2 爬取
3.2.3 网络日志
3.3 数据清洗
3.3.1 错误与伪影
3.3.2 数据兼容性
3.3.3 处理缺失值
3.3.4 离群值检测
3.4 实战故事:打败市场
……
第4章 得分和排名
第5章 统计分析
第6章 数据可视化
第7章 数学模型
第8章 线性代数
第9章 线性回归和logistic回归
第10章 距离和网络方法
第11章 机器学习
第12章 大数据:实现规模
第13章 结尾
参考文献
索引
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...