-
内容大纲
本书详细讨论了预测数据分析中最重要的机器学习方法,涵盖基础理论和实际应用。在讨论了从数据到见解再到决策的过程之后,本书描述了机器学习的四种方法:基于信息的学习、基于相似性的学习、基于概率的学习和基于误差的学习。每种方法都是先对基本概念进行非技术性解释,然后给出由详细工作实例加以说明的数学模型和算法。最后,本书考虑了评估预测模型的技术,并提供了两个案例研究,展示了机器学习在商业环境中的应用。
本书可作为高等院校人工智能、数据科学与大数据、计算机科学、工程学以及数学或统计学专业本科生和研究生的机器学习、数据挖掘、数据分析或人工智能课程的教材,也可作为数据分析等领域从业者的培训教材及参考资料。 -
作者介绍
-
目录
译者序
前言
符号记法
第1章 面向预测数据分析的机器学习
1.1 什么是预测数据分析
1.2 什么是机器学习
1.3 机器学习的工作原理
1.4 机器学习会产生什么问题
1.5 预测数据分析项目的生命周期:CRISP-DM
1.6 预测数据分析工具
1.7 本书概览
1.8 习题
第2章 数据到见解再到决策
2.1 将商业问题转化为分析解决方案
2.2 可行性评估
2.3 设计分析基础表
2.4 特征的设计与实现
2.4.1 不同的数据类型
2.4.2 不同的特征类型
2.4.3 处理时间
2.4.4 法律问题
2.4.5 特征的实现
2.4.6 案例研究:汽车保险诈骗
2.5 总结
2.6 延伸阅读
2.7 习题
第3章 数据探索
3.1 数据质量报告
3.2 了解数据
3.2.1 正态分布
3.2.2 案例研究:汽车保险诈骗
3.3 找出数据质量问题
3.3.1 缺失值
3.3.2 异常基数
3.3.3 离群点
3.3.4 案例研究:汽车保险诈骗
3.4 处理数据质量问题
3.4.1 处理缺失值
3.4.2 处理离群点
3.4.3 案例研究:汽车保险诈骗
3.5 高阶数据探索
3.5.1 可视化特征之间的关系
3.5.2 度量协方差和相关性
3.6 数据准备
3.6.1 归一化
3.6.2 分箱
3.6.3 采样
3.7 总结
3.8 延伸阅读
3.9 习题
第4章 基于信息的学习
4.1 大思路
4.2 基础知识
4.2.1 决策树
4.2.2 香农熵模型
4.2.3 信息增益
4.3 标准方法:ID3算法
4.4 延伸与拓展
4.4.1 其他特征选取与纯度度量方法
4.4.2 处理连续描述性特征
4.4.3 预测连续目标
4.4.4 剪枝
4.4.5 模型组合
4.5 总结
4.6 延伸阅读
4.7 习题
第5章 基于相似性的学习
5.1 大思路
5.2 基本概念
5.2.1 特征空间
5.2.2 用距离度量测量相似性
5.3 标准方法:最近邻算法
5.4 延伸与拓展
5.4.1 处理嘈杂数据
5.4.2 高效内存搜索
5.4.3 数据归一化
5.4.4 预测连续目标
5.4.5 其他相似性测量
5.4.6 特征选取
5.5 总结
5.6 延伸阅读
5.7 后记
5.8 习题
第6章 基于概率的学习
6.1 大思路
6.2 基础知识
6.2.1 贝叶斯定理
6.2.2 贝叶斯预测
6.2.3 条件独立与因子化
6.3 标准方法:朴素贝叶斯模型
6.4 延伸与拓展
6.4.1 平滑
6.4.2 连续特征:概率密度函数
6.4.3 连续特征:分箱
6.4.4 贝叶斯网络
6.5 总结
6.6 延伸阅读
6.7 习题
第7章 基于误差的学习
7.1 大思路
7.2 基础知识
7.2.1 简单线性回归
7.2.2 测量误差
7.2.3 误差曲面
7.3 标准方法:使用梯度下降法的多变量线性回归
7.3.1 多变量线性回归
7.3.2 梯度下降法
7.3.3 选择学习率和初始权值
7.3.4 实用范例
7.4 延伸与拓展
7.4.1 解释多变量线性回归模型
7.4.2 用权值衰减设定学习率
7.4.3 处理类别描述性特征
7.4.4 处理类别目标特征:对数几率回归
7.4.5 建模非线性关系
7.4.6 多项对数几率回归
7.4.7 支持向量机
7.5 总结
7.6 延伸阅读
7.7 习题
第8章 评估
8.1 大思路
8.2 基础知识
8.3 标准方法:留出测试集上的误分类率
8.4 延伸与拓展
8.4.1 设计评估实验
8.4.2 性能度量:类别目标
8.4.3 性能度量:预测得分
8.4.4 性能度量:多项目标
8.4.5 性能度量:连续目标
8.4.6 评估部署后的模型
8.5 总结
8.6 延伸阅读
8.7 习题
第9章 案例研究:客户流失
9.1 商业理解
9.2 数据理解
9.3 数据准备
9.4 建模
9.5 评估
9.6 部署
第10章 案例研究:星系分类
10.1 商业理解
10.2 数据理解
10.3 数据准备
10.4 建模
10.4.1 基准模型
10.4.2 特征选取
10.4.3 5级别模型
10.5 评估
10.6 部署
第11章 面向预测数据分析的机器学习艺术
11.1 预测模型的不同视角
11.2 选择机器学习方法
11.2.1 将机器学习方法和项目匹配
11.2.2 将机器学习方法和数据匹配
11.3 总结
附录A 机器学习的描述性统计量与数据可视化
附录B 机器学习的概率论导论
附录C 机器学习中的求导方法
参考文献
索引
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...