-
内容大纲
本书面向初学者,使用Python语言以及流行的scikit-learn机器学习库等资源,通过易于实践的项目,帮助读者掌握开发有效的机器学习系统所需的流程、模式和策略。
本书首先介绍机器学习的基本概念和机器学习系统的评估技术;之后扩展工具库,引入另外几种分类和回归技术以及特征工程;最后介绍一些较为前沿的新技术,包括组合机器学习模型和自动化特征工程模型等,并将机器学习应用于图像处理和文本处理两个特定领域。本书不依赖于复杂的数学公式,仅要求读者具备一定的编程基础,适合学生、数据分析人员、科研人员等各领域的读者阅读参考。 -
作者介绍
马克·E.芬纳(Mark E.Fenner),Fenner Training and Consulting公司的创始人,自1999年起一直从事计算机和数学领域的教学工作,曾为众多知名公司和国家级实验室开发课程并提供培训。此外,他还从事机器学习、生物信息学和计算机安全方面的研究工作,所参与的项目涉及机器学习和数值算法的设计和实现、软件仓库的安全性分析、蛋白质功能的概率建模以及显微镜数据的分析和可视化等。他拥有计算机科学博士学位。 -
目录
第一部分 机器学习入门
第1章 机器学习概论
1.1 欢迎来到机器学习的世界
1.2 范围、术语、预测和数据
1.2.1 特征
1.2.2 目标值和预测值
1.3 让机器开始机器学习
1.4 学习系统举例
1.4.1 预测类别:分类器举例
1.4.2 预测值:回归器举例
1.5 评估机器学习系统
1.5.1 准确率
1.5.2 资源消耗
1.6 创建机器学习系统的过程
1.7 机器学习的假设和现实
1.8 参考阅读资料
1.8.1 进一步研究方向
1.8.2 注释
第2章 相关技术背景
2.1 编程环境配置
2.2 数学语言的必要性
2.3 用于解决机器学习问题的软件
2.4 概率
2.4.1 基本事件
2.4.2 独立性
2.4.3 条件概率
2.4.4 概率分布
2.5 线性组合、加权和以及点积
2.5.1 加权平均
2.5.2 平方和
2.5.3 误差平方和
2.6 几何视图:空间中的点
2.6.1 直线
2.6.2 直线拓展
2.7 表示法和加1技巧
2.8 渐入佳境:突破线性和非线性
2.9 NumPy与“数学无所不在”
2.9.1 一维数组与二维数组
2.10 浮点数问题
2.11 参考阅读资料
2.11.1 小结
2.11.2 注释
第3章 预测类别:分类入门
3.1 分类任务
3.2 一个简单的分类数据集
3.3 训练和测试:请勿“应试教育”
3.4 评估:考试评分
3.5 简单分类器1:最近邻分类器、远距离关系和假设
3.5.1 定义相似性
3.5.2 k-最近邻中的k
3.5.3 答案组合
3.5.4 k-最近邻、参数和非参数方法
3.5.5 建立一个k-最近邻分类模型
3.6 简单分类器2:朴素贝叶斯分类器、概率和违背承诺
3.7 分类器的简单评估
3.7.1 机器学习的性能
3.7.2 分类器的资源消耗
3.7.3 独立资源评估
3.8 参考阅读资料
3.8.1 再次警告:局限性和尚未解决的问题
3.8.2 小结
3.8.3 注释
3.8.4 练习题
第4章 预测数值:回归入门
4.1 一个简单的回归数据集
4.2 最近邻回归和汇总统计
4.2.1 中心测量:中位数和均值
4.2.2 构建一个k-最近邻回归模型
4.3 线性回归和误差
4.3.1 地面总是不平坦的:为什么需要斜坡
4.3.2 倾斜直线
4.3.3 执行线性回归
4.4 优化:选择最佳答案
4.4.1 随机猜测
4.4.2 随机步进
4.4.3 智能步进
4.4.4 计算的捷径
4.4.5 线性回归的应用
4.5 回归器的简单评估和比较
4.5.1 均方根误差
4.5.2 机器学习的性能
4.5.3 回归过程中的资源消耗
4.6 参考阅读资料
4.6.1 局限性和尚未解决的问题
4.6.2 小结
4.6.3 注释
4.6.4 练习题
第二部分 通用评估技术
第5章 机器学习算法的评估和比较分析
5.1 评估和大道至简的原则
5.2 机器学习阶段的术语
5.2.1 有关机器的重新讨论
5.2.2 更规范的阐述
5.3 过拟合和欠拟合
5.3.1 合成数据和线性回归
5.3.2 手动操控模型的复杂度
5.3.3 “恰到好处”原则:可视化过拟合、欠拟合和最佳拟合
5.3.4 简单性
5.3.5 关于过拟合必须牢记的注意事项
5.4 从误差到成本
5.4.1 损失
5.4.2 成本
5.4.3 评分
5.5 (重新)抽样:以少胜多
5.5.1 交叉验证
5.5.2 分层抽样
5.5.3 重复的训练–测试数据集拆分
5.5.4 一种更好的方法和混排
5.5.5 留一交叉验证
5.6 分解:将误差分解为偏差和方差
5.6.1 数据的方差
5.6.2 模型的方差
5.6.3 模型的偏差
5.6.4 结合所有的因素
5.6.5 偏差–方差权衡示例
5.7 图形可视化评估和比较
5.7.1 学习曲线:到底需要多少数据
5.7.2 复杂度曲线
5.8 使用交叉验证比较机器学习模型
5.9 参考阅读资料
5.9.1 小结
5.9.2 注释
5.9.3 练习题
第6章 评估分类器
6.1 基线分类器
6.2 准确度以外:分类器的其他度量指标
6.2.1 从混淆矩阵中消除混淆
6.2.2 错误的方式
6.2.3 基于混淆矩阵的度量指标
6.2.4 混淆矩阵编码
6.2.5 处理多元类别:多元类别平均
6.2.6 F1分数
6.3 ROC曲线
6.3.1 ROC模式
6.3.2 二元分类ROC
6.3.3 AUC:(ROC)曲线下的面积
6.3.4 多元分类机器学习模型、一对其他和ROC
6.4 多元分类的另一种方法:一对一
6.4.1 多元分类AUC第二部分:寻找单一值
6.5 精确率–召回率曲线
6.5.1 关于精确率–召回率权衡的说明
6.5.2 构建精确率–召回率曲线
6.6 累积响应和提升曲线
6.7 更复杂的分类器评估:第二阶段
6.7.1 二元分类
6.7.2 一个新颖的多元分类问题
6.8 参考阅读资料
6.8.1 小结
6.8.2 注释
6.8.3 练习题
第7章 评估回归器
7.1 基线回归器
7.2 回归器的其他度量指标
7.2.1 创建自定义的评估指标
7.2.2 其他内置的回归度量指标
7.2.3 R
7.3 残差图
7.3.1 误差图
7.3.2 残差图
7.4 标准化初探
7.5 使用更复杂的方法评估回归系数:第二阶段
7.5.1 多个度量指标的交叉验证结果
7.5.2 交叉验证结果汇总
7.5.3 残差
7.6 参考阅读资料
7.6.1 小结
7.6.2 注释
7.6.3 练习题
第三部分 更多方法和其他技术
第8章 更多分类方法
8.1 重温分类知识
8.2 决策树
8.2.1 树构建算法
8.2.2 让我们开始:决策树时间
8.2.3 决策树中的偏差和方差
8.3 支持向量分类器
8.3.1 执行支持向量分类器
8.3.2 SVC中的偏差和方差
8.4 逻辑回归
8.4.1 投注几率
8.4.2 概率、几率和对数几率
8.4.3 实现操作:逻辑回归版本
8.4.4 逻辑回归:空间奇异性
8.5 判别分析
8.5.1 协方差
8.5.2 方法
8.5.3 执行判别分析
8.6 假设、偏差和分类器
8.7 分类器的比较:第三阶段
8.7.1 数字
8.8 参考阅读资料
8.8.1 小结
8.8.2 注释
8.8.3 练习题
第9章 更多回归方法
9.1 惩罚框中的线性回归:正则化
9.1.1 执行正则化回归
9.2 支持向量回归
9.2.1 铰链损失
9.2.2 从线性回归到正则化回归,再到支持向量回归
9.2.3 实践应用:支持向量回归风格
9.3 分段常数回归
9.3.1 实现分段常数回归器
9.3.2 模型实现的一般说明
9.4 回归树
9.4.1 用决策树实现回归
9.5 回归器比较:第三阶段
9.6 参考阅读资料
9.6.1 小结
9.6.2 注释
9.6.3 练习题
第10章 手动特征工程:操作数据的乐趣和意义
10.1 特征工程的术语和动机
10.1.1 为什么选择特征工程
10.1.2 何时开始特征工程
10.1.3 特征工程是如何发生的
10.2 特征选择和数据简化:清除垃圾
10.3 特征缩放
10.4 离散化
10.5 分类编码
10.5.1 编码的另一种方式以及无截距的奇怪情况
10.6 关系和相互作用
10.6.1 手动特征构造
10.6.2 相互作用
10.6.3 使用转换器添加特征
10.7 对输入空间和目标的相关操作
10.7.1 对输入空间的相关操作
10.7.2 对目标的相关操作
10.8 参考阅读资料
10.8.1 小结
10.8.2 注释
10.8.3 练习题
第11章 调整超参数和管道技术
11.1 模型、参数、超参数
11.2 调整超参数
11.2.1 关于计算机科学和机器学习术语的说明
11.2.2 关于完整搜索的示例
11.2.3 使用随机性在大海中捞针
11.3 递归的神奇世界:嵌套交叉验证
11.3.1 重温交叉验证
11.3.2 作为模型的网格搜索
11.3.3 交叉验证中嵌套的交叉验证
11.3.4 关于嵌套交叉验证的注释
11.4 管道技术
11.4.1 简单的管道
11.4.2 复杂的管道
11.5 管道和调参相结合
11.6 参考阅读资料
11.6.1 小结
11.6.2 注释
11.6.3 练习题
第四部分 高级主题
第12章 组合机器学习模型
12.1 集成
12.2 投票集成
12.3 装袋法和随机森林
12.3.1 自举
12.3.2 从自举到装袋法
12.3.3 随机森林
12.4 提升方法
12.4.1 提升方法的核心理念
12.5 各种树集成方法的比较
12.6 参考阅读资料
12.6.1 小结
12.6.2 注释
12.6.3 练习题
第13章 提供特征工程的模型
13.1 特征选择
13.1.1 基于度量特征的“单步筛选”方法
13.1.2 基于模型的特征选择
13.1.3 将特征选择与机器学习管道相集成
13.2 基于核的特征构造
13.2.1 核激励因子
13.2.2 手动核方法
13.2.3 核方法和核选项
13.2.4 核化支持向量分类器:支持向量机
13.2.5 关于SVM的建议和示例
13.3 主成分分析:一种无监督技术
13.3.1 预热:中心化数据
13.3.2 寻找不同的最佳线路
13.3.3 第一次执行PCA
13.3.4 PCA的内部原理
13.3.5 对一般PCA的评论
13.3.6 核心PCA和流形方法
13.4 参考阅读资料
13.4.1 小结
13.4.2 注释
13.4.3 练习题
第14章 领域特征工程:领域特定的机器学习
14.1 处理文本
14.1.1 对文本进行编码
14.1.2 文本学习的示例
14.2 聚类
14.2.1 k-均值聚类
14.3 处理图像
14.3.1 视觉词袋
14.3.2 图像数据
14.3.3 端到端系统
14.3.4 全局视觉词袋转换器的完整代码
14.4 参考阅读资料
14.4.1 小结
14.4.2 注释
14.4.3 练习题
第15章 连接、扩展和进一步研究方向
15.1 优化
15.2 基于原始数据的线性回归
15.2.1 线性回归的可视化视图
15.3 基于原始数据构建逻辑回归
15.3.1 采用0-1编码的逻辑回归
15.3.2 采用加1减1编码的逻辑回归
15.3.3 逻辑回归的可视化视图
15.4 基于原始数据的SVM
15.5 神经网络
15.5.1 线性回归的神经网络视图
15.5.2 逻辑回归的神经网络视图
15.5.3 超越基本神经网络
15.6 概率图模型
15.6.1 抽样
15.6.2 线性回归的概率图模型视图
15.6.3 逻辑回归的概率图模型视图
15.7 参考阅读资料
15.7.1 小结
15.7.2 注释
15.7.3 练习题
附录A mlwpy.py程序清单
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...