-
内容大纲
集成学习通过自动对比多个模型的输出,将输出结合起来,融合成强大的集成模型,得出最优结果。集成学习发挥“集体智慧”,结果更准确,克服了单一模型的局限性。这种创新方法能够综合多个视角的响应;即使在没有大规模数据集的情况下,也能给出可靠的预测结果。
《集成学习实战》呈现同时应用多种机器学习方法的实用技巧。每章都列举一个独特案例(如医学诊断、情感分析等),展示一个功能完备的集成方法。本书不探讨深奥的数学知识,所讲内容浅显易懂,代码丰富,供你轻松进行实验!
主要内容:
Bagging法、提升法和梯度提升法;
分类、回归和检索方法;
集成方法的模型和决策可解释性;
特征工程和集成多样性。 -
作者介绍
-
目录
第Ⅰ部分 集成学习基础知识
第1章 集成方法:炒作还是福音
1.1 集成方法:集体智慧
1.2 关注集成学习原因
1.3 单个模型中的拟合度与复杂性
1.3.1 决策树回归
1.3.2 支持向量回归
1.4 第一个集成模型
1.5 集成方法的术语和分类
1.6 小结
第Ⅱ部分 基本集成方法
第2章 同质并行集成:Bagging法和随机森林
2.1 并行集成
2.2 Bagging法:Bootstrapl结合算法
2.2.1 直觉:重采样和模型结合
2.2.2 实现Bagging法
2.2.3 使用scikit-learn实现Bagging法
2.2.4 使用并行化进行更快的训练
2.3 随机森林
2.3.1 随机决策树
2.3.2 使用scikit-learn实现随机森林
2.3.3 特征重要十峰
2.4 更多同质并行集成
2.4.1 Pasting
2.4.2 随机子空间和randompatch法
2.4.3 极度随机树
2.5 案例研究:乳腺癌诊断
2.5.1 加载和预处理
2.5.2 Bagging法、随机森林和极度随机树
2.5.3 随机森林中的特征重要性
2.6 小结
第3章 异质并行集成:结合强学习器
3.1 异质集成的基础估计器
3.1.1 拟合基础估计器
3.1.2 基础估计器的单个预测
3.2 通过加权结合预测
3.2.1 多数投票
3.2.2 准确率加权
3.2.3 熵加权法
3.2.4 Dempster-Shafer结合
3.3 通过元学习结合预测
3.3.1 Stacking
3.3.2 通过交叉验证进行Stacking
3.4 案例研究:情感分析
3.4.1 预处理
3.4.2 降低维度
3.4.3 blending分类器
3.5 小结
第4章 顺序集成:自适应提升
4.1 弱学习器的顺序集成
4.2 AdaBoost:自适应提升
4.2.1 直觉法:使用加权样本进行学习
4.2.2 实现AdaBoost
4.2.3 使用scikit-leaill的AdaBoost
4.3 AdaBoost在实践中的应用
4.3.1 学习翠
4.3.2 早停和剪枝
4.4 案例研究:手写数字分类
4.4.1 利用t-SNE降维
4.4.2 提升
4.5 LogitBoost:使用逻辑损失进行提升
4.5.1 逻辑损失函数与指数损失函数
4.5.2 将回归作为分类的弱学习算法
4.5.3 实现LogitBoost
4.6 小结
第5章 顺序集成:梯度提升
5.1 用梯度下降实现最小化
5.1.1 举例说明梯度下降
5.1.2 在损失函数上进行梯度下降训练
5.2 梯度提升:梯度下降+提升
5.2.1 直觉:使用残差学习
5.2.2 实现梯度提升
5.2.3 使用scikit-learn进行梯度提升
5.2.4 基于直方图的梯度提升
5.3 LightGBM:梯度提升框架
5.3.1 为何将LightGBM称为“轻量级”
5.3.2 利用LightGBM进行梯度提升
5.4 LightGBM在实践中的应用
5.4.1 学习率
5.4.2 早停
5.4.3 自定义损失函数
5.5 案例研究:文档检索
5.5.1 LETOR数据集
5.5.2 使用LightGBM进行文档检索
5.6 小结
第6章 顺序集成:牛顿提升
6.1 最小化牛顿法
6.1.1 举例说明牛顿法
6.1.2 训练过程中的损失函数的牛顿下降
6.2 牛顿提升:牛顿法+Boosting
6.2.1 直觉:使用加权残差进行学习
6.2.2 直觉:使用正则化损失函数进行学习
6.2.3 实现牛顿提升
6.3 XGBoost:牛顿提升框架
6.3.1 XGBoost的“极端”之处在哪里
6.3.2 XGBoost的牛顿提升
6.4 XGBoost实践
6.4.1 学习率
6.4.2 早停
6.5 案例研究:文档检索
6.5.1 LETOR数据集
6.5.2 使用XGBoost进行文档检索
6.6 小结
第Ⅲ部分 集成之外:将集成方法应用于你的数据
第7章 学习连续和计数标签
7.1 回归的简要回顾
7.1.1 连续标签的线性回归
7.1.2 用于计数标签的泊松回归
7.1.3 用于分类标签的逻辑回归
7.1.4 广义线性模型
7.1.5 非线性回归
7.2 回归的并行集成
7.2.1 随机森林和极度随机树
7.2.2 结合回归模型
7.2.3 Stacking回归模型
7.3 用于回归的顺序集成
7.3.1 用于回归的损失和似然函数
7.3.2 LightGBM和XGBoost的梯度提升
7.4 案例研究:需求预测
7.4.1 UcI自行车共享数据集
7.4.2 GLM和Stacking
7.4.3 随机森林和极度随机树
7.4.4 XGBoost和LightGBM
7.5 小结
第8章 学习分类特征
8.1 编码分类特征
8.1.1 分类特征的类型
8.1.2 有序编码和独热编码
8.1.3 使用目标统计信息进行编码
8.1.4 类别编码器包
8.2 CatBoost:有序提升框架
8.2.1 有序目标统计和有序提升
8.2.2 无意识决策树
8.2.3 CatBoost实践
8.3 案例研究:收入预测
8.3.1 adult数据集
8.3.2 创建预处理和建模流程
8.3.3 类别编码和集成
8.3.4 有序编码和CatBoost提升
8.4 编码高基数字符串特征
8.5 小结
第9章 集成掌习可解释性
9.1 可解释性的含义
9.1.1 黑盒与白盒模型
9.1.2 决策树(和决策规则)
9.1.3 广义线性模型
9.2 案例研究:数据驱动的营销
9.2.1 银行营销数据集
9.2.2 训练集成
9.2.3 树集成中的特征重要性
9.3 全局可解释性的黑盒方法
9.3.1 排列特征重要性
9.3.2 部分依赖图
9.3.3 全局代理模型
9.4 适用于局部可解释性的黑盒方法
9.4.1 借助LIME的局部代理模型
9.4.2 借助SHAP的局部可解释性
9.5 白盒集成:训练解释性
9.5.1 可解释性提升机
9.5.2 EBM实践
9.6 小结
结语
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
