-
内容大纲
本书的主体内容包括机器学习概念与特征工程、机器学习技术、模型关系管理,其中,模型关系管理部分主要介绍了弱集成学习、强集成学习和混合专家模型。
弱集成学习是指使用机器学习中的弱分类器实现模型准确度和稳定性之间的平衡。
强集成学习是指协同特征工程与强分类器形成强集成学习环境。
混合专家模型是指通过神经网络集成和网络结构设计形成深度学习框架。
本书以案例分析为主线介绍不同的集成学习方法,首先阐述弱集成学习如何解决项目痛点问题,然后以痛点为起点,集中讨论强集成学习如何解构子项目问题,最后通过深度学习分析非结构化数据。在每个案例中,归因问题是分析的核心,提供了解析归因问题的一系列方法,以作者多年的项目经验为基础,展示Python数据分析的强大之处。 -
作者介绍
丁亚军,自由职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。 -
目录
第1部分 机器学习概念与特征工程
第1章 机器学习的基础概念
1.1 数据源
1.1.1 数值:单元格
1.1.2 图像:像素点
1.1.3 文本:词向量
1.2 模型的基本形式:回归
1.2.1 文氏图:方差分解
1.2.2 分布图:分布与随机
1.2.3 角色:监督与非监督
1.2.4 模型应用:归因与预测
1.3 模型与算法
1.3.1 模型进化:从1.0到4.0
1.3.2 算法驱动:参数与超参数
1.4 SMD学习技术
1.4.1 统计学习:线性回归
1.4.2 机器学习:支持向量机
1.4.3 深度学习:神经网络
1.5 机器学习误差源
1.5.1 误差源
1.5.2 偏差与方差窘境
1.6 模型拟合诊断
1.6.1 模型拟合
1.6.2 模型的评估指标
1.7 数据分区技术
1.7.1 数据分区:训练与评估
1.7.2 交叉验证:分区的升级
1.8 集成学习方法
1.8.1 强分类器:特征工程+模型
1.8.2 弱分类器:模型+模型
1.8.3 混合专家:神经网络
1.9 运算加速度
1.9.1 大数据挑战
1.9.2 数据的高效运算
第2章 特征工程技术
2.1 数据变换
2.1.1 特征规范化:对中处理
2.1.2 样本规范化:距离相似度
2.2 数据编码
2.2.1 独热编码:无序性
2.2.2 数据分箱:业务标签
2.3 缺失值填补
2.3.1 中位数填补:稳健
2.3.2 最近邻填补:高维
2.3.3 随机森林填补:“贤内助”
2.4 异常值诊断
2.4.1 单变量异常值:描述
2.4.2 多变量异常值:监督
2.4.3 多变量异常值:非监督
2.4.4 非结构式异常值:自编码器
2.5 共线性的危害
2.5.1 双变量共线:新特征
2.5.2 多变量共线:特征分解
2.5.3 特征组合技术
2.6 特征筛选技术
2.6.1 经验:“站在谁的肩膀上”
2.6.2 相关:相关系数
2.6.3 回归:特征筛选
2.6.4 降维:线性与非线性
2.6.5 工具:“指南针”
2.7 聚类技术:市场细分
第2部分 机器学习技术
第3章 机器学习准备
3.1 机器学习的数学基础
3.1.1 微积分基础
3.1.2 向量运算:相关分析
3.1.3 矩阵运算:回归模型
3.1.4 张量运算:神经网络
3.2 机器学习理解
3.2.1 连续型因变量:线性回归
3.2.2 分类型因变量:逻辑回归
3.3 机器学习算法
3.3.1 最小二乘法:准确度
3.3.2 最大似然估计法:测量
3.3.3 随机梯度下降法:大数据
第4章 统计学:回归“进化”
4.1 大数据与回归模型
4.1.1 统计学的烦恼
4.1.2 线性回归的进化
4.2 正则化约束
4.2.1 正则化技术的原理
4.2.2 LASSO 回归与岭回归
4.2.3 弹性网的特征
4.3 案例:随机梯度下降回归与归因解释
第5章 神经网络模型:预测
5.1 感知器模型
5.1.1 与或四门通往何方
5.1.2 感知器=线性回归
5.1.3 激活函数为何是非线性的
5.1.4 感知器=CPU
5.2 神经网络模型
5.2.1 感知器集成:网络结构
5.2.2 前向传播技术:联立方程
5.2.3 反向传播技术:自动微分
5.2.4 网络结构设计:隐含层
5.2.5 神经网络专题1:特征工程
5.2.6 神经网络专题2:维度灾难
5.3 案例:数据分析流与神经网络
第6章 决策树:归因与可视化
6.1 决策树模型原理
6.1.1 熵与相关性
6.1.2 决策树概览
6.1.3 特征分叉运算
6.1.4 特征选择运算
6.1.5 决策树与剪枝
6.2 树模型的特征
6.3 两类归因:决策树与逻辑回归
6.3.1 树形图解释
6.3.2 S形图解释
第7章 支持向量机:高维数据
7.1 支持向量机简介
7.1.1 超平面
7.1.2 点距超平面
7.2 线性支持向量机
7.2.1 硬间隔:严格边界
7.2.2 软间隔:松弛边界
7.3 非线性与核技巧
7.3.1 理解核技巧
7.3.2 核函数及其应用
7.3.3 支持向量机:经验汇总
7.4 支持向量机模型运算
7.5 案例:图像识别与预测分类
第8章 关联分析
8.1 数据源格式
8.1.1 标准数据格式
8.1.2 概念的层级性
8.2 关联规则与度量指标
8.2.1 关联规则度量
8.2.2 频繁项集
8.2.3 Apriori算法
8.2.4 强关联规则
8.3 案例:商品关联过滤与营销推荐
第3部分 模型关系管理
第9章 集成学习方法:弱集成
9.1 集成学习:弱分类器
9.1.1 自抽样法
9.1.2 套袋法与随机森林
9.1.3 套袋法的运算
9.1.4 随机森林与特征工程
9.1.5 提升法与提升树
9.1.6 提升法的运算
9.1.7 XGBoost的原理与应用
9.2 集成学习:聚合策略
9.2.1 简单投票法
9.2.2 堆叠法
9.2.3 理论判断法
9.2.4 元分析法
9.2.5 结构方程模型
第10章 多阶段模型管理:强集成
10.1 特征工程与模型集成
10.1.1 机器学习与模型关系管理
10.1.2 “主成分+”与“聚类+”模式
10.2 多阶段模型管理与案例解析
10.2.1 线性与非线性:决策树+回归
10.2.2 异常诊断一:异常评分+主次归因+规则归因
10.2.3 异常诊断二:异常规则+复杂归因
10.2.4 经验法:贝叶斯规则+回归
10.2.5 不平衡修正:平衡性抽样+模型集成
10.2.6 数据源:问卷+数据库
第11章 深度学习模型:混合专家
11.1 全连接神经网络:数值分析
11.1.1 全连接神经网络规则
11.1.2 梯度爆炸与梯度消失
11.1.3 全连接层:正则化
11.1.4 构建全连接神经网络
11.2 卷积神经网络:图像识别
11.2.1 卷积层:核运算
11.2.2 池化层:标准化
11.2.3 全连接层:信息传递
11.2.4 构建卷积神经网络
11.3 循环神经网络:自然语言处理
11.3.1 概率语言模型
11.3.2 循环神经网络
11.3.3 长短期记忆网络
11.3.4 构建循环神经网络
第12章 自动化机器学习
12.1 自动化与集成学习
12.1.1 自动化集成
12.1.2 TPOT配置
12.1.3 案例:模型复杂度评估
12.2 数据分析流水线
12.2.1 数据分析流
12.2.2 模型失效周期
12.2.3 知识发现与模型
12.2.4 流水线技术准备
12.2.5 创建复杂流水线
12.3 超参数与高效运行
12.3.1 热启动
12.3.2 随机搜索
12.3.3 贝叶斯搜索
12.3.4 增量学习
总结与展望
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
