-
内容大纲
本书以深入浅出的语言系统地介绍了数据挖掘的框架和基本方法,主要内容包括:数据挖掘与R语言概述、数据理解、数据准备、关联规则挖掘、聚类分析、线性模型与广义线性模型、神经网络的基本方法、决策树、基于决策树的模型组合、模型评估与比较、R语言数据挖掘大案例。本书使用基于R语言的数据挖掘案例贯穿全书,并辅以上机实验和习题,帮助读者熟练使用R语言进行数据挖掘。
本书可作为高等院校数据分析与数据挖掘课程的教材,也适合有意学习并使用数据挖掘基本技术的本科生、研究生以及业界人士阅读。 -
作者介绍
张俊妮,美国哈佛大学统计学博士,现任北京大学光华管理学院商务统计及经济计量系副教授。研究领域包括:因果推断、贝叶斯分析、蒙特卡洛方法、数据挖掘以及统计在经济、金融、营销中的应用。在Journal of American Statistical Association、Statistica Sinica、Journal of Educational and Behacioral Statistics、《经济学(季刊)》《数理统计与管理》《管理世界》等期刊上发表十余篇论文。曾获北京大学教学优秀奖,其课程曾获得光华管理学院优秀课程奖。 -
目录
第1章 数据挖掘与R语言概述
1.1 数据挖掘的定义及基本流程
1.2 关于数据挖掘项目的3个基本问题
1.2.1 建模数据集对预测数据集的代表性
1.2.2 自变量和因变量之间关系的因果性解释
1.2.3 模型预测精度对于实际应用的价值
1.3 CRISP-DM数据挖掘方法论
1.4 SEMMA数据挖掘方法论
1.5 R语言简介
习题
第2章 数据理解
2.1 收集初始数据
2.2 描述数据
2.2.1 数据的准确含义
2.2.2 数据粒度
2.2.3 变量类型
2.2.4 冗余变量
2.2.5 缺省值
2.2.6 数据链接
2.3 检查数据质量
2.3.1 抽样偏差
2.3.2 数据取值检查
2.3.3 数据缺失模式
2.4 初步探索数据
2.5 R语言分析示例:数据理解
上机实验
习题
第3章 数据准备
3.1 数据整合
3.2 处理分类自变量
3.3 处理时间信息
3.4 清除变量
3.5 处理异常值
3.6 处理极值
3.7 处理缺失数据
3.8 过抽样与欠抽样
3.9 降维
3.9.1 变量选择
3.9.2 主成分分析
3.10 R语言分析示例:数据准备
3.10.1 数据整合
3.10.2 其他数据准备
上机实验
习题
第4章 关联规则挖掘
4.1 关联规则的基本概念
4.2 Apriori算法简介
4.3 序列关联规则挖掘
4.4 R语言分析示例:关联规则挖掘
4.4.1 购物篮分析
4.4.2 泰坦尼克号存活情况分析
上机实验
习题
第5章 聚类分析
5.1 观测之间的距离度量
5.2 k均值聚类法
5.3 层次聚类法
5.3.1 层次聚类法的具体步骤
5.3.2 类别之间距离的度量
5.4 确定最优类别数
5.5 R语言分析示例:聚类
上机实验
习题
第6章 线性模型与广义线性模型
6.1 线性模型
6.1.1 模型假设与估计
6.1.2 模型解释
6.1.3 一些理论结果
6.1.4 模型诊断
6.2 广义线性模型
6.2.1 广义线性模型简介
6.2.2 因变量为二值变量或比例的情形
6.2.3 因变量为多种取值的定类变量的情形
6.2.4 因变量为定序变量的情形
6.2.5 其他情形
6.3 线性模型与广义线性模型中的变量选择
6.3.1 逐步回归
6.3.2 LASSO
6.4 R语言分析示例:线性模型与广义线性模型
6.4.1 线性模型示例
6.4.2 逻辑回归及Lasso示例:印第安女性糖尿病数据
6.4.3 逻辑回归及Lasso示例:移动运营商数据
上机实验
习题
第7章 神经网络的基本方法
7.1 神经元及神经网络介绍
7.1.1 单个神经元
7.1.2 多层感知器架构
7.2 神经网络模型训练
7.2.1 误差函数
7.2.2 神经网络训练算法
7.3 提高神经网络模型的泛化能力
7.4 数据预处理
7.5 R语言分析示例:神经网络
7.5.1 红葡萄酒数据
7.5.2 移动运营商数据
上机实验
习题
第8章 决策树
8.1 决策树简介
8.2 决策树建模过程
8.2.1 决策树建模的一般过程
8.2.2 分类树的建模过程
8.2.3 回归树的建模过程
8.3 决策树的优缺点
8.3.1 决策树的优点
8.3.2 决策树的缺点
8.4 R语言分析示例:决策树
上机实验
习题
第9章 基于决策树的模型组合
9.1 袋装决策树
9.2 梯度提升决策树
9.3 随机森林
9.4 贝叶斯可加回归树
9.5 R语言分析示例:基于决策树的模型组合
9.5.1 袋装决策树示例
9.5.2 梯度提升决策树示例
9.5.3 随机森林示例
9.5.4 贝叶斯可加回归树示例
9.5.5 模型结果总结
上机实验
习题
第10章 模型评估与比较
10.1 因变量为二值变量
10.2 因变量为多种取值的分类变量
10.3 因变量为连续变量
10.4 R语言分析示例:模型评估与比较
上机实验
习题
第11章 R语言数据挖掘大案例
11.1 数据理解与数据准备
11.2 建模及模型评估
习题
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
