-
内容大纲
R语言数据挖掘被广泛应用于不同领域,包括金融、医学、科学研究等。本书通过具体实例和真实的数据集来实现数据挖掘,首先讲解了数据挖掘的基本概念和R语言的基础知识,随后介绍了R语言中与数据挖掘相关的各种扩展功能包的使用,并通过多个实际的例子,教会读者整理数据、分析数据的方法。
本书适合想通过R语言快速了解数据挖掘、预测分析、商业分析等领域的数据科学家和数据分析员阅读,也适合高等院校数据挖掘相关专业师生和对数据挖掘感兴趣的技术人员参考。 -
作者介绍
-
目录
第1章 为何选择R语言
1.1 什么是R语言
1.2 R语言的发展历史
1.3 R语言的优势
1.3.1 开源
1.3.2 插件就绪
1.3.3 数据可视化友好
1.4 安装R语言、编写R语言代码
1.4.1 下载R语言软件包
1.4.2 应用于Windows平台和MacOS平台的R语言软件包
1.4.3 应用于Linux平台的R语言软件包
1.4.4 基础版本R语言包安装的主要组件
1.4.5 编写R语言及运行R语言代码的替代平台
1.5 R语言的基本概念
1.5.1 R语言初级入门
1.5.2 向量(Vector)
1.5.3 列表(Lists)
1.5.4 数据帧(Dataframes)
1.5.5 函数(Functions)
1.6 R语言的劣势以及如何克服这些劣势
1.6.1 高效学习R语言,最小化精力投入
1.6.2 通过R语言操作大型数据集
1.7 更多参考
1.8 小结
第2章 数据挖掘入门-读者银行账户数据分析
2.1 获取并准备银行数据
2.1.1 数据模型
2.2 使用数据透视表汇总数据
2.2.1 管道操作符简介
2.2.2 dplyr程序包简介
2.2.3 安装必要程序包并将个人数据加载到R语言环境中
2.2.4 确定每月和每天的费用总额
2.4 使用ggplot2程序包对数据进行可视化处理
2.4.1 数据可视化基本原理
2.4.2 使用ggplot程序包来进行数据可视化
2.5 更多参考
2.6 小结
第3章 数据挖掘进阶-数据挖掘标准流程(CRISP-DM)方法论
3.1 数据挖掘标准流程(CRISP-DM)方法论之数据挖掘周期
3.2 业务理解
3.3 数据理解
3.3.1 数据收集
3.3.2 数据描述
3.3.3 数据探索
3.4 数据准备
3.5 建模
3.5.1 定义数据建模策略
3.6 评估
3.6.1 聚类评估
3.6.2 分类评估
3.6.3 回归评估
3.6.4 如何判断模型性能的充分性
3.7 部署
3.7.1 部署计划开发
3.7.2 维护计划开发
3.8 小结
第4章 保持室内整洁-数据挖掘架构
4.1 概述
4.2 数据源
4.2.1 数据源类型
4.3 数据库和数据仓库
4.3.1 中间层-数据集市
4.3.2 单层架构的数据仓库
4.3.3 双层架构的数据仓库
4.3.4 三层架构的数据仓库
4.3.5 实际应用的技术
4.4 数据挖掘引擎
4.4.1 解释器
4.4.2 引擎和数据仓库之间的接口
4.4.3 数据挖掘算法
4.5 用户界面
4.5.1 清晰性原则
4.6 如何使用R语言来创建数据挖掘架构
4.6.1 数据源
4.6.2 数据仓库
4.6.3 数据挖掘引擎
4.6.4 用户界面
4.7 更多参考
4.8 小结
第5章 如何解决数据挖掘问题-数据清洗和验证
5.1 安静祥和的一天
5.2 数据清洗
5.2.1 Tidydata框架
5.2.2 分析数据的结构
5.2.3 数据整理
5.2.4 验证数据
5.2.5 数据合并
5.3 更多参考
5.4 小结
第6章 观察数据-探索性数据分析
6.1 汇总EDA介绍
6.1.1 描述总体分布
6.1.2 测定变量之间的相关性
6.2 图形化EDA
6.2.1 变量分布可视化
6.2.2 变量关系可视化
6.2.3 更多参考
6.3 小结
第7章 最初的猜想-线性回归
7.1 定义数据建模策略
7.1.1 数据建模相关概念
7.2 应用线性回归
7.2.1 线性回归的直观解释
7.2.2 线性回归的数学原理
7.2.3 如何在R语言中使用线性回归
7.3 更多参考
7.4 小结
第8章 浅谈模型性能评估
8.1 定义模型性能
8.1.1 模型的拟合度与模型的可解释性
8.1.2 使用模型进行预测
8.2 测量回归模型的性能
8.2.1 均方误差
8.2.2 R平方
8.3 衡量分类问题模型的性能
8.3.1 混淆矩阵
8.3.2 准确度
8.3.3 灵敏度
8.3.4 特异性
8.3.5 如何选择合适的性能统计指标
8.4 区分训练数据集与测试数据集
8.5 更多参考
8.6 小结
第9章 不要放弃-继续学习包括多元变量的回归
9.1 从简单线性回归到多元线性回归
9.1.1 符号
9.1.2 假设
9.2 降维
9.2.1 逐步回归
9.2.2 主成分回归
9.3 使用R语言拟合多元线性模型
9.3.1 模型拟合
9.3.2 变量的假设验证
9.3.3 残差假设验证
9.3.4 降维
9.4 更多参考
9.5 小结
第10章 关于分类模型问题的不同展望
10.1 分类模型是什么?读者为什么需要分类模型
10.1.1 线性回归应用于分类变量的局限性
10.1.2 常用的分类算法和模型
10.2 逻辑回归
10.2.1 逻辑回归的原理
10.2.2 逻辑回归的数学原理
10.2.3 如何在R中应用逻辑回归
10.2.4 逻辑回归结果的可视化与解释
10.3 支持向量机(SVM)
10.3.1 支持向量机的原支理
10.3.2 在原R语言中应用支持向量机
10.3.3 理解支持向量机的结果
10.4 更多参考
10.5 小结
第11章 最后冲刺-随机森林和集成学习
11.1 随机森林
11.1.1 随机森林的构建模块-决策树简介
11.1.2 随机森林的原理
11.1.3 在R语言中应用随机森林
11.1.4 评估模型的结果
11.2 集成学习
11.2.1 基础的集成学习技术
11.2.2 采用R语言对数据进行集成学习
11.3 在新数据上应用估计模型
11.3.1 将predict.glm()函数用于逻辑模型的预测
11.3.2 将predict.randomforest()用于随机森林的预测
11.3.3 将predict.svm()函数应用于支持向量机的预测
11.4 结构化更加良好的预测分析方法
11.5 对预测数据应用集成学习中的多数投票技术
11.6 更多参考
11.7 小结
第12章 寻找罪魁祸首-用R语言执行文本数据挖掘
12.1 提取PDF文件中的数据
12.1.1 获取文档列表
12.1.2 通过pdf_text()函数将PDF文件读取到R语言环境
12.1.3 使用for循环迭代提取文本
12.2 文本情感分析
12.3 开发词云
12.4 N元组模型(n-grams)分析
12.5 网络分析
12.5.1 从数据帧中获取边列表
12.5.2 使用ggraph程序包可视化网络
12.6 更多参考
12.7 小结
第13章 借助RMarkdown与股东分享公司现状
13.1 富有说服力的数据挖掘报告之原则
13.1.1 清晰阐明目标
13.1.2 明确陈述假设
13.1.3 数据处理过程清晰明了
13.1.4 数据一致性
13.1.5 提供数据谱系
13.2 编制RMarkDown报告
13.3 在RStudio中编制RMarkdown报告文档
13.3.1 Markdown简介
13.3.2 插入代码块
13.3.3 通过内联R语言代码,在文本中重现代码的输出
13.3.4 Shiny简介以及reactivity框架
13.3.5 添加交互式数据族谱模块
13.4 渲染和分享RMarkdown报告
13.4.1 渲染RMarkdown报告
13.4.2 分享RMarkdown报告
13.5 更多参考
13.6 小结
第14章 结语
附录A 处理日期、相对路径和函数
A.1 使用R语言处理日期
A.2 R语言中的工作目录和相对路径
A.3 条件声明
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...