-
内容大纲
本书由浅入深,内容丰富,全面系统地介绍了R语言基础知识和使用R语言进行数据分析与挖掘的方法。全书共12章,主要内容包括R语言数据分析概述、R语言数据操作基础、R语言数据读写、数据基本管理、数据预处理、R语言的重要绘图函数、高级绘图工具、聚类分析、回归分析、决策树、神经网络与支持向量机和模型性能评估及优化。本书可作为高等院校数据科学与大数据技术、大数据管理与应用专业相关课程的教材,也可作为初级数据分析学习者学习数据分析的参考书。 -
作者介绍
-
目录
第1章 R语言数据分析概述
1.1 认识数据分析
1.1.1 为什么要对数据做分析
1.1.2 数据分析的流程
1.2 R语言的简介及安装
1.2.1 R语言简介
1.2.2 R语言的安装
1.2.3 其他辅助工具
1.2.4 R语言快速上手
1.3 小结
1.4 本章练习
第2章 R语言数据操作基础
2.1 R语言数据类型
2.1.1 数据类型判断及转换
2.1.2 日期类型数据处理
2.2 R语言数据对象
2.2.1 向量
2.2.2 矩阵和数组
2.2.3 因子
2.2.4 列表和数据框
2.3 文本处理
2.3.1 基础文本处理
2.3.2 stringr扩展包
2.4 小结
2.5 本章练习
第3章 R语言数据读写
3.1 文本文件读写
3.1.1 base包
3.1.2 readr包
3.1.3 data.table包
3.2 Excel文件读写
3.2.1 xlsx包
3.2.2 XLConnect包
3.2.3 openxlsx包
3.2.4 readxl包
3.3 数据库文件读写
3.3.1 RODBC包
3.3.2 RMySQL包
3.4 本章小结
3.5 本章练习
第4章 数据基本管理
4.1 数据去重
4.2 数据排序
4.3 数据筛选
4.4 数据合并
4.5 数据关联
4.6 数据转换
4.7 融合重铸
4.8 数据聚合
4.9 数据分组
4.10 本章小结
4.11 本章练习
第5章 数据预处理
5.1 数据抽样
5.1.1 数据抽样的必要性
5.1.2 类失衡处理方法:SMOTE()函数
5.1.3 数据随机抽样:sample()函数
5.1.4 数据等比抽样:createDataPartition()函数
5.1.5 用于交叉验证的样本抽样
5.2 数据清洗
5.2.1 缺失值判断及处理
5.2.2 异常值判断处理
5.3 数据变换
5.3.1 数据分箱
5.3.2 数据标准化
5.4 数据哑变量处理
5.5 本章小结
5.6 本章练习
第6章 R语言重要绘图技术
6.1 图形三要素
6.1.1 颜色元素
6.1.2 文字元素
6.1.3 点线元素
6.2 低级绘图函数
6.2.1 标题
6.2.2 坐标轴
6.2.3 图例
6.2.4 网格线
6.2.5 点
6.2.6 文字
6.2.7 线
6.3 高级绘图函数
6.3.1 散点图
6.3.2 气泡图
6.3.3 线图
6.3.4 柱状图
6.3.5 饼图
6.3.6 直方图和密度图
6.3.7 箱线图
6.4 本章小结
6.5 本章练习
第7章 高级绘图工具
7.1 ggplot2绘图工具
7.1.1 从qplot()开始
7.1.2 ggplot()作图
7.1.3 ggplot2扩展包
7.2 交互式绘图工具
7.2.1 recharts包
7.2.2 recharts包
7.2.3 rbokeh包
7.2.4 plotly包
7.3 本章小结
7.4 本章练习
第8章 聚类分析
8.1 概述
8.2 聚类距离度量
8.3 层次聚类
8.3.1 层次聚类原理
8.3.2 R语言实现
8.3.3 聚类树形图可视化
8.3.4 比较聚类树形图
8.4 K-均值聚类
8.4.1 K-均值聚类原理
8.4.2 R语言实现
8.5 K-中心点聚类
8.6 密度聚类
8.6.1 密度聚类原理
8.6.2 R语言实现
8.7 集群评估及验证
8.7.1 估计聚类趋势
8.7.2 确定数据集中的簇数
8.7.3 集群验证
8.8 本章小结
8.9 本章练习
第9章 回归分析
9.1 简单线性回归
9.1.1 简单线性回归原理
9.1.2 简单线性回归R语言实现
9.1.3 模型诊断及预测
9.1.4 指数变换
9.1.5 多项式回归
9.2 多元线性回归
9.3 自变量有定性变量的回归
9.4 逐步回归
9.5 多重共线性分析
9.6 线性回归的正则化
9.6.1 为什么要使用正则化
9.6.2 岭回归的原理
9.6.3 LASSO回归的原理
9.6.4 glmnet包简介
9.6.5 综合案例
9.7 逻辑回归
9.7.1 逻辑回归基本原理
9.7.2 逻辑回归的R语言实现
9.8 本章小结
9.9 本章练习
第10章 决策树
10.1 决策树概述
10.2 决策树基本原理
10.2.1 ID3算法
10.2.2 C4.5算法
10.2.3 CART算法
10.3 R语言实现及案例
10.3.1 R语言实现
10.3.2 C5.0案例
10.3.3 CART案例
10.3.4 条件推理决策树案例
10.3.5 绘制决策边界
10.4 本章小结
10.5 本章练习
第11章 神经网络与支持向量机
11.1 理解神经网络
11.1.1 激活函数
11.1.2 网络结构
11.1.3 人工神经网络的主要类型
11.2 神经网络的R语言实现
11.3 基于神经网络进行类别预测
11.4 理解支持向量机
11.5 支持向量机的R语言实现
11.6 基于支持向量机进行类别预测
11.7 本章小结
11.8 本章练习
第12章 模型性能评估及优化
12.1 模型性能评估
12.1.1 数值预测评估方法
12.1.2 概率预测评估方法
12.2 模型参数优化
12.2.1 训练集、验证集、测试集的引入
12.2.2 K折交叉验证
12.2.3 网格搜索
12.3 本章小结
12.4 本章练习
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...