欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • R语言统计分析与可视化从入门到精通
      • 作者:张良康|责编:王继伟//姜宝雪
      • 出版社:北京大学
      • ISBN:9787301354469
      • 出版日期:2024/10/01
      • 页数:452
    • 售价:47.6
  • 内容大纲

        本书循序渐进、深入讲解了R语言数据统计分析与应用的核心知识,并通过具体实例的实现过程演练了知识点的用法和流程。全书共16章,分别讲解了R语言基础、R语言数据统计语法基础、数据获取和处理、绘制可视化统计图、描述性统计分析、探索性数据分析、推论统计、回归分析、方差分析、非参数统计分析、主成分分析、聚类分析、生存分析、因子分析、基于机器学习的患者再入院预测分析系统和中概科技指数统计分析与投资系统。全书简洁而不失其技术深度,内容丰富全面,历史资料翔实齐全。同时,本书易于阅读,以极简的文字介绍了复杂的案例,同时涵盖了其他同类图书中很少涉及的历史参考资料,是学习R语言数据统计分析与应用的实用教程。
        本书适用于已经了解R语言基础知识的读者,以及想进一步学习数据分析、统计分析、行业统计应用的读者,也可以作为相关从业者的参考书,还可以作为大专院校相关专业的师生用书和培训学校的专业性教材。
  • 作者介绍

        张良康,浙江大学统计学博士,现就职于恒瑞医药,负责医药临床试验数据分析和统计工作,参与临床试验方案设计沟通和讨论,为临床试验方案中统计学相关内容提供技术支持,包括研究设计方法的选择、样本量计算、随机和盲法、统计方法的选择等。使用R语言、SAS、SPSS等统计分析技术高达8年以上,擅长数据挖掘、分析和统计工作。具有多年的数据统计分析经验,对商务数据、销售数据、科研数据、医学数据和金融数据的统计分析工作也颇有研究。
  • 目录

    第1章  R语言基础
      1.1  R语言的发展历程
      1.2  R 语言的特点
      1.3  获取并安装R语言运行环境
        1.3.1  在Windows操作系统安装R语言
        1.3.2  在Linux操作系统和macOS操作系统安装R语言
      1.4  R语言开发工具:R GUI
        1.4.1  命令行方式运行R语言程序
        1.4.2  文件方式运行R语言程序
      1.5  R语言开发工具:RStudio
        1.5.1  安装RStudio
        1.5.2  RStudio界面简介
        1.5.3  使用RStudio开发R语言程序
      1.6  认识第一个R语言程序:简易数据统计与格式化输出
        1.6.1  新建R语言工程
        1.6.2  编写程序文件
      1.7  R语言和数据处理
        1.7.1  R语言的优势
        1.7.2  数据处理和数据分析的区别
    第2章  R语言数据统计语法基础
      2.1  基本的内置函数
        2.1.1  数学和统计函数
        2.1.2  字符和字符串处理函数
        2.1.3  文件操作函数
        2.1.4  概率分布函数
        2.1.5  日期函数和时间函数
      2.2  内置数据处理函数
        2.2.1  查看、筛选和编辑数据
        2.2.2  合并数据
        2.2.3  分组和汇总
        2.2.4  排序
        2.2.5  转换
      2.3  apply函数族
        2.3.1  apply函数族中的函数
        2.3.2  函数apply()
        2.3.3  函数lapply()
        2.3.4  函数sapply()
        2.3.5  函数vapply()
        2.3.6  函数mapply()
      2.4  数据重塑与变形
      2.5  数据查询与过滤
        2.5.1  使用dplyr包进行数据查询和过滤
        2.5.2  使用sqldf包进行SQL风格的查询
    第3章  数据获取和处理
      3.1  数据获取和处理简介
      3.2  使用键盘输入数据
      3.3  处理CSV数据
        3.3.1  读取CSV文件
        3.3.2  写入CSV文件
        3.3.3  数据转换和处理

      3.4  处理Excel数据
        3.4.1  R语言和Excel文件
        3.4.2  使用readxl包
        3.4.3  使用openxlsx包
      3.5  处理XML数据
        3.5.1  使用XML包
        3.5.2  使用xml2包
      3.6  处理JSON数据
        3.6.1  JSON包
        3.6.2  使用jsonlite包
        3.6.3  使用RJSONIO包
        3.6.4  使用tidyjson包
      3.7  处理MySQL数据
        3.7.1  和MySQL相关的包
        3.7.2  使用RMySQL包
        3.7.3  使用RMariaDB包
        3.7.4  使用DBI包
        3.7.5  dplyr包和dbplyr包
      3.8  从网页抓取数据
        3.8.1  使用rvest包抓取数据
        3.8.2  使用httr包抓取数据
        3.8.3  使用XML包抓取数据
        3.8.4  使用jsonlite包抓取数据
      3.9  数据准备与清洗
        3.9.1  缺失数据处理
        3.9.2  异常值检测和处理
        3.9.3  异常值检测方法小结
    第4章  绘制可视化统计图
      4.1  R语言绘图系统简介
        4.1.1  常用的绘图包
        4.1.2  基本绘图函数plot()
      4.2  单变量绘图
        4.2.1  绘制直方图
        4.2.2  绘制条形图
        4.2.3  绘制饼形图
        4.2.4  绘制箱线图
        4.2.5  绘制密度图
      4.3  双变量绘图
        4.3.1  绘制双变量条形图
        4.3.2  绘制散点图
        4.3.3  绘制折线图
        4.3.4  绘制箱线图(双变量)
      4.4  绘制多变量图
        4.4.1  绘制气泡图
        4.4.2  绘制热力图
      4.5  文件数据的可视化
        4.5.1  CSV文件数据的可视化
        4.5.2  Excel文件数据的可视化
        4.5.3  XML文件数据的可视化
        4.5.4  JSON文件数据的可视化

        4.5.5  MySQL数据库数据的可视化
    第5章  描述性统计分析
      5.1  描述性统计分析简介
      5.2  平均数、中位数和众数
        5.2.1  计算平均数
        5.2.2  计算中位数
        5.2.3  计算众数
      5.3  方差和标准差
        5.3.1  计算方差
        5.3.2  计算标准差
      5.4  百分位数
        5.4.1  常见的百分位数
        5.4.2  计算百分位数
    第6章  探索性数据分析
      6.1  EDA简介
      6.2  检测重复值
        6.2.1  检测重复值简介
        6.2.2  R语言检测重复值的方法
      6.3  数据可视化方法
      6.4  相关性分析
        6.4.1  相关性分析的基本信息
        6.4.2  皮尔逊相关系数
        6.4.3  斯皮尔曼相关系数
        6.4.4  肯德尔相关系数
    第7章  推论统计
      7.1  抽样和抽样分布
      7.2  置信区间
        7.2.1  置信区间的概念
        7.2.2  总体均值的置信区间
        7.2.3  总体比例的置信区间
        7.2.4  总体方差的置信区间
      7.3  假设检验
        7.3.1  假设检验的基本步骤
        7.3.2  假设检验中的错误类型
      7.4  抽样方法
        7.4.1  随机抽样
        7.4.2  系统抽样
        7.4.3  分层抽样
        7.4.4  多阶段抽样
      7.5  推论统计的方向小结
        7.5.1  参数推断
        7.5.2  非参数推断
    第8章  回归分析
      8.1  回归分析简介
      8.2  线性回归和多元线性回归
        8.2.1  线性回归
        8.2.2  多元线性回归
      8.3  逻辑回归
        8.3.1  逻辑回归简介
        8.3.2  逻辑回归的应用领域

        8.3.3  使用逻辑回归模型
      8.4  非线性回归
        8.4.1  非线性回归简介
        8.4.2  使用非线性回归模型
      8.5  条件回归
        8.5.1  条件回归简介
        8.5.2  使用条件回归模型
    第9章  方差分析
      9.1  方差分析简介
      9.2  单因素方差分析
        9.2.1  单因素方差分析的步骤
        9.2.2  单因素方差分析的应用
      9.3  多因素方差分析
        9.3.1  多因素方差分析简介
        9.3.2  两因素方差分析
        9.3.3  多因素方差分析
      9.4  协方差分析
        9.4.1  协方差分析方法简介
        9.4.2  协方差分析的应用
    第10章  非参数统计分析
      10.1  非参数统计的方法
      10.2  秩和检验
        10.2.1  秩和检验简介
        10.2.2  使用秩和检验
      10.3  Wilcoxon符号秩检验
        10.3.1  Wilcoxon符号秩检验简介
        10.3.2  使用Wilcoxon符号秩检验
      10.4  Kruskal-Wallis检验
        10.4.1  Kruskal-Wallis检验简介
        10.4.2  使用Kruskal-Wallis检验
      10.5  Friedman检验
        10.5.1  Friedman检验简介
        10.5.2  使用Friedman检验
      10.6  卡方检验
        10.6.1  卡方检验简介
        10.6.2  卡方拟合度检验
        10.6.3  卡方独立性检验
      10.7  符号检验
        10.7.1  符号检验简介
        10.7.2  使用符号检验
    第11章  主成分分析
      11.1  PCA简介
        11.1.1  PCA的概念
        11.1.2  PCA的应用领域
      11.2  PCA的数学原理
        11.2.1  主成分的提取
        11.2.2  PCA的可解释性
      11.3  PCA的应用:信用卡欺诈检测
        11.3.1  准备R语言包
        11.3.2  导入数据集

        11.3.3  计算ROC和AUC
        11.3.4  可视化处理
        11.3.5  显示混淆矩阵
        11.3.6  探索数据
        11.3.7  相关性分析
        11.3.8  使用随机森林模型
        11.3.9  欺诈预测
        11.3.10  结论
    第12章  聚类分析
      12.1  聚类分析简介
        12.1.1  聚类分析的基本概念
        12.1.2  聚类分析的方法
        12.1.3  聚类分析的应用领域
      12.2  K均值聚类
        12.2.1  K均值聚类简介
        12.2.2  K均值聚类的应用
      12.3  层次聚类
        12.3.1  层次聚类简介
        12.3.2  层次聚类的应用
      12.4  DBSCAN聚类
        12.4.1  DBSCAN简介
        12.4.2  DBSCAN的应用领域
        12.4.3  使用DBSCAN聚类算法
      12.5  高斯混合模型聚类
        12.5.1  高斯混合模型聚类简介
        12.5.2  高斯混合模型聚类的应用
      12.6  谱聚类
        12.6.1  谱聚类简介
        12.6.2  谱聚类的应用
    第13章  生存分析
      13.1  生存分析简介
        13.1.1  生存分析的基本概念
        13.1.2  生存分析的应用领域
        13.1.3  用R语言实现生存分析
      13.2  Kaplan-Meier生存曲线
        13.2.1  Kaplan-Meier生存曲线的解释
        13.2.2  Kaplan-Meier生存曲线的构建
      13.3  Cox比例风险模型
        13.3.1  Cox比例风险模型简介
        13.3.2  Cox比例风险模型的应用
      13.4  心血管疾病的生存分析实战
        13.4.1  数据集简介
        13.4.2  数据预处理
        13.4.3  二元变量分布
        13.4.4  连续变量分布
        13.4.5  死亡事件计数与生存时间
        13.4.6  相关性分析
        13.4.7  变量选择的机器学习模型
        13.4.8  生存分析
        13.4.9  总结

    第14章  因子分析
      14.1  因子分析简介
        14.1.1  因子分析的基本概念
        14.1.2  因子分析的应用领域
      14.2  因子分析方法
        14.2.1  常用的因子分析方法
        14.2.2  最大似然估计法
        14.2.3  最小二乘法
        14.2.4  广义最小二乘法
        14.2.5  主轴因子分析
        14.2.6  因子旋转
        14.2.7  因子得分估计
      14.3  因子分析的应用:心血管疾病风险因素分析系统
        14.3.1  设置环境
        14.3.2  数据准备和探索
        14.3.3  相关性分析
        14.3.4  总结
    第15章  基于机器学习的患者再入院预测分析系统
      15.1  背景简介
      15.2  需求分析
      15.3  系统分析
      15.4  系统简介
        15.4.1  系统功能简介
        15.4.2  系统模块结构
      15.5  技术分析
        15.5.1  dplyr:数据预处理
        15.5.2  psych:心理学和社会科学研究
        15.5.3  ROSE:不平衡处理
        15.5.4  caret模型训练和评估
      15.6  数据处理
        15.6.1  导入数据集
        15.6.2  数据预处理
      15.7  第一方案
        15.7.1  划分训练集和测试集
        15.7.2  数据集平衡
        15.7.3  交叉验证
        15.7.4  模型比较
      15.8  第二方案
        15.8.1  数据集拆分和数据平衡
        15.8.2  逻辑回归模型拟合和预测
        15.8.3  计算处理
        15.8.4  逻辑回归模型的拟合、预测和评估
        15.8.5  使用交叉验证方法训练决策树模型
        15.8.6  使用交叉验证方法训练随机森林模型
        15.8.7  实现朴素贝叶斯模型
      15.9  模型训练和评估
        15.9.1  数据预处理
        15.9.2  逻辑回归模型的训练和评估
        15.9.3  决策树模型的训练和评估
        15.9.4  随机森林模型的训练和评估

        15.9.5  朴素贝叶斯模型的训练和评估
      15.10  结论
    第16章  中概科技指数统计分析与投资系统
      16.1  背景简介
      16.2  需求分析
      16.3  系统分析
        16.3.1  系统目标
        16.3.2  系统模块
        16.3.3  数据处理流程
      16.4  技术栈
        16.4.1  Tidyquant:财务数据分析
        16.4.2  Tidyverse:数据处理工具
        16.4.3  Loess平滑算法:非参数统计方法
      16.5  数据处理
      16.6  中概股技术分析
        16.6.1  股票价格和收益分析
        16.6.2  配对分析统计图
        16.6.3  MACD技术分析统计图
        16.6.4  OBV技术分析统计图
        16.6.5  CCI技术分析统计图
        16.6.6  Chaikin AD Line技术分析统计图
        16.6.7  相对表现比率统计图
        16.6.8  RSI技术分析统计图
        16.6.9  交易差价技术分析统计图
        16.6.10  CCI密度图
        16.6.11  自定义指数技术分析统计图

推荐书目

  • 孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...

  • 时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...

  • 本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...

更多>>>