-
内容大纲
本书讲解了数据分析的方法、逻辑、艺术与实践。全书共17章,第1章介绍了R、RStudio、R Markdown的安装和使用;第2章介绍了数据分析的动机和四个构成要素:①描述数据并形成假设,②模型的构建与估计,③诊断,④提出下一个问题,后续章节将按照数据分析构成要素的顺序来组织;对数据了解得越多,我们就越能够提出更好的问题,形成更好的假设,描述与数据相关的概念和所需的工具,这些内容将在第3~9章中详述;模型的构建与估计是一个应该在理论和证据之间来回往复迭代的过程,关于构建模型的练习将在第10~14章中进行;诊断既能帮助我们发现问题,又能帮助我们发掘有意义的关联,形成额外的解释或假设,关于诊断将会在第15章和第16章中详述;第17章将讨论许多涉及二元因变量的问题;附录A将提供创建其他新假设的技巧和窍门。
本书的基本理念是通过上手操作来学习。学习统计学以及数据分析的艺术与实践的最好方式,就是进行数据分析。本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式。本书适合数据分析初学者,也适合有经验的数据分析人员。 -
作者介绍
-
目录
第1章 入门指南
概述
R、RStudio和R Markdown
对象与函数
RStudio入门
RStudio的R Markdown导览
R Markdown文件与R脚本
小练习
第2章 数据分析导论
概述
数据分析的动机
大数据越来越大
数据分析是一项有市场需求的技能
数据分析是一种公益
数据分析的构成要素
描述数据并形成假设
假设一:民族语言碎片化
假设二:女性选举权
假设三:人力资本
假设四:政治稳定
模型的构建与估计
诊断
结果的稳定性
残差图
提出下一个问题
第3章 描述数据
概述
数据集和变量
不同类型的变量
连续变量
分类变量
有序分类变量
描述数据可以节省时间和精力
数据的形状
数据的极差
辨识困惑、问题、假设和线索
困惑和问题:重要的区别
描述数据以改进问题
描述数据披露了更多线索
度量
有效性
可靠性
第4章 集中趋势和离散程度
概述
集中趋势的度量:众数、平均数和中位数
众数
平均数
中位数
平均数与中位数
离散程度的度量:极差、四分位距和标准差
极差
四分位距
标准差
四分位距与标准差
关于方差的说明
第5章 数据的单变量和双变量描述
概述
好的、差的和离群值
……
第6章 数据变换
第7章 数据展示的一些原则
第8章 概率论精要
第9章 置信区间与假设检验
第10章 进行比较
第11章 受控比较
第12章 线性回归
第13章 多元回归
第14章 虚拟变量和交互作用
第15章 诊断1:普通最小二乘法是否适用
第16章 诊断2:残差、杠杆值与影响力的度量
第17章 逻辑回归
附录A 形成经验蕴涵
同类热销排行榜
- 向着光亮那方/谁的青春不迷茫系列16.8
- 你所谓的稳定不过是在浪费生命15.2
- 全球通史(从史前史到21世纪第7版修订版下)/培文书系21.6
- 答案之书(精)15.2
- 八万四千问18
- 万历十五年/黄仁宇作品系列10.4
- 耶路撒冷三千年(精)31.2
- 中国大历史/黄仁宇作品系列11.2
- 梦的解析15.92
- 鱼羊野史(第6卷11-12月晓松说历史上的今天)18
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...