-
内容大纲
面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。
本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。
由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。 -
作者介绍
丁亚军,自由职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。 -
目录
第1部分 数据分析准备
第1章 从业务到统计
1.1 业务需求从哪来
1.1.1 学习业务的最快途径:阅读运营报告
1.1.2 当务之急:研究痛点
1.1.3 数据分析之锚:未来战略方向
1.1.4 对数据分析“小白”的有益建议
1.2 从小数据到大数据:数据体量与信息分布
1.2.1 实验室:理论验证
1.2.2 问卷:理论验证+探索
1.2.3 数据库:业务验证+探索
1.2.4 数据信息与统计模型
1.2.5 算法应用:是否跨界
1.2.6 算法特征:角色
1.3 数据分析流程的启示
1.3.1 假设:验证与归因
1.3.2 小概率:黑天鹅的不确定
1.3.3 抽样技术:经济是根本
1.3.4 选择模型:方法论
1.3.5 显著性判断:可证伪
第2章 变量角色与描述
2.1 如何描述变量
2.1.1 分类变量与连续变量的分界线
2.1.2 分类变量及可视化
2.1.3 连续变量及可视化
2.2 因变量的测量
2.2.1 测量级别问题
2.2.2 是否存在测量误差
2.2.3 谁会成为“主角”
2.2.4 y的量化场景
2.3 自变量的选择
2.3.1 验证性:x的选择
2.3.2 探索性:x的选择
第3章 数据预分析
3.1 填补缺失
3.1.1 描述缺失数据:行、列、单元格
3.1.2 缺失类型:随机性
3.1.3 小数据填补方案:精确性探讨
3.1.4 大数据填补方案:速度问题探讨
3.2 处理异常值
3.2.1 单变量与双变量异常
3.2.2 无监督异常:聚类分析
3.2.3 监督异常:回归残差分析
3.2.4 小数据与大数据如何看待异常值
3.3 消除共线性
3.3.1 共线性及其危害
3.3.2 小数据的方案:岭回归
3.3.3 大数据方案:项目合并与逐步回归
3.4 内生性问题
3.4.1 内生性及其危害
3.4.2 问题核心:特征选择
3.4.3 三驾马车之一:数据库的应对策略
3.5 变量变换技术
3.5.1 正态分布变换:对数变换
3.5.2 从0到1:老板最喜欢的符号%
3.5.3 强异常值:秩的应用
3.5.4 量纲:标准化变换
3.6 编码技术
3.6.1 为什么需要分箱化
3.6.2 分箱技术要义:数据拐点
3.7 避免过拟合
3.7.1 导致过拟合:行列问题
3.7.2 小数据为什么不谈过拟合
3.7.3 避免过拟合:方法学
第2部分 构建模型与修正技术
第4章 线性回归与统计家族
4.1 差异性问题:方差分析
4.1.1 差异的来源:主效应
4.1.2 差异的来源:交互效应
4.1.3 交互性解释:交互效应图制作
4.2 结构性问题:回归分析
4.2.1 回归分析流程
4.2.2 相关的风向标作用:文氏图
4.2.3 偏相关的归因:中介和调节
4.2.4 回归系数解释:偏回归图
4.2.5 如何相信R2
4.2.6 以残差看假设
4.2.7 残差信息的有和无
4.2.8 小数据需求归纳:重结构轻预测
4.3 算法进化REG:小数据专家的努力
4.3.1 算法1.0:精确度+结构
4.3.2 算法2.0:精确度+结构与预测
4.3.3 算法3.0:速度+预测
4.3.4 算法4.0:加速度
第5章 Logistic回归与统计家族
5.1 预测性问题:Logistic回归
5.1.1 卡方的风向标作用
5.1.2 不一样的R2:预测分类表
5.1.3 回归系数解释:or值与rr值
5.1.4 修正技术:是x而不是y
5.1.5 大数据需求归纳:轻结构重预测
5.2 算法进化Logistic:大数据与智能
5.2.1算法1.0:稳定性+结构
5.2.2算法2.0:稳定性+结构与预测
5.2.3算法3.0:速度+预测
5.2.4算法4.0:加速度
5.3 算法3.0的榜样:神经网络
5.3.1 神经网络算法
5.3.2 DM算法预分析
5.3.3 基于神经网络的常规应用
第6章 降维技术
6.1 主成分回归与压缩技术
6.1.1 四驾马车:实验室、问卷、数据库、云
6.1.2 主成分算法:降维
6.1.3 主成分与因子:谁应该有名字?
6.1.4 主成分回归:“回归+回归”模式
6.2 对应分析:一个市场调查案例
6.2.1 案例背景介绍
6.2.2 模型预分析
6.2.3 构建模型:“广义”双标图
6.2.4 结论及营销
第3部分 模型应用与评估
第7章 回归类模型应用
7.1 结构性问题:偏回归系数
7.1.1 单结构:偏的意义
7.1.2 整体结构:条件规则
7.2 预测性问题:估计值
7.2.1 老样本预测:内衍与市场细分
7.2.2 新样本预测:外推与潜在行为
7.3 模型优劣与模型评价
7.3.1 R2变形记
7.3.2 图示R2:R2图与ROC曲线
7.4 模型优劣与业务评价
7.4.1 小数据的标准:R2
7.4.2 大数据的标准:老板
第8章 数据分析报告
8.1 可视化图形制作
8.1.1 条形图与折线图
8.1.2 频数与分布
8.1.3 多变箱体图
8.1.4 散点图与气泡图
8.2 图形制作与格式
8.2.1 图形制作:绘图、颜色
8.2.2 图形模板制作与调用
8.3 表格制作与格式
8.3.1 表格制作:制表、格式
8.3.2 表格模板制作与调用
8.3.3 OMS控制面板
附录A 数据集
同类热销排行榜
- 向着光亮那方/谁的青春不迷茫系列16.8
- 你所谓的稳定不过是在浪费生命15.2
- 全球通史(从史前史到21世纪第7版修订版下)/培文书系21.6
- 答案之书(精)15.2
- 八万四千问18
- 万历十五年/黄仁宇作品系列10.4
- 耶路撒冷三千年(精)31.2
- 中国大历史/黄仁宇作品系列11.2
- 梦的解析15.92
- 鱼羊野史(第6卷11-12月晓松说历史上的今天)18
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...